· KLDP.org · KLDP.net · KLDP Wiki · KLDP BBS ·
Apache Nutch MultiLingual Support

[http]Sen을 이용할 수 있게 해주는 NutchAnalysis.jj 패치방법을 참고해 일본어 처리가 가능해졌음. 아직 자동 인식은 못하고 있음.
[http]일본어 N-Gram Profile 만들기를 이용해 일본어가 자동 인식되게 할 수 있다. 아직 테스트는 못해봤음.

어떻게?

nutch의 [http]공식 위키를 따라 해본다. [http]FAQ도 참조할 만한 내용이 있다.


시작

로컬에 nutch binary를 설치한 후에

dormael@dormael-desktop:~/nutch-test/nutch-0.8.1$ mkdir test
dormael@dormael-desktop:~/nutch-test/nutch-0.8.1$ vi test/nutch
dormael@dormael-desktop:~/nutch-test/nutch-0.8.1$ cat test/nutch 
http://my.domain.name/

크롤러가 외부 링크로 나가는 것을 막기 위해 아래와 같이 수정.
dormael@dormael-desktop:~/nutch-test/nutch-0.8.1$ vi conf/crawl-urlfilter.txt

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*my.domain.name/

문제 발생 및 해결

nutch 크롤러가 상세한 메시지 없이 계속 NullPointerException을 냈음. 찾아본 결과 기본 설정에 추가적으로 필요한 내용이 누락됨.

dormael@dormael-desktop:~/nutch-test/nutch-0.8.1$ vi conf/nutch-site.xml

프로퍼티들 중에 크롤러의 정보를 넣어준 후에 문제없이 실행됨. 기본값이 비어 있어서 Exception이 발생된 것으로 보임.

<name>http.agent.name</name>
<value>My Nutch Test</value>

<name>http.agent.description</name>
<value>Test</value>

<name>http.agent.url</name>
<value>no</value>

<name>http.agent.email</name>
<value>no</value>



sponsored by andamiro
sponsored by cdnetworks
sponsored by HP

Valid XHTML 1.0! Valid CSS! powered by MoniWiki
last modified 2010-01-14 14:28:37
Processing time 0.0079 sec