· KLDP.org · KLDP.net · KLDP Wiki · KLDP BBS ·
Apache Nutch MultiLingual Support

[http]Sen을 이용할 수 있게 해주는 NutchAnalysis.jj 패치방법을 참고해 일본어 처리가 가능해졌음. 아직 자동 인식은 못하고 있음.
[http]일본어 N-Gram Profile 만들기를 이용해 일본어가 자동 인식되게 할 수 있다. 아직 테스트는 못해봤음.

어떻게?

nutch의 [http]공식 위키를 따라 해본다. [http]FAQ도 참조할 만한 내용이 있다.


시작

로컬에 nutch binary를 설치한 후에

dormael@dormael-desktop:~/nutch-test/nutch-0.8.1$ mkdir test
dormael@dormael-desktop:~/nutch-test/nutch-0.8.1$ vi test/nutch
dormael@dormael-desktop:~/nutch-test/nutch-0.8.1$ cat test/nutch 
http://my.domain.name/

크롤러가 외부 링크로 나가는 것을 막기 위해 아래와 같이 수정.
dormael@dormael-desktop:~/nutch-test/nutch-0.8.1$ vi conf/crawl-urlfilter.txt

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*my.domain.name/

문제 발생 및 해결

nutch 크롤러가 상세한 메시지 없이 계속 NullPointerException을 냈음. 찾아본 결과 기본 설정에 추가적으로 필요한 내용이 누락됨.

dormael@dormael-desktop:~/nutch-test/nutch-0.8.1$ vi conf/nutch-site.xml

프로퍼티들 중에 크롤러의 정보를 넣어준 후에 문제없이 실행됨. 기본값이 비어 있어서 Exception이 발생된 것으로 보임.

<name>http.agent.name</name>
<value>My Nutch Test</value>

<name>http.agent.description</name>
<value>Test</value>

<name>http.agent.url</name>
<value>no</value>

<name>http.agent.email</name>
<value>no</value>

ID
Password
Join
It is Fortune, not wisdom that rules man's life.


sponsored by andamiro
sponsored by cdnetworks
sponsored by HP

Valid XHTML 1.0! Valid CSS! powered by MoniWiki
last modified 2010-01-14 14:28:37
Processing time 0.0038 sec