· KLDP.org · KLDP.net · KLDP Wiki · KLDP BBS ·
한글사전토론

한글사전 형식에 관한 이야기

우선 단어:품사:뜻 정도면 될 것입니다.

품사표는 http://kle.kldp.org/wiki.php/TagSet 에 약간 정리되어 있습니다.

KTS의 사전형식을 정리해보자면 우선 KTS는 확률을 기반해 처리하는 기능이 있습니다. (자세한 내용은 KTS 설명서 참조)

그래서 다음과 같은 식으로 확률이 추가되어 있습니다.
	nn 일곱 10 (품사 단어 확률)

예외처리를 위해 다음과 같은 사전도 따로 두고 있습니다.

	$이러지$    이렇게/a+하/pv+지/ecx
	+아야겠+    아야/ecx+하/px+겠/efp
	$뭐+        무엇/npd

위 모든 내용을 통합하고 libhangul의 한자사전 hanja.txt의 형식으로 쓸 수 있게 하자면
	이러지:이렇게/a+하/pv+지/ecx:
	아야겠:아야/ecx+하/px+겠/efp:
	뭐:무엇/npd:
	일곱:nn%10:
	흙탕물:nc%1:
	흙투성이:nc%1:

현대 국어 사용 빈도 조사 결과 파일(텍스트 파일) @freq_res.zip (1.86 MB)



sponsored by andamiro
sponsored by cdnetworks
sponsored by HP

Valid XHTML 1.0! Valid CSS! powered by MoniWiki
last modified 2008-05-05 23:53:42
Processing time 0.0053 sec