다음
이전
차례
40000개의 문자를 가지는 유니코드를 완벽하게 구현하는 것은 거대한 프로젝트이다
. 그러나 전과 같이 단지 수백 또는 수천 문자를 구현하는 것과 유니코드화를 거친 단
순한 하나의 인코딩속에서 모든 필요한 문자에 접근하는 단순함을 즐기는 것도 종종
중요하다(특히 유럽 시장을 위해서). 수많은 다른 UCS 서브셋들은 이미 확립되었다.
-
Windows Glyph List 4.0 (WGL4)는 8비트 MS-DOS, Windows, Mac 및
마이크로소프트가 예전에 사용한 적이 있는 ISO 코드 페이지를 모두 지원하는 650
문자로 구성된 셋이다. 모든 Windows 폰트는 현재 적어도 WGL4 전 목록을 포함한다.
WGL4는 CEN MES-1(
=
WGL4 테스트 파일">)을 모두 포함하는 셋이다.
- 세가지
유럽용 UCS 서브셋 MES-1, MES-2 및 MES-3은 유럽 표준 위원회 CEN/TC304에
의해서 CWA 13873 안에 정의 되었다.
- MES-1은 단지 335가지 문자를 갖는 매우 작은 라틴어 하위 문자셋이다.
이것은 정확하게 ISO 6937에서 볼 수 있는 모든 문자와 이에 더한 EURO SIGN을
포함한다. 이것은 ISO 8859의 1,2,3,4,9,10,15 부분의 모든 문자를 MES-1이
포함한다는 것을 의미한다. 주의: 만약 여러분의 목적이 단지 가장 비용이 적게
들고 간단한 합리적인 중앙 유럽용 UCS 하위 문자셋을 제공하는 것이라면, 나는
MES-1에 MES-1에는 없는 Windows 코드 페이지 1252쪽에서 볼 수 있는 다음의 중요한
14개의 부가 문자들을 더해서 구현할 것이다: U+0192, U+02C6, U+02DC, U+2013,
U+2014, U+201A, U+201E, U+2020, U+2021, U+2022, U+2026, U+2030, U+2039, U+203A.]
- MES-2는 1052개의 문자들을 가진 라틴어/그리스어/키릴어/미국어/그루지아어를
위한 하위 문자셋이다. 이것은 유럽(단지 EU 국가들만이 아닌)과 유럽의 언어를
사용하는 나라에서 사용되는 모든 언어와 모든 8비트 코드 페이지를 포함한다.
이것은 또한 기술 문서에서 사용하는 적은 량의 수학 기호를 더 포함하고 있다.
MES-2는 MES-1을 포함하는 문자셋이다. 만약 여러분이 단지 유럽 혹은 서방 시장을
위해서 개발하고 있다면, MES-2는 추천할 만한 문자셋이다. [주의: 엉뚱한
사회-정치적 이유때문에, MES-2에서 다음의 8가지 WGL4문자들은 포함하지 않고 있다:
U+2113, U+212E, U+2215, U+25A1, U+25AA, U+25AB, U+25CF, U+25E6. 만약 당신이
MES-2를 구현한다면, 절대적으로 빠진 8가지 WGL4문자들을 추가해야만하며,
그런 후에야 문자셋을 WGL4와 일치시킬 수 있다.
- MES-3는 2819문자를 갖는 매우 포괄적인 UCS 서브셋이다. 이것은 단순히
유럽 사용자들에게는 잠재력이 있는 매우 유용한 UCS 모음(collection)을 모두
포함한다. 이것은 더욱더 열정적인 개발자들을 위한 것이다. MES-3은 MES-2와
WGL4를 포함하는 문자셋이다.
JIS X 0221-1995는 일본어 사용자들을 위한 7개의 겹치지 않는 UCS 서브셋을
명시하고 있다.
- 기본적인 일본어(6884개 문자): JIS X 0208-1997, JIS X 0201-1997
- 일본어 비-표의 문자(Non-ideographic) 보완(1913개 문자): JIS X 0212-1990
비-간지 문자(non-kanji) 및 여러가지 다른 비-간지 문자
- 일본어 표의 문자 보완 1(918개 문자): 몇몇 JIS X 0212-1990 간지 문자
- 일본어 표의 문자 보완 2(4883개 문자): 나머지 JIS X 0212-1990 간지 문자
- 일본어 표의 문자 보완 3(8745개 문자): 나머지 중국어 문자
- 완전한 폭을 갖는 Alphanumeric(94개 문자): 호환성을 위해서
- 절반의 폭을 갖는 카타카나 문자(63개 문자): 호환성을 위해서
ISO 10646 표준은 그것의 전체 목록을, 서브셋을 정의하고 기록하기 위해서
사용하는 수많은
묶음들(collections)로 나눈다. 유니코드도
비슷하지만, 똑같지는 않은 유니코드 표준의 각 섹션에 대응하는 문자들의
블록
(blocks of characters)을 정의하고 있다.
RFC 1815는 ISO 10646을 명백히 좋아하지 않으며 JIS X 0221-1995를 잘
모르는 누군가에 의해서 1995년에 쓰여진 일종의 메모이다. 그것은 14개의 UCS
묶음으로 구성된 "ISO-10646-J-1"이라고 불리는 어떤 UCS 서브셋에 관해 논의하고
있으며, 14개의 UCS 묶음의 몇몇은 JIS X 0208과 엇갈린다. 이것은 과거 1995년의
일본판 Windows NT 버전에 포함된 어떤 특별한 폰트가 우연히 만들어졌다는 것이다.
RFC 1815는 오늘날 완전히 시대에 뒤떨어졌으며 적절하지 않으며, 무시하는 것이
최선이다.
Markus Kuhn은
ucs-fonts.tar.gz의 README 파일에서 세가지 UCS 서브셋
TARGET1, TARGET2 및 TARGET3을 정의하고 있는데 이들은 대응하는 MES 서브셋을
알맞게 확장한 것이며, xterm의 폰트 패키지를 완성하기 위한 근간이 되었다.
Markus Kuhn의
유니셋(uniset) Perl 스크립트는 구현한 프로그램이 제대로 동작하는 지를
체크하기를 원하거나 새로운 프로그램을 만들고 싶어하는 사람들을 위하여 UCS
서브셋 위에 편리한 산술 계산 셋(set)을 사용하는 것을 허용하고 있다.
다음
이전
차례