다음 이전 차례

1. UCS와 ISO 10646은 무엇인가?

ISO 10646국제 표준은 Universal Character Set(UCS)를 정의하고 있다. UCS는 모든 다른 종류의 문자셋 표준(character set standards)의 상위에 존재하는 문자셋이다. 이것은 다른 문자셋과의 상호 호환성을 보증한다. 만약 어떤 텍스트 문자열을 UCS로 변환하고 다시 원래의 인코딩으로 변환할 경우 어떤 정보도 손실되지 않을 것이다.

ISO 10646은 공식적으로 31비트 문자셋을 정의하고 있다. 그러나 지금까지 문자들은 이러한 큰 코드 공간(of this huge code space)중에서도 오직 처음에서부터 65534번째 위치(0x0000 부터 0xFFFD까지)까지에만 위치했었다. 이러한 UCS의 16비트 서브셋은 기본적인 다국언어용 영역(Bagic Multilingual Plane : BMP) 혹은 영역 0(Plane 0)라고 부른다. BMP 영역을 벗어나 인코딩될 것이 예상되는 문자들은 역사적 혹은 과학적 목적으로 단지 전문가들만이 사용하는 약간 색다른 언어에 모두 포함된다(예: 상형문자). 현재 계획은 0x000000 부터 0x10FFFF까지의 21비트 코드 공간의 외부에 할당되는 문자들은 없을 것이라고 제안하고 있다. 이것은 백만개를 조금 넘는 잠재성있는 미래의 문자들을 지원할 것이다. ISO 10646-1 기준은 1993년에 최초로 제안됐으며, 문자의 구조와 BMP 영역의 내용을 정의하고 있다. BMP 영역의 외부에 인코딩되는 문자들을 정의하고 있는 두번째 파트인 ISO 10646-2는 준비 중에 있으나, 그것이 완성되기까지는 수년이 걸릴지도 모른다. 기반 문자에 이어 끊임없이 새로운 문자들이 BMP 영역에 포함되고 있지만, 현재 존재하고 있는 문자들은 결코 변하지 않을 것이며 안정성을 확보하고 있다.

UCS는 각각의 문자에 코드 번호 뿐만 아니라 공식 명칭도 할당하고 있다. UCS 혹은유니코드 값을 나타내는 16진수는 일반적으로 "라틴 대문자 A"를 나타내는 U+0041처럼 앞에 "U+"라는 접두사가 붙는다. UCS 문자 U+0000 부터 U+007F는 US-ASCII(ISO 646 IRV)에서와 같은 의미를 갖는다. 그리고 U+0000 부터 U+00FF까지의 범위는 ISO 8859-1(Latin-1)에서와 같다. U+E000에서부터 U+F8FF까지의 범위와 BMP 영역 외부의 더 큰 범위는 개인적인 용도를 위해 보존된다.

UCS 기준의 완전한 명칭은 다음과 같다.

International Standard ISO/IEC 10646-1, Information technology --
Universal Multiple-Octet Coded Character Set (UCS) -- Part 1:
Architecture and Basic Multilingual Plane. Second edition,
International Organization for Standardization, Geneva, 2000-09-15.

이것은 PDF 파일로 저장된 CD-ROM 세트로 80 스위스프랑( 54 유로화,  45 미국달러,  32 영국파운드)에 ISO로부터 온라인으로 주문 할 수 있다.


다음 이전 차례