Unicode – komputerowy zestaw znaków mający w zamierzeniu obejmować wszystkie pisma używane na świecie. Definiują go dwa standardy – Unicode oraz ISO 10646. Znaki obu standardów są identyczne. Standardy te różnią się w drobnych kwestiach, m.in. Unicode określa sposób składu.
Rozwijany jest przez konsorcjum, w którego skład wchodzą ważne firmy komputerowe, producenci oprogramowania, instytuty naukowe, agencje międzynarodowe oraz grupy zainteresowanych użytkowników. Konsorcjum współpracuje z organizacją ISO.
Spis treści |
Standard Unicode obejmuje przydział przestrzeni numeracyjnej poszczególnym grupom znaków, nie obejmuje zaś sposobów bajtowego kodowania znaków. Jest kilka metod kodowania, oznaczanych skrótowcami UCS (Universal Character Set) i UTF (Unicode Transformation Format). Do najważniejszych należą:
Mniej popularnymi kodowaniami Unicode są:
Istnieją również inne kodowania, stanowiące margines lub pozostające na etapie propozycji, na przykład:
Kody pierwszych 256 znaków Unicode pokrywają się z kodami ISO Latin 1 (czyli ISO-8859-1). Należy jednak pamiętać, że jest to zbieżność wyłącznie numerów przyporządkowanych konkretnym znakom, wartości bajtów użytych do ich zapisania mogą (i w większości kodowań będą) się różnić od tych, które uzyska się stosując Latin 1.
Typowe układy klawiatur udostępniają tylko niewielki zbiór znaków, na przykład standardowe polskie układy klawiatury zawierają wyłącznie polskie litery i znak euro, nie zawierają natomiast znaków cudzysłowu. Do wprowadzania znaków nieobecnych na klawiaturze można użyć jednej z poniższych metod:
Istnieją też programy do tworzenia własnych układów klawiatur, dzięki nim można podpiąć dowolny znak Unicode pod dowolną kombinację klawiszy (najczęściej wykorzystywana jest kombinacja AltGr+klawisz, gdzie AltGr to prawy klawisz Alt). Niektóre programy dla Windows pozwalają jedynie na wprowadzanie z klawiatury znaków istniejących jedynie w stronie kodowej właściwej dla języka klawiatury, np. w przypadku polskiego systemu Windows próba wpisania kombinacją AltGr+klawisz znaku nie istniejącego w stronie kodowej Windows-1250 nie da oczekiwanego efektu. Inne ograniczenie systemu Windows dotyka znaków o numerach z zakresu 160–255. Przytrzymanie wciśniętego klawisza Alt i wpisanie trzycyfrowego numeru z tego zakresu powoduje wstawienie znaku o tym numerze ze strony kodowej DOS właściwej dla języka klawiatury (w przypadku polskiej klawiatury będzie to znak ze strony kodowej CP852), zaś wpisanie numeru poprzedzonego zerem – znaku ze strony kodowej Windows (w przypadku polskiej klawiatury będzie to znak ze strony kodowej Windows-1250).
Rada Języka Polskiego proponuje nazwę unikod dla każdego systemu unifikacji kodyfikacji liter[3].