統(tǒng)一碼聯(lián)盟是一個致力于開發(fā),維護,發(fā)展全球通用軟件標(biāo)準(zhǔn)和數(shù)據(jù)格式,特別是維護Unicode編碼標(biāo)準(zhǔn)的非牟利機構(gòu)。統(tǒng)一碼聯(lián)盟制定了一種可以對全球幾乎所有語言文字進行編碼的標(biāo)準(zhǔn)。
其宗旨為最終以統(tǒng)一碼取代現(xiàn)存的字符編碼。因為現(xiàn)存編碼不能夠在多語言計算機環(huán)境中使用,而且字符數(shù)有局限。同時它也制定了數(shù)種統(tǒng)一碼轉(zhuǎn)換格式(UTF,Unicode Transformation Format)。
Unicode是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的,例如ISO 8859-1所定義的字符雖然在不同的國家中廣泛地使用,可是在不同國家間卻經(jīng)常出現(xiàn)不兼容的情況。
很多傳統(tǒng)的編碼方式都有一個共同的問題,即容許計算機處理雙語環(huán)境(通常使用拉丁字母以及其本地語言),但卻無法同時支持多語言環(huán)境(指可同時處理多種語言混合的情況)。Unicode編碼包含了不同寫法的字,如“ɑ/a”、“強/強”、“戶/戶/戸”。然而在漢字方面引起了一字多形的認(rèn)定爭議(詳見中日韓統(tǒng)一表意文字主題)。
在文字處理方面,統(tǒng)一碼為每一個字符而非字形定義唯一的代碼(即一個整數(shù))。換句話說,統(tǒng)一碼以一種抽象的方式(即數(shù)字)來處理字符,并將視覺上的演繹工作(例如字體大小、外觀形狀、字體形態(tài)、文體等)留給其他軟件來處理,例如網(wǎng)頁瀏覽器或是文字處理器。
幾乎所有計算機系統(tǒng)都支持基本拉丁字母,并各自支持不同的其他編碼方式。Unicode為了和它們相互兼容,其首256字符保留給ISO 8859-1所定義的字符,使既有的西歐語系文字的轉(zhuǎn)換不需特別考量;
并且把大量相同的字符重復(fù)編到不同的字符碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉(zhuǎn)換,而不會丟失任何信息。舉例來說,全角格式區(qū)段包含了主要的拉丁字母的全角格式,
在中文、日文、以及韓文字形當(dāng)中,這些字符以全角的方式來呈現(xiàn),而不以常見的半角形式顯示,這對豎排文字和等寬排列文字有重要作用。
在表示一個Unicode的字符時,通常會用“U ”然后緊接著一組十六進制的數(shù)字來表示這一個字符。在基本多文種平面(英文:Basic Multilingual Plane,簡寫B(tài)MP。又稱為“零號平面”、plane 0)里的所有字符,要用四位十六進制數(shù)(例如U 4AE0,共支持六萬多個字符);
在零號平面以外的字符則需要使用五位或六位十六進制數(shù)了。舊版的Unicode標(biāo)準(zhǔn)使用相近的標(biāo)記方法,但卻有些微小差異:在Unicode 3.0里使用“U-”然后緊接著八位數(shù),而“U ”則必須隨后緊接著四位數(shù)。
位于美國加州的Unicode組織允許任何愿意支付會費的公司和個人加入,其成員包含了主要的計算機軟硬件廠商,例如奧多比系統(tǒng)、蘋果公司、惠普、IBM、微軟、施樂等。
20世紀(jì)80年代末,組成Unicode組織的商業(yè)機構(gòu),和國際合作的國際標(biāo)準(zhǔn)化組織因為計算機普及和信息國際化的前提下,分別各自成立了Unicode組織和ISO-10646工作小組。
他們不久便發(fā)現(xiàn)對方的存在,大家為著相同的目的而工作,于是兩個組織便共同合作開發(fā)適用于各國語言的通用碼,而且“相當(dāng)有默契地”各自發(fā)表Unicode和ISO-10646字集。雖然實際上兩者的字集編碼相同,但實質(zhì)上兩者確實為兩個不同的標(biāo)準(zhǔn)。
統(tǒng)一碼聯(lián)盟在1991年首次發(fā)布了The Unicode Standard。Unicode的開發(fā)結(jié)合了國際標(biāo)準(zhǔn)化組織所制定的ISO/IEC 10646,即通用字符集。Unicode與ISO/IEC 10646在編碼的運作原理相同,
但The Unicode Standard包含了更詳盡的實現(xiàn)信息、涵蓋了更細(xì)節(jié)的主題,諸如比特編碼(bitwise encoding)、校對以及呈現(xiàn)等。The Unicode Standard也枚舉了諸多的字符特性,包含了那些必須支持兩種閱讀方向的文字(由左至右或由右至左的文字閱讀方向,例如阿拉伯文是由右至左)。Unicode與ISO/IEC 10646這兩個標(biāo)準(zhǔn)在術(shù)語上的使用有些微的不同。
2005年,Unicode的第十萬個字符被引入成為標(biāo)準(zhǔn)之一,該字符被用于馬來亞拉姆語。
2020年,Unicode發(fā)布了13.0,共收錄143,859個字符。
統(tǒng)一碼聯(lián)盟由世界各地主要的電腦制造商、軟件開發(fā)商、數(shù)據(jù)庫開發(fā)商、政府部門、研究機構(gòu)、國際機構(gòu)、各用戶組織及個人組成。統(tǒng)一碼聯(lián)盟的領(lǐng)導(dǎo)者及管理人員來自各個組織及行業(yè),代表著最廣泛的編碼應(yīng)用。
統(tǒng)一碼聯(lián)盟包含三個技術(shù)委員會和一個編輯委員會:Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
統(tǒng)一碼聯(lián)盟積極與各標(biāo)準(zhǔn)制訂機構(gòu)合作,包括國際標(biāo)準(zhǔn)化組織(ISO)、國際電工委員會(IEC)、萬維網(wǎng)聯(lián)盟(W3C)、互聯(lián)網(wǎng)工程工作小組(IETF)和歐洲計算機制造協(xié)會(ECMA)等。
The Unicode® Standard,Version 13.0 – Core Specification, The Unicode Consortium, Addison-Wesley Professional,ISBN 978-1-936213-26-9
The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
《Unicode標(biāo)準(zhǔn)》(The Unicode Standard)
《字符數(shù)字庫》(Character Database)
《Unicode技術(shù)準(zhǔn)備和報告》(Unicode Technical Standards and Reports)
《Unicode技術(shù)說明書》(Unicode Technical Notes)等等。
統(tǒng)一碼的成功讓計算機使用進入了一個新紀(jì)元,并應(yīng)用于很多新技術(shù),如XML、Java編程語言和現(xiàn)今的操作系統(tǒng)。