統(tǒng)一碼聯(lián)盟是一個(gè)致力于開發(fā),維護(hù),發(fā)展全球通用軟件標(biāo)準(zhǔn)和數(shù)據(jù)格式,特別是維護(hù)Unicode編碼標(biāo)準(zhǔn)的非牟利機(jī)構(gòu)。統(tǒng)一碼聯(lián)盟制定了一種可以對(duì)全球幾乎所有語(yǔ)言文字進(jìn)行編碼的標(biāo)準(zhǔn)。
其宗旨為最終以統(tǒng)一碼取代現(xiàn)存的字符編碼。因?yàn)楝F(xiàn)存編碼不能夠在多語(yǔ)言計(jì)算機(jī)環(huán)境中使用,而且字符數(shù)有局限。同時(shí)它也制定了數(shù)種統(tǒng)一碼轉(zhuǎn)換格式(UTF,Unicode Transformation Format)。
Unicode是為了解決傳統(tǒng)的字符編碼方案的局限而產(chǎn)生的,例如ISO 8859-1所定義的字符雖然在不同的國(guó)家中廣泛地使用,可是在不同國(guó)家間卻經(jīng)常出現(xiàn)不兼容的情況。
很多傳統(tǒng)的編碼方式都有一個(gè)共同的問(wèn)題,即容許計(jì)算機(jī)處理雙語(yǔ)環(huán)境(通常使用拉丁字母以及其本地語(yǔ)言),但卻無(wú)法同時(shí)支持多語(yǔ)言環(huán)境(指可同時(shí)處理多種語(yǔ)言混合的情況)。Unicode編碼包含了不同寫法的字,如“ɑ/a”、“強(qiáng)/強(qiáng)”、“戶/戶/戸”。然而在漢字方面引起了一字多形的認(rèn)定爭(zhēng)議(詳見(jiàn)中日韓統(tǒng)一表意文字主題)。
在文字處理方面,統(tǒng)一碼為每一個(gè)字符而非字形定義唯一的代碼(即一個(gè)整數(shù))。換句話說(shuō),統(tǒng)一碼以一種抽象的方式(即數(shù)字)來(lái)處理字符,并將視覺(jué)上的演繹工作(例如字體大小、外觀形狀、字體形態(tài)、文體等)留給其他軟件來(lái)處理,例如網(wǎng)頁(yè)瀏覽器或是文字處理器。
幾乎所有計(jì)算機(jī)系統(tǒng)都支持基本拉丁字母,并各自支持不同的其他編碼方式。Unicode為了和它們相互兼容,其首256字符保留給ISO 8859-1所定義的字符,使既有的西歐語(yǔ)系文字的轉(zhuǎn)換不需特別考量;
并且把大量相同的字符重復(fù)編到不同的字符碼中去,使得舊有紛雜的編碼方式得以和Unicode編碼間互相直接轉(zhuǎn)換,而不會(huì)丟失任何信息。舉例來(lái)說(shuō),全角格式區(qū)段包含了主要的拉丁字母的全角格式,
在中文、日文、以及韓文字形當(dāng)中,這些字符以全角的方式來(lái)呈現(xiàn),而不以常見(jiàn)的半角形式顯示,這對(duì)豎排文字和等寬排列文字有重要作用。
在表示一個(gè)Unicode的字符時(shí),通常會(huì)用“U ”然后緊接著一組十六進(jìn)制的數(shù)字來(lái)表示這一個(gè)字符。在基本多文種平面(英文:Basic Multilingual Plane,簡(jiǎn)寫B(tài)MP。又稱為“零號(hào)平面”、plane 0)里的所有字符,要用四位十六進(jìn)制數(shù)(例如U 4AE0,共支持六萬(wàn)多個(gè)字符);
在零號(hào)平面以外的字符則需要使用五位或六位十六進(jìn)制數(shù)了。舊版的Unicode標(biāo)準(zhǔn)使用相近的標(biāo)記方法,但卻有些微小差異:在Unicode 3.0里使用“U-”然后緊接著八位數(shù),而“U ”則必須隨后緊接著四位數(shù)。
位于美國(guó)加州的Unicode組織允許任何愿意支付會(huì)費(fèi)的公司和個(gè)人加入,其成員包含了主要的計(jì)算機(jī)軟硬件廠商,例如奧多比系統(tǒng)、蘋果公司、惠普、IBM、微軟、施樂(lè)等。
20世紀(jì)80年代末,組成Unicode組織的商業(yè)機(jī)構(gòu),和國(guó)際合作的國(guó)際標(biāo)準(zhǔn)化組織因?yàn)橛?jì)算機(jī)普及和信息國(guó)際化的前提下,分別各自成立了Unicode組織和ISO-10646工作小組。
他們不久便發(fā)現(xiàn)對(duì)方的存在,大家為著相同的目的而工作,于是兩個(gè)組織便共同合作開發(fā)適用于各國(guó)語(yǔ)言的通用碼,而且“相當(dāng)有默契地”各自發(fā)表Unicode和ISO-10646字集。雖然實(shí)際上兩者的字集編碼相同,但實(shí)質(zhì)上兩者確實(shí)為兩個(gè)不同的標(biāo)準(zhǔn)。
統(tǒng)一碼聯(lián)盟在1991年首次發(fā)布了The Unicode Standard。Unicode的開發(fā)結(jié)合了國(guó)際標(biāo)準(zhǔn)化組織所制定的ISO/IEC 10646,即通用字符集。Unicode與ISO/IEC 10646在編碼的運(yùn)作原理相同,
但The Unicode Standard包含了更詳盡的實(shí)現(xiàn)信息、涵蓋了更細(xì)節(jié)的主題,諸如比特編碼(bitwise encoding)、校對(duì)以及呈現(xiàn)等。The Unicode Standard也枚舉了諸多的字符特性,包含了那些必須支持兩種閱讀方向的文字(由左至右或由右至左的文字閱讀方向,例如阿拉伯文是由右至左)。Unicode與ISO/IEC 10646這兩個(gè)標(biāo)準(zhǔn)在術(shù)語(yǔ)上的使用有些微的不同。
2005年,Unicode的第十萬(wàn)個(gè)字符被引入成為標(biāo)準(zhǔn)之一,該字符被用于馬來(lái)亞拉姆語(yǔ)。
2020年,Unicode發(fā)布了13.0,共收錄143,859個(gè)字符。
統(tǒng)一碼聯(lián)盟由世界各地主要的電腦制造商、軟件開發(fā)商、數(shù)據(jù)庫(kù)開發(fā)商、政府部門、研究機(jī)構(gòu)、國(guó)際機(jī)構(gòu)、各用戶組織及個(gè)人組成。統(tǒng)一碼聯(lián)盟的領(lǐng)導(dǎo)者及管理人員來(lái)自各個(gè)組織及行業(yè),代表著最廣泛的編碼應(yīng)用。
統(tǒng)一碼聯(lián)盟包含三個(gè)技術(shù)委員會(huì)和一個(gè)編輯委員會(huì):Unicode Technical Committee,Unicode CLDR Technical Committee,Unicode Localization Interoperability Technical CommitteeEditorial Committee.
統(tǒng)一碼聯(lián)盟積極與各標(biāo)準(zhǔn)制訂機(jī)構(gòu)合作,包括國(guó)際標(biāo)準(zhǔn)化組織(ISO)、國(guó)際電工委員會(huì)(IEC)、萬(wàn)維網(wǎng)聯(lián)盟(W3C)、互聯(lián)網(wǎng)工程工作小組(IETF)和歐洲計(jì)算機(jī)制造協(xié)會(huì)(ECMA)等。
The Unicode® Standard,Version 13.0 – Core Specification, The Unicode Consortium, Addison-Wesley Professional,ISBN 978-1-936213-26-9
The Unicode Standard, Version 5.0, Fifth Edition, The Unicode Consortium, Addison-Wesley Professional, Oct. 27, 2006.ISBN 978-0-321-48091-0
The Unicode Standard, Version 4.0, The Unicode Consortium, Addison-Wesley Professional, Aug. 27, 2003.ISBN 978-0-321-18578-5
《Unicode標(biāo)準(zhǔn)》(The Unicode Standard)
《字符數(shù)字庫(kù)》(Character Database)
《Unicode技術(shù)準(zhǔn)備和報(bào)告》(Unicode Technical Standards and Reports)
《Unicode技術(shù)說(shuō)明書》(Unicode Technical Notes)等等。
統(tǒng)一碼的成功讓計(jì)算機(jī)使用進(jìn)入了一個(gè)新紀(jì)元,并應(yīng)用于很多新技術(shù),如XML、Java編程語(yǔ)言和現(xiàn)今的操作系統(tǒng)。