unicode編碼發明_java中unicode是誰開發的

A. 中文屬於Unicode 編碼嗎

Unicode是國際標准字元集，可譯為萬國碼或統一碼等，這是電腦系統採用字型檔的字元集標准，包含中日韓越漢字和世界上絕大多數語言文字，便於實現全球間信息交流。其標準的版本不斷更新，第6版的漢字數達7.67萬以上。

WindowsXP～Windows7採用的是萬國碼3.0版，也就是國標GBK標準的字元集，只有2萬余漢字，其中缺少通用規范漢字275個；Windows8雖然採用了萬國碼5.0版，已擁有7.5萬漢字，但仍缺通用規范漢字113個。

從網上下載並安裝萬國碼6.0版之後，就能顯示8105個通用規范漢字了。

但要使用全部漢字，還得有超大字元集的輸入法才行。多元漢字與圖形符號輸入法就是這樣一種輸入法。不但能在3碼內首屏輸入任一通用規范漢字，還能簡單萬輸入國碼所有漢字，例如全部由「木」字組成的漢字為：木、林、森、𣓏、𣛧、、𣡕、𣡽。後五個字未裝超大字元集字型檔的電腦看不見，這里製成圖片格式如下所示：

這五個字不在常用漢字范圍內，但都是我們祖先發明的漢字。我國正在開發十萬以上漢字的《中華字型檔》工程，待其完成後，上述這些字也將會包含其中。

B. Unicode 和 UTF-8 有何區別

utf-8和Unicode到底有什麼區別？是存儲方式不同？編碼方式不同？它們看起來似乎很相似，但是實際上他們並不是同一個層次的概念

要想先講清楚他們的區別，首先應該講講Unicode的來由。

眾所周知，在計算機發明的時候 ,由於計算機你只能表示二進制的數據，美帝人民為了交流通信方便，約定了一個編碼系統，就是ASCII碼，把abc..xyz...ABC...XYZ...!@#...等字元分別和0,1,2,3,4......對應，發現差不多剛好128個數，半個位元組的長度，為了防止以後需要為新的符號編碼，於是乾脆取一個位元組，最高位置為0。後七位從0-127分別對每一個符號編碼。

於是，計算機每次讀取一個位元組，然後參照ASCII表把這些編碼翻譯成字元。美國人民很高興，拿著自己玩去了.......

後來歐洲人也玩計算機，發現不行啊，還有很多符號（法語，德語）ASCII沒辦法表示啊，於是歐洲人自己也擼了一套編碼，一個位元組的長度，把最高位也用掉了。這套編碼叫ISO。

和ASCII表類似，計算機也是每次只讀一個位元組，然後按照ISO表，解碼出字元。於是歐洲人民也很高興。

中國人不高興了，特么我們漢字有幾萬個，常用的就有幾千個，沒有兩個位元組根本交不了貨。於是勤勞勇敢的中國人民就破天荒的用了兩個位元組來表示中文。整出一套GBK。為了現實我中華民族兼容並蓄，我們兼容了ASCII編碼。

計算機 : WTF ?? !!

gbk編碼規定，計算機不能在每次都只讀一個位元組那麼死板了，你要先看看第一位是不是為0，要是為0 的話，就當作ASCII碼來讀入一個位元組，不然的話就讀入兩個位元組。

於是天下就很亂了，歐洲人看不懂我們發過去的信息，我們也看不懂他們的東西，美國人看不懂我的東西，不過我們能看懂他們的信息。。。哈哈。

總之，天下大亂，群雄並起，百姓生靈塗........

這個時候，就有個國際組織站出來了，說，這么著吧，我來擼一套編碼，把大家的編碼都歸納進來。於是unicode編碼就出現了。這套編碼表的編號從0一直算到了100多萬（三個位元組）。每一個區間都對應著一種語言的編碼。目前幾乎收納了全世界大部分的字元。所有的字元都有唯一的編號，這就解決了解碼的沖突，於是天下大定！但是，unicode把大家都歸納進來，卻沒有為編碼的二進制傳輸和二進制解碼做出規定。只留下一句：大哥只能幫你到這里了。

我知道你一定在想，要個毛的規定啊，每次讓計算機讀取三個位元組然後參照Unicode表解碼就好了。想法是好的，但是如果類似於1號編碼這樣的小數據編號也要三個位元組的話，那麼也就是0x000001,這簡直就是浪費啊，明明一個位元組就可以表示了，你非得整三個，所以你到底是幾個意思呢？

不管怎麼樣，大哥雖然走了，但是問題還得解決啊，於是，就出現了如下解決方案：uft-8，utf-16，utf-32這些編碼方案。utf-16是用兩個位元組來編碼所有的字元，utf-32則選擇用4個位元組來編碼。下面只講一下utf-8這種解決方案，因為它用的最多，用得最多是因為在當時它的方案最好，最節省資源。

utf-8

utf-8為了節省資源，採用變長編碼，編碼長度從1個位元組到6個位元組不等

C. unicode和ascii字元編碼的區別

D. Unicode和ASCII的區別是什麼

ASCII就是編碼英文的26個字母和一些常見的符號，之後擴展了一半。總之是一個位元組來做編碼，大於128的部分是一些特殊符號。但ASCII是無法編碼別的東西的，比如說是不存在「中文的ascii碼需要2個字元」這種說法的。ASCII就只有一個位元組。
Unicode是足夠編碼地球上所有的語言了，所以ASCII中所能表示的，Unicode當然全部包括了。Unicode本身是只有2個位元組的，之所以出現UTF-8,UTF-16等等之類，那是為了針對不同的應用環境，提高整體編碼效率，比如如果某篇文章里絕大部分是英語（單位元組就能表示），就比較適合使用utf-8，而如果絕大部分是中文（需要雙位元組），可能就utf-16比較合適了

COPY的,不過也是正確的,當然是UNICODE普遍.
一般手機的電子書只能是UNCODE編碼的TXT

E. GBK內碼 Unicode碼區位碼有什麼區別和聯系怎樣互相轉化

ANSI , 這是美國國家標准協會制定的編碼格式,例如"A漢" 在這種編碼方式下的內存值為 41 BA BA ，'A'佔用一個位元組,"漢"用兩個位元組,而且 BA BA 正式 GBK內碼的值, 那讓我們先認識GBK編碼. GB2312,GBK,GB18030都是中國人自己發明的(中國之外並不使用的), 他們出現的時間順序是GB2312 -> GBK -> GB18030 ,他們是包含關系,GB我猜是 "國標" 的意思 "k" 可能是 "擴展", 這些編碼都是書面協議,要在計算機內部表示所以GB2312的內存值須在原來的每個位元組值(區位碼)上加0x80得到機內碼,加上0x80是為了使得每個位元組的最高位為1,這樣就可以在內存中區分漢字和ASCII了[因為ASCII的最高位都為0]. 但是後來要在GB2312上擴展(得到GBK,GB18030),就需要更多的編碼空間,所以GBK,GB18030就沒有要求第二個位元組的的最高位為1了,而是通過第一個位元組來判斷這是一個位元組的ASCII還是兩個位元組的GBK.另外需要說明一點GB2312,GBK,GB18030是向下兼容的,例如 "漢" 在GB2312,GBK,GB18030中都是BA,BA . 另外,GB2312,GBK並沒有因為GB18030的出現退出市場,在一些嵌入式設備中還是應用廣泛的,因為減少字型檔容量可以大大減少成本. 回到之前的ANSI, 我們大概知道了GBK(不知道人們為什麼喜歡用GBK而不是GB18030,姑且認為是GBK只有3個字母,書寫方便吧!),那麼ANSI又是怎麼回事呢? ANSI就像一個指針,本身沒有內容,如果指向"中國的編碼",那麼它就是GBK,如果指向"印度的編碼",他就是x??x.也就是說在中國ANSI是GBK,在日本ANSI是XXX,在印度ANSI是???,但是他們在windows的記事本中都只能看到ANSI.但是ANSI也做了一些小的變動,就像剛才一樣,'A'在內存中只佔用了一個位元組,也就是說ANSI = ASCII + 本地編碼Unicode: 但是,我們怎麼在一個漢語資料中書寫日文符號呢?這時,Unicode出現了,不過它是誰發明的,反正Unicode把世界上的所有文字元號都包含進來了,不僅解決了剛才說的問題,而且程序員用Unicode寫的程序可以在全世界的電腦上運行.C語言中用wchar_t表示.UCS: 據說UCS是和Unicode一樣的工程,最後兩個工程達成共識,所以編碼完全兼容.所以我就把UCS看做Unicode. 這里的UCS-2就是常說的UCS,只使用了兩個位元組保存一個字元,而UCS-4則是使用4個位元組保存一個字元.UTF-8: (ucs transformation format),為什麼要創造UTF-8呢?其中一個原因是:0x00在C語言及操作系統文件名(等..)中有特殊意義(如字元串結尾),然而按照Unicode編碼的話,很可能這個字元的第一個位元組(高位元組)為非零數值,而低位元組為零,這樣C語言就會誤認為這是字元串的結尾.所以UTF-8的一個功能是保證Unicode編碼表中不出現0x00(當然正常的0x00是可以的)UCS-2編碼,Unicode(16進制) UTF-8 位元組流(二進制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx (第一個1之後有幾個1就表示後面還有一個位元組,這里後面還有1個)
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx (第一個1之後有幾個1就表示後面還有一個位元組,這里後面還有2個) 應為UTF-8的這種編碼方式,它不需要判斷大小端模式,所以它是利於網路傳輸的(我也不知道是為什麼) (BOM) EF BB BF ,我們可以通過BOM來判斷文本是否為UTF-8編碼格式.打開一個文本文件時如何判斷是何種編碼呢?1)提示用戶選擇編碼類型2)根據一定的規則猜測編碼類型3)檢測文件頭標識識別編碼類型
EF BB BF UTF-8
FE FF UTF-16/UCS-2(Unicode), little endian,(在文件一個只含一個字母'A'的中文件中,文件內容為 FE FF 00 41 )
FF FE UTF-16/UCS-2(Unicode), big endian,(在文件一個只含一個字母'A'的中文件中,文件內容為 FF FE 41 00 )
FF FE 00 00 UTF-32/UCS-4, little endian.
00 00 FE FF UTF-32/UCS-4, big-endian. 區位碼國標(GBK) 內碼 "漢" 1A1A 3A3A BABA 國標 = 區位碼 + 0x20 (每個位元組) 內碼 = 國標(GBK) + 0x80 (每個位元組)

F. Unicode和ASCII的區別是什麼

計算機發明後，為了在計算機中表示字元，人們制定了一種編碼，叫ASCII碼。ASCII碼由一個位元組中的7位(bit)表示，范圍是0x00 - 0x7F 共128個字元。
後來他們突然發現，如果需要按照表格方式列印這些字元的時候，缺少了「製表符」。於是又擴展了ASCII的定義，使用一個位元組的全部8位(bit)來表示字元了，這就叫擴展ASCII碼。范圍是0x00 - 0xFF 共256個字元。
中國人利用連續2個擴展ASCII碼的擴展區域（0xA0以後）來表示一個漢字，該方法的標准叫GB-2312。後來，日文、韓文、阿拉伯文、台灣繁體（BIG-5）......都使用類似的方法擴展了本地字元集的定義，現在統一稱為 MBCS 字元集（多位元組字元集）。這個方法是有缺陷的，因為各個國家地區定義的字元集有交集，因此使用GB-2312的軟體，就不能在BIG-5的環境下運行（顯示亂碼），反之亦然。
為了把全世界人民所有的所有的文字元號都統一進行編碼，於是制定了UNICODE標准字元集。UNICODE 使用2個位元組表示一個字元(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。這下終於好啦，全世界任何一個地區的軟體，可以不用修改地就能在另一個地區運行了。雖然我用 IE 瀏覽日本網站，顯示出我不認識的日文文字，但至少不會是亂碼了。UNICODE 的范圍是 0x0000 - 0xFFFF 共6萬多個字元，其中光漢字就佔用了4萬多個

G. unicode編碼和utf-8編碼的區別

UTF-8是對unicode字元集進行編碼的一種編碼方式。
UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組，常用的英文字母被編碼成1個位元組，漢字通常是3個位元組，只有很生僻的字元才會被編碼成4-6個位元組。如果你要傳輸的文本包含大量英文字元，用UTF-8編碼就能節省空間：

H. java中unicode是誰開發的

以下來自網路:

Unicode（統一碼、萬國碼、單一碼）是計算機科學領域里的一項業界標准，包括字元集、編碼方案等。Unicode 是為了解決傳統的字元編碼方案的局限而產生的，它為每種語言中的每個字元設定了統一並且唯一的二進制編碼，以滿足跨語言、跨平台進行文本轉換、處理的要求。1990年開始研發，1994年正式公布。

中文名:萬國碼
外文名:Unicode
也稱:統一碼
解釋:它計算機科學領域里的一項業界標准,Unicode是國際組織制定的可以容納世界上所有文字和符號的字元編碼方案!

簡單一句話:任何使用計算機的國家都參與了它的開發;

I. unicode可實現對世界上主要文字進行統一編碼對嗎.

Unicode是國際標准萬國碼的字元集編碼，目的是對全世界的文字進行編碼，便於全球間的信息化交流，也是電腦製造商必須遵照執行的字元集標准。
隨著萬國碼版本的不斷更新，編入字元集的字元數不斷增加。目前可供電腦利用的最大字元集是6.2版超大字元集，含有中日韓越漢字7.68萬以上；世界上大多數國家的文字均被收入了。國務院兩年前頒布的《通用規范漢字表》的8105個漢字都包括在內。只要下載安裝萬國碼6版超大字元集字型檔，就能顯示出所有通用規范漢字，還能顯示出世界大多數國家的文字和各種符號。
多元輸入法（多元漢字與圖形符號輸入法）是目前調用超大字元集字元的最佳輸入法。特點：不須知讀音,不用背字根,不必記部首,不用數筆畫,見字知碼,簡單易學；碼長極短,輸入漢字1～3碼,圖形符號1～4碼,詞彙4碼；國務院2013年8月19日公布的8105個通用規范漢字不但能全部打出,且均在第一屏顯示；日常打字平均每字不到2碼。可以輸入國際標准萬國碼6.2版超大字元集全部漢字(7.68萬以上), 徹底解決了不能輸入所有漢字的難題。還具有識別漢字是否屬於GBK字元集，以及按特定條件檢索出所有相關漢字的功能。能讓不懂中文者迅速打出所有漢字；不懂韓語者直接打出所有韓朝諺文（1.15萬以上）；不懂泰語者打出泰文……；輸入內容多元化,能直接輸入50餘種語言涉及136個非英語國家的法定文字；還能輸入盲文點字、易經太玄經卦符、工程單位、數學符號及各類圖案符號等；詞彙有成語、歇後語、地名等9萬條；廣泛適用各行各業,實現真正的全球數字化信息交流。
該輸入法目前受國家發明專利保護，暫不提供下載或銷售，尚待有實力的部門或公司向全球推廣應用。

導航:首頁 > 創造發明 > unicode編碼發明

unicode編碼發明

與unicode編碼發明相關的資料