導航:首頁 > 創造發明 > unicode編碼發明

unicode編碼發明

發布時間:2021-04-27 03:16:21

A. 中文屬於Unicode 編碼嗎

Unicode是國際標准字元集,可譯為萬國碼或統一碼等,這是電腦系統採用字型檔的字元集標准,包含中日韓越漢字和世界上絕大多數語言文字,便於實現全球間信息交流。其標準的版本不斷更新,第6版的漢字數達7.67萬以上。

WindowsXP~Windows7採用的是萬國碼3.0版,也就是國標GBK標準的字元集,只有2萬余漢字,其中缺少通用規范漢字275個;Windows8雖然採用了萬國碼5.0版,已擁有7.5萬漢字,但仍缺通用規范漢字113個。

從網上下載並安裝萬國碼6.0版之後,就能顯示8105個通用規范漢字了。

但要使用全部漢字,還得有超大字元集的輸入法才行。多元漢字與圖形符號輸入法就是這樣一種輸入法。不但能在3碼內首屏輸入任一通用規范漢字,還能簡單萬輸入國碼所有漢字,例如全部由「木」字組成的漢字為:木、林、森、𣓏、𣛧、、𣡕、𣡽。後五個字未裝超大字元集字型檔的電腦看不見,這里製成圖片格式如下所示:

這五個字不在常用漢字范圍內,但都是我們祖先發明的漢字。我國正在開發十萬以上漢字的《中華字型檔》工程,待其完成後,上述這些字也將會包含其中。

B. Unicode 和 UTF-8 有何區別

utf-8和Unicode到底有什麼區別?是存儲方式不同?編碼方式不同?它們看起來似乎很相似,但是實際上他們並不是同一個層次的概念

要想先講清楚他們的區別,首先應該講講Unicode的來由。

眾所周知,在計算機發明的時候 ,由於計算機你只能表示二進制的數據,美帝人民為了交流通信方便,約定了一個編碼系統,就是ASCII碼,把abc..xyz...ABC...XYZ...!@#...等字元分別和0,1,2,3,4......對應,發現差不多剛好128個數,半個位元組的長度,為了防止以後需要為新的符號編碼,於是乾脆取一個位元組,最高位置為0。後七位從0-127分別對每一個符號編碼。

於是,計算機每次讀取一個位元組,然後參照ASCII表把這些編碼翻譯成字元。美國人民很高興,拿著自己玩去了.......

後來歐洲人也玩計算機,發現不行啊,還有很多符號(法語,德語)ASCII沒辦法表示啊,於是歐洲人自己也擼了一套編碼,一個位元組的長度,把最高位也用掉了。這套編碼叫ISO。

和ASCII表類似,計算機也是每次只讀一個位元組,然後按照ISO表,解碼出字元。於是歐洲人民也很高興。

中國人不高興了,特么我們漢字有幾萬個,常用的就有幾千個,沒有兩個位元組根本交不了貨。於是勤勞勇敢的中國人民就破天荒的用了兩個位元組來表示中文。整出一套GBK。為了現實我中華民族兼容並蓄,我們兼容了ASCII編碼。

計算機 : WTF ?? !!

gbk編碼規定,計算機不能在每次都只讀一個位元組那麼死板了,你要先看看第一位是不是為0,要是為0 的話,就當作ASCII碼來讀入一個位元組,不然的話就讀入兩個位元組。

於是天下就很亂了,歐洲人看不懂我們發過去的信息,我們也看不懂他們的東西,美國人看不懂我的東西,不過我們能看懂他們的信息。。。哈哈。

總之,天下大亂,群雄並起,百姓生靈塗........

這個時候,就有個國際組織站出來了,說,這么著吧,我來擼一套編碼,把大家的編碼都歸納進來。於是unicode編碼就出現了。這套編碼表的編號從0一直算到了100多萬(三個位元組)。每一個區間都對應著一種語言的編碼。目前幾乎收納了全世界大部分的字元。所有的字元都有唯一的編號,這就解決了解碼的沖突,於是天下大定!但是,unicode把大家都歸納進來,卻沒有為編碼的二進制傳輸和二進制解碼做出規定。只留下一句:大哥只能幫你到這里了。

我知道你一定在想,要個毛的規定啊,每次讓計算機讀取三個位元組然後參照Unicode表解碼就好了。想法是好的,但是如果類似於1號編碼這樣的小數據編號也要三個位元組的話,那麼也就是0x000001,這簡直就是浪費啊,明明一個位元組就可以表示了,你非得整三個,所以你到底是幾個意思呢?

不管怎麼樣,大哥雖然走了,但是問題還得解決啊,於是,就出現了如下解決方案:uft-8,utf-16,utf-32這些編碼方案。utf-16是用兩個位元組來編碼所有的字元,utf-32則選擇用4個位元組來編碼。下面只講一下utf-8這種解決方案,因為它用的最多,用得最多是因為在當時它的方案最好,最節省資源。

utf-8

utf-8為了節省資源,採用變長編碼,編碼長度從1個位元組到6個位元組不等

C. unicode和ascii字元編碼的區別

計算機發明後,為了在計算機中表示字元,人們制定了一種編碼,叫ASCII碼。ASCII碼由一個位元組中的7位(bit)表示,范圍是0x00 - 0x7F 共128個字元。
後來他們突然發現,如果需要按照表格方式列印這些字元的時候,缺少了「製表符」。於是又擴展了ASCII的定義,使用一個位元組的全部8位(bit)來表示字元了,這就叫擴展ASCII碼。范圍是0x00 - 0xFF 共256個字元。

D. Unicode和ASCII的區別是什麼

ASCII就是編碼英文的26個字母和一些常見的符號,之後擴展了一半。總之是一個位元組來做編碼,大於128的部分是一些特殊符號。但ASCII是無法編碼別的東西的,比如說是不存在「中文的ascii碼需要2個字元」這種說法的。ASCII就只有一個位元組。
Unicode是足夠編碼地球上所有的語言了,所以ASCII中所能表示的,Unicode當然全部包括了。Unicode本身是只有2個位元組的,之所以出現UTF-8,UTF-16等等之類,那是為了針對不同的應用環境,提高整體編碼效率,比如如果某篇文章里絕大部分是英語(單位元組就能表示),就比較適合使用utf-8,而如果絕大部分是中文(需要雙位元組),可能就utf-16比較合適了

COPY的,不過也是正確的,當然是UNICODE普遍.
一般手機的電子書只能是UNCODE編碼的TXT

E. GBK內碼 Unicode碼 區位碼有什麼區別和聯系 怎樣互相轉化

ANSI , 這是美國國家標准協會制定的編碼格式,例如"A漢" 在這種編碼方式下的內存值為 41 BA BA ,'A'佔用一個位元組,"漢"用兩個位元組,而且 BA BA 正式 GBK內碼的值, 那讓我們先認識GBK編碼. GB2312,GBK,GB18030都是中國人自己發明的(中國之外並不使用的), 他們出現的時間順序是GB2312 -> GBK -> GB18030 ,他們是包含關系,GB我猜是 "國標" 的意思 "k" 可能是 "擴展", 這些編碼都是書面協議,要在計算機內部表示所以GB2312的內存值須在原來的每個位元組值(區位碼)上加0x80得到機內碼,加上0x80是為了使得每個位元組的最高位為1,這樣就可以在內存中區分漢字和ASCII了[因為ASCII的最高位都為0]. 但是後來要在GB2312上擴展(得到GBK,GB18030),就需要更多的編碼空間,所以GBK,GB18030就沒有要求第二個位元組的的最高位為1了,而是通過第一個位元組來判斷這是一個位元組的ASCII還是兩個位元組的GBK.另外需要說明一點GB2312,GBK,GB18030是向下兼容的,例如 "漢" 在GB2312,GBK,GB18030中都是BA,BA . 另外,GB2312,GBK並沒有因為GB18030的出現退出市場,在一些嵌入式設備中還是應用廣泛的,因為減少字型檔容量可以大大減少成本. 回到之前的ANSI, 我們大概知道了GBK(不知道人們為什麼喜歡用GBK而不是GB18030,姑且認為是GBK只有3個字母,書寫方便吧!),那麼ANSI又是怎麼回事呢? ANSI就像一個指針,本身沒有內容,如果指向"中國的編碼",那麼它就是GBK,如果指向"印度的編碼",他就是x??x.也就是說在中國ANSI是GBK,在日本ANSI是XXX,在印度ANSI是???,但是他們在windows的記事本中都只能看到ANSI.但是ANSI也做了一些小的變動,就像剛才一樣,'A'在內存中只佔用了一個位元組,也就是說ANSI = ASCII + 本地編碼Unicode: 但是,我們怎麼在一個漢語資料中書寫日文符號呢?這時,Unicode出現了,不過它是誰發明的,反正Unicode把世界上的所有文字元號都包含進來了,不僅解決了剛才說的問題,而且程序員用Unicode寫的程序可以在全世界的電腦上運行.C語言中用wchar_t表示.UCS: 據說UCS是和Unicode一樣的工程,最後兩個工程達成共識,所以編碼完全兼容.所以我就把UCS看做Unicode. 這里的UCS-2就是常說的UCS,只使用了兩個位元組保存一個字元,而UCS-4則是使用4個位元組保存一個字元.UTF-8: (ucs transformation format),為什麼要創造UTF-8呢?其中一個原因是:0x00在C語言及操作系統文件名(等..)中有特殊意義(如字元串結尾),然而按照Unicode編碼的話,很可能這個字元的第一個位元組(高位元組)為非零數值,而低位元組為零,這樣C語言就會誤認為這是字元串的結尾.所以UTF-8的一個功能是保證Unicode編碼表中不出現0x00(當然正常的0x00是可以的)UCS-2編碼,Unicode(16進制) UTF-8 位元組流(二進制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx (第一個1之後有幾個1就表示後面還有一個位元組,這里後面還有1個)
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx (第一個1之後有幾個1就表示後面還有一個位元組,這里後面還有2個) 應為UTF-8的這種編碼方式,它不需要判斷大小端模式,所以它是利於網路傳輸的(我也不知道是為什麼) (BOM) EF BB BF ,我們可以通過BOM來判斷文本是否為UTF-8編碼格式.打開一個文本文件時如何判斷是何種編碼呢?1)提示用戶選擇編碼類型2)根據一定的規則猜測編碼類型3)檢測文件頭標識識別編碼類型
EF BB BF UTF-8
FE FF UTF-16/UCS-2(Unicode), little endian,(在文件一個只含一個字母'A'的中文件中,文件內容為 FE FF 00 41 )
FF FE UTF-16/UCS-2(Unicode), big endian,(在文件一個只含一個字母'A'的中文件中,文件內容為 FF FE 41 00 )
FF FE 00 00 UTF-32/UCS-4, little endian.
00 00 FE FF UTF-32/UCS-4, big-endian. 區位碼 國標(GBK) 內碼 "漢" 1A1A 3A3A BABA 國標 = 區位碼 + 0x20 (每個位元組) 內碼 = 國標(GBK) + 0x80 (每個位元組)

F. Unicode和ASCII的區別是什麼

計算機發明後,為了在計算機中表示字元,人們制定了一種編碼,叫ASCII碼。ASCII碼由一個位元組中的7位(bit)表示,范圍是0x00 - 0x7F 共128個字元。
後來他們突然發現,如果需要按照表格方式列印這些字元的時候,缺少了「製表符」。於是又擴展了ASCII的定義,使用一個位元組的全部8位(bit)來表示字元了,這就叫擴展ASCII碼。范圍是0x00 - 0xFF 共256個字元。
中國人利用連續2個擴展ASCII碼的擴展區域(0xA0以後)來表示一個漢字,該方法的標准叫GB-2312。後來,日文、韓文、阿拉伯文、台灣繁體(BIG-5)......都使用類似的方法擴展了本地字元集的定義,現在統一稱為 MBCS 字元集(多位元組字元集)。這個方法是有缺陷的,因為各個國家地區定義的字元集有交集,因此使用GB-2312的軟體,就不能在BIG-5的環境下運行(顯示亂碼),反之亦然。
為了把全世界人民所有的所有的文字元號都統一進行編碼,於是制定了UNICODE標准字元集。UNICODE 使用2個位元組表示一個字元(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。這下終於好啦,全世界任何一個地區的軟體,可以不用修改地就能在另一個地區運行了。雖然我用 IE 瀏覽日本網站,顯示出我不認識的日文文字,但至少不會是亂碼了。UNICODE 的范圍是 0x0000 - 0xFFFF 共6萬多個字元,其中光漢字就佔用了4萬多個

G. unicode編碼和utf-8編碼的區別

UTF-8是對unicode字元集進行編碼的一種編碼方式。
UTF-8編碼把一個Unicode字元根據不同的數字大小編碼成1-6個位元組,常用的英文字母被編碼成1個位元組,漢字通常是3個位元組,只有很生僻的字元才會被編碼成4-6個位元組。如果你要傳輸的文本包含大量英文字元,用UTF-8編碼就能節省空間:

H. java中unicode是誰開發的

簡單一句話:任何使用計算機的國家都參與了它的開發;

I. unicode可實現對世界上主要文字進行統一編碼對嗎.

Unicode是國際標准萬國碼的字元集編碼,目的是對全世界的文字進行編碼,便於全球間的信息化交流,也是電腦製造商必須遵照執行的字元集標准。
隨著萬國碼版本的不斷更新,編入字元集的字元數不斷增加。目前可供電腦利用的最大字元集是6.2版超大字元集,含有中日韓越漢字7.68萬以上;世界上大多數國家的文字均被收入了。國務院兩年前頒布的《通用規范漢字表》的8105個漢字都包括在內。只要下載安裝萬國碼6版超大字元集字型檔,就能顯示出所有通用規范漢字,還能顯示出世界大多數國家的文字和各種符號。
多元輸入法(多元漢字與圖形符號輸入法)是目前調用超大字元集字元的最佳輸入法。特點:不須知讀音,不用背字根,不必記部首,不用數筆畫,見字知碼,簡單易學;碼長極短,輸入漢字1~3碼,圖形符號1~4碼,詞彙4碼;國務院2013年8月19日公布的8105個通用規范漢字不但能全部打出,且均在第一屏顯示;日常打字平均每字不到2碼。可以輸入國際標准萬國碼6.2版超大字元集全部漢字(7.68萬以上), 徹底解決了不能輸入所有漢字的難題。還具有識別漢字是否屬於GBK字元集,以及按特定條件檢索出所有相關漢字的功能。能讓不懂中文者迅速打出所有漢字;不懂韓語者直接打出所有韓朝諺文(1.15萬以上);不懂泰語者打出泰文……;輸入內容多元化,能直接輸入50餘種語言涉及136個非英語國家的法定文字;還能輸入盲文點字、易經太玄經卦符、工程單位、數學符號及各類圖案符號等;詞彙有成語、歇後語、地名等9萬條;廣泛適用各行各業,實現真正的全球數字化信息交流。
該輸入法目前受國家發明專利保護,暫不提供下載或銷售,尚待有實力的部門或公司向全球推廣應用。

閱讀全文

與unicode編碼發明相關的資料

熱點內容
武漢疫情投訴 瀏覽:149
知識產權合作開發協議doc 瀏覽:932
廣州加里知識產權代理有限公司 瀏覽:65
企業知識產權部門管理辦法 瀏覽:455
消費315投訴 瀏覽:981
馬鞍山鋼城醫院 瀏覽:793
馮超知識產權 瀏覽:384
介紹小發明英語作文 瀏覽:442
版權使用權協議 瀏覽:1000
2018年基本公共衛生服務考核表 瀏覽:884
馬鞍山候車亭 瀏覽:329
學校矛盾糾紛排查領導小組 瀏覽:709
張江管委會知識產權合作協議 瀏覽:635
關於開展公共衛生服務項目相關項目督導的函 瀏覽:941
閨蜜證書高清 瀏覽:11
轉讓房轉讓合同協議 瀏覽:329
矛盾糾紛排查調處工作協調交賬會議紀要 瀏覽:877
雲南基金從業資格證書查詢 瀏覽:313
新知識的搖籃創造力 瀏覽:187
股轉轉讓協議 瀏覽:676