unicode编码发明_java中unicode是谁开发的

A. 中文属于Unicode 编码吗

Unicode是国际标准字符集，可译为万国码或统一码等，这是电脑系统采用字库的字符集标准，包含中日韩越汉字和世界上绝大多数语言文字，便于实现全球间信息交流。其标准的版本不断更新，第6版的汉字数达7.67万以上。

WindowsXP～Windows7采用的是万国码3.0版，也就是国标GBK标准的字符集，只有2万余汉字，其中缺少通用规范汉字275个；Windows8虽然采用了万国码5.0版，已拥有7.5万汉字，但仍缺通用规范汉字113个。

从网上下载并安装万国码6.0版之后，就能显示8105个通用规范汉字了。

但要使用全部汉字，还得有超大字符集的输入法才行。多元汉字与图形符号输入法就是这样一种输入法。不但能在3码内首屏输入任一通用规范汉字，还能简单万输入国码所有汉字，例如全部由“木”字组成的汉字为：木、林、森、𣓏、𣛧、、𣡕、𣡽。后五个字未装超大字符集字库的电脑看不见，这里制成图片格式如下所示：

这五个字不在常用汉字范围内，但都是我们祖先发明的汉字。我国正在开发十万以上汉字的《中华字库》工程，待其完成后，上述这些字也将会包含其中。

B. Unicode 和 UTF-8 有何区别

utf-8和Unicode到底有什么区别？是存储方式不同？编码方式不同？它们看起来似乎很相似，但是实际上他们并不是同一个层次的概念

要想先讲清楚他们的区别，首先应该讲讲Unicode的来由。

众所周知，在计算机发明的时候 ,由于计算机你只能表示二进制的数据，美帝人民为了交流通信方便，约定了一个编码系统，就是ASCII码，把abc..xyz...ABC...XYZ...!@#...等字符分别和0,1,2,3,4......对应，发现差不多刚好128个数，半个字节的长度，为了防止以后需要为新的符号编码，于是干脆取一个字节，最高位置为0。后七位从0-127分别对每一个符号编码。

于是，计算机每次读取一个字节，然后参照ASCII表把这些编码翻译成字符。美国人民很高兴，拿着自己玩去了.......

后来欧洲人也玩计算机，发现不行啊，还有很多符号（法语，德语）ASCII没办法表示啊，于是欧洲人自己也撸了一套编码，一个字节的长度，把最高位也用掉了。这套编码叫ISO。

和ASCII表类似，计算机也是每次只读一个字节，然后按照ISO表，解码出字符。于是欧洲人民也很高兴。

中国人不高兴了，特么我们汉字有几万个，常用的就有几千个，没有两个字节根本交不了货。于是勤劳勇敢的中国人民就破天荒的用了两个字节来表示中文。整出一套GBK。为了现实我中华民族兼容并蓄，我们兼容了ASCII编码。

计算机 : WTF ?? !!

gbk编码规定，计算机不能在每次都只读一个字节那么死板了，你要先看看第一位是不是为0，要是为0 的话，就当作ASCII码来读入一个字节，不然的话就读入两个字节。

于是天下就很乱了，欧洲人看不懂我们发过去的信息，我们也看不懂他们的东西，美国人看不懂我的东西，不过我们能看懂他们的信息。。。哈哈。

总之，天下大乱，群雄并起，百姓生灵涂........

这个时候，就有个国际组织站出来了，说，这么着吧，我来撸一套编码，把大家的编码都归纳进来。于是unicode编码就出现了。这套编码表的编号从0一直算到了100多万（三个字节）。每一个区间都对应着一种语言的编码。目前几乎收纳了全世界大部分的字符。所有的字符都有唯一的编号，这就解决了解码的冲突，于是天下大定！但是，unicode把大家都归纳进来，却没有为编码的二进制传输和二进制解码做出规定。只留下一句：大哥只能帮你到这里了。

我知道你一定在想，要个毛的规定啊，每次让计算机读取三个字节然后参照Unicode表解码就好了。想法是好的，但是如果类似于1号编码这样的小数据编号也要三个字节的话，那么也就是0x000001,这简直就是浪费啊，明明一个字节就可以表示了，你非得整三个，所以你到底是几个意思呢？

不管怎么样，大哥虽然走了，但是问题还得解决啊，于是，就出现了如下解决方案：uft-8，utf-16，utf-32这些编码方案。utf-16是用两个字节来编码所有的字符，utf-32则选择用4个字节来编码。下面只讲一下utf-8这种解决方案，因为它用的最多，用得最多是因为在当时它的方案最好，最节省资源。

utf-8

utf-8为了节省资源，采用变长编码，编码长度从1个字节到6个字节不等

C. unicode和ascii字符编码的区别

D. Unicode和ASCII的区别是什么

ASCII就是编码英文的26个字母和一些常见的符号，之后扩展了一半。总之是一个字节来做编码，大于128的部分是一些特殊符号。但ASCII是无法编码别的东西的，比如说是不存在“中文的ascii码需要2个字符”这种说法的。ASCII就只有一个字节。
Unicode是足够编码地球上所有的语言了，所以ASCII中所能表示的，Unicode当然全部包括了。Unicode本身是只有2个字节的，之所以出现UTF-8,UTF-16等等之类，那是为了针对不同的应用环境，提高整体编码效率，比如如果某篇文章里绝大部分是英语（单字节就能表示），就比较适合使用utf-8，而如果绝大部分是中文（需要双字节），可能就utf-16比较合适了

COPY的,不过也是正确的,当然是UNICODE普遍.
一般手机的电子书只能是UNCODE编码的TXT

E. GBK内码 Unicode码区位码有什么区别和联系怎样互相转化

ANSI , 这是美国国家标准协会制定的编码格式,例如"A汉" 在这种编码方式下的内存值为 41 BA BA ，'A'占用一个字节,"汉"用两个字节,而且 BA BA 正式 GBK内码的值, 那让我们先认识GBK编码. GB2312,GBK,GB18030都是中国人自己发明的(中国之外并不使用的), 他们出现的时间顺序是GB2312 -> GBK -> GB18030 ,他们是包含关系,GB我猜是 "国标" 的意思 "k" 可能是 "扩展", 这些编码都是书面协议,要在计算机内部表示所以GB2312的内存值须在原来的每个字节值(区位码)上加0x80得到机内码,加上0x80是为了使得每个字节的最高位为1,这样就可以在内存中区分汉字和ASCII了[因为ASCII的最高位都为0]. 但是后来要在GB2312上扩展(得到GBK,GB18030),就需要更多的编码空间,所以GBK,GB18030就没有要求第二个字节的的最高位为1了,而是通过第一个字节来判断这是一个字节的ASCII还是两个字节的GBK.另外需要说明一点GB2312,GBK,GB18030是向下兼容的,例如 "汉" 在GB2312,GBK,GB18030中都是BA,BA . 另外,GB2312,GBK并没有因为GB18030的出现退出市场,在一些嵌入式设备中还是应用广泛的,因为减少字库容量可以大大减少成本. 回到之前的ANSI, 我们大概知道了GBK(不知道人们为什么喜欢用GBK而不是GB18030,姑且认为是GBK只有3个字母,书写方便吧!),那么ANSI又是怎么回事呢? ANSI就像一个指针,本身没有内容,如果指向"中国的编码",那么它就是GBK,如果指向"印度的编码",他就是x??x.也就是说在中国ANSI是GBK,在日本ANSI是XXX,在印度ANSI是???,但是他们在windows的记事本中都只能看到ANSI.但是ANSI也做了一些小的变动,就像刚才一样,'A'在内存中只占用了一个字节,也就是说ANSI = ASCII + 本地编码Unicode: 但是,我们怎么在一个汉语资料中书写日文符号呢?这时,Unicode出现了,不过它是谁发明的,反正Unicode把世界上的所有文字符号都包含进来了,不仅解决了刚才说的问题,而且程序员用Unicode写的程序可以在全世界的电脑上运行.C语言中用wchar_t表示.UCS: 据说UCS是和Unicode一样的工程,最后两个工程达成共识,所以编码完全兼容.所以我就把UCS看做Unicode. 这里的UCS-2就是常说的UCS,只使用了两个字节保存一个字符,而UCS-4则是使用4个字节保存一个字符.UTF-8: (ucs transformation format),为什么要创造UTF-8呢?其中一个原因是:0x00在C语言及操作系统文件名(等..)中有特殊意义(如字符串结尾),然而按照Unicode编码的话,很可能这个字符的第一个字节(高字节)为非零数值,而低字节为零,这样C语言就会误认为这是字符串的结尾.所以UTF-8的一个功能是保证Unicode编码表中不出现0x00(当然正常的0x00是可以的)UCS-2编码,Unicode(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx (第一个1之后有几个1就表示后面还有一个字节,这里后面还有1个)
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx (第一个1之后有几个1就表示后面还有一个字节,这里后面还有2个) 应为UTF-8的这种编码方式,它不需要判断大小端模式,所以它是利于网路传输的(我也不知道是为什么) (BOM) EF BB BF ,我们可以通过BOM来判断文本是否为UTF-8编码格式.打开一个文本文件时如何判断是何种编码呢?1)提示用户选择编码类型2)根据一定的规则猜测编码类型3)检测文件头标识识别编码类型
EF BB BF UTF-8
FE FF UTF-16/UCS-2(Unicode), little endian,(在文件一个只含一个字母'A'的中文件中,文件内容为 FE FF 00 41 )
FF FE UTF-16/UCS-2(Unicode), big endian,(在文件一个只含一个字母'A'的中文件中,文件内容为 FF FE 41 00 )
FF FE 00 00 UTF-32/UCS-4, little endian.
00 00 FE FF UTF-32/UCS-4, big-endian. 区位码国标(GBK) 内码 "汉" 1A1A 3A3A BABA 国标 = 区位码 + 0x20 (每个字节) 内码 = 国标(GBK) + 0x80 (每个字节)

F. Unicode和ASCII的区别是什么

计算机发明后，为了在计算机中表示字符，人们制定了一种编码，叫ASCII码。ASCII码由一个字节中的7位(bit)表示，范围是0x00 - 0x7F 共128个字符。
后来他们突然发现，如果需要按照表格方式打印这些字符的时候，缺少了“制表符”。于是又扩展了ASCII的定义，使用一个字节的全部8位(bit)来表示字符了，这就叫扩展ASCII码。范围是0x00 - 0xFF 共256个字符。
中国人利用连续2个扩展ASCII码的扩展区域（0xA0以后）来表示一个汉字，该方法的标准叫GB-2312。后来，日文、韩文、阿拉伯文、台湾繁体（BIG-5）......都使用类似的方法扩展了本地字符集的定义，现在统一称为 MBCS 字符集（多字节字符集）。这个方法是有缺陷的，因为各个国家地区定义的字符集有交集，因此使用GB-2312的软件，就不能在BIG-5的环境下运行（显示乱码），反之亦然。
为了把全世界人民所有的所有的文字符号都统一进行编码，于是制定了UNICODE标准字符集。UNICODE 使用2个字节表示一个字符(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。这下终于好啦，全世界任何一个地区的软件，可以不用修改地就能在另一个地区运行了。虽然我用 IE 浏览日本网站，显示出我不认识的日文文字，但至少不会是乱码了。UNICODE 的范围是 0x0000 - 0xFFFF 共6万多个字符，其中光汉字就占用了4万多个

G. unicode编码和utf-8编码的区别

UTF-8是对unicode字符集进行编码的一种编码方式。
UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间：

H. java中unicode是谁开发的

以下来自网络:

Unicode（统一码、万国码、单一码）是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发，1994年正式公布。

中文名:万国码
外文名:Unicode
也称:统一码
解释:它计算机科学领域里的一项业界标准,Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案!

简单一句话:任何使用计算机的国家都参与了它的开发;

I. unicode可实现对世界上主要文字进行统一编码对吗.

Unicode是国际标准万国码的字符集编码，目的是对全世界的文字进行编码，便于全球间的信息化交流，也是电脑制造商必须遵照执行的字符集标准。
随着万国码版本的不断更新，编入字符集的字符数不断增加。目前可供电脑利用的最大字符集是6.2版超大字符集，含有中日韩越汉字7.68万以上；世界上大多数国家的文字均被收入了。国务院两年前颁布的《通用规范汉字表》的8105个汉字都包括在内。只要下载安装万国码6版超大字符集字库，就能显示出所有通用规范汉字，还能显示出世界大多数国家的文字和各种符号。
多元输入法（多元汉字与图形符号输入法）是目前调用超大字符集字符的最佳输入法。特点：不须知读音,不用背字根,不必记部首,不用数笔画,见字知码,简单易学；码长极短,输入汉字1～3码,图形符号1～4码,词汇4码；国务院2013年8月19日公布的8105个通用规范汉字不但能全部打出,且均在第一屏显示；日常打字平均每字不到2码。可以输入国际标准万国码6.2版超大字符集全部汉字(7.68万以上), 彻底解决了不能输入所有汉字的难题。还具有识别汉字是否属于GBK字符集，以及按特定条件检索出所有相关汉字的功能。能让不懂中文者迅速打出所有汉字；不懂韩语者直接打出所有韩朝谚文（1.15万以上）；不懂泰语者打出泰文……；输入内容多元化,能直接输入50余种语言涉及136个非英语国家的法定文字；还能输入盲文点字、易经太玄经卦符、工程单位、数学符号及各类图案符号等；词汇有成语、歇后语、地名等9万条；广泛适用各行各业,实现真正的全球数字化信息交流。
该输入法目前受国家发明专利保护，暂不提供下载或销售，尚待有实力的部门或公司向全球推广应用。

导航:首页 > 创造发明 > unicode编码发明

unicode编码发明

与unicode编码发明相关的资料