A. 中文属于Unicode 编码吗
Unicode是国际标准字符集,可译为万国码或统一码等,这是电脑系统采用字库的字符集标准,包含中日韩越汉字和世界上绝大多数语言文字,便于实现全球间信息交流。其标准的版本不断更新,第6版的汉字数达7.67万以上。
WindowsXP~Windows7采用的是万国码3.0版,也就是国标GBK标准的字符集,只有2万余汉字,其中缺少通用规范汉字275个;Windows8虽然采用了万国码5.0版,已拥有7.5万汉字,但仍缺通用规范汉字113个。
从网上下载并安装万国码6.0版之后,就能显示8105个通用规范汉字了。
但要使用全部汉字,还得有超大字符集的输入法才行。多元汉字与图形符号输入法就是这样一种输入法。不但能在3码内首屏输入任一通用规范汉字,还能简单万输入国码所有汉字,例如全部由“木”字组成的汉字为:木、林、森、𣓏、𣛧、、𣡕、𣡽。后五个字未装超大字符集字库的电脑看不见,这里制成图片格式如下所示:

这五个字不在常用汉字范围内,但都是我们祖先发明的汉字。我国正在开发十万以上汉字的《中华字库》工程,待其完成后,上述这些字也将会包含其中。
B. Unicode 和 UTF-8 有何区别
utf-8和Unicode到底有什么区别?是存储方式不同?编码方式不同?它们看起来似乎很相似,但是实际上他们并不是同一个层次的概念
要想先讲清楚他们的区别,首先应该讲讲Unicode的来由。
众所周知,在计算机发明的时候 ,由于计算机你只能表示二进制的数据,美帝人民为了交流通信方便,约定了一个编码系统,就是ASCII码,把abc..xyz...ABC...XYZ...!@#...等字符分别和0,1,2,3,4......对应,发现差不多刚好128个数,半个字节的长度,为了防止以后需要为新的符号编码,于是干脆取一个字节,最高位置为0。后七位从0-127分别对每一个符号编码。
于是,计算机每次读取一个字节,然后参照ASCII表把这些编码翻译成字符。美国人民很高兴,拿着自己玩去了.......
后来欧洲人也玩计算机,发现不行啊,还有很多符号(法语,德语)ASCII没办法表示啊,于是欧洲人自己也撸了一套编码,一个字节的长度,把最高位也用掉了。这套编码叫ISO。
和ASCII表类似,计算机也是每次只读一个字节,然后按照ISO表,解码出字符。于是欧洲人民也很高兴。
中国人不高兴了,特么我们汉字有几万个,常用的就有几千个,没有两个字节根本交不了货。于是勤劳勇敢的中国人民就破天荒的用了两个字节来表示中文。整出一套GBK。为了现实我中华民族兼容并蓄,我们兼容了ASCII编码。
计算机 : WTF ?? !!
gbk编码规定,计算机不能在每次都只读一个字节那么死板了,你要先看看第一位是不是为0,要是为0 的话,就当作ASCII码来读入一个字节,不然的话就读入两个字节。
于是天下就很乱了,欧洲人看不懂我们发过去的信息,我们也看不懂他们的东西,美国人看不懂我的东西,不过我们能看懂他们的信息。。。哈哈。
总之,天下大乱,群雄并起,百姓生灵涂........
这个时候,就有个国际组织站出来了,说,这么着吧,我来撸一套编码,把大家的编码都归纳进来。于是unicode编码就出现了。这套编码表的编号从0一直算到了100多万(三个字节)。每一个区间都对应着一种语言的编码。目前几乎收纳了全世界大部分的字符。所有的字符都有唯一的编号,这就解决了解码的冲突,于是天下大定!但是,unicode把大家都归纳进来,却没有为编码的二进制传输和二进制解码做出规定。只留下一句:大哥只能帮你到这里了。
我知道你一定在想,要个毛的规定啊,每次让计算机读取三个字节然后参照Unicode表解码就好了。想法是好的,但是如果类似于1号编码这样的小数据编号也要三个字节的话,那么也就是0x000001,这简直就是浪费啊,明明一个字节就可以表示了,你非得整三个,所以你到底是几个意思呢?
不管怎么样,大哥虽然走了,但是问题还得解决啊,于是,就出现了如下解决方案:uft-8,utf-16,utf-32这些编码方案。utf-16是用两个字节来编码所有的字符,utf-32则选择用4个字节来编码。下面只讲一下utf-8这种解决方案,因为它用的最多,用得最多是因为在当时它的方案最好,最节省资源。
utf-8
utf-8为了节省资源,采用变长编码,编码长度从1个字节到6个字节不等

C. unicode和ascii字符编码的区别
计算机发明后,为了在计算机中表示字符,人们制定了一种编码,叫ASCII码。ASCII码由一个字节中的7位(bit)表示,范围是0x00 - 0x7F 共128个字符。
后来他们突然发现,如果需要按照表格方式打印这些字符的时候,缺少了“制表符”。于是又扩展了ASCII的定义,使用一个字节的全部8位(bit)来表示字符了,这就叫扩展ASCII码。范围是0x00 - 0xFF 共256个字符。
D. Unicode和ASCII的区别是什么
ASCII就是编码英文的26个字母和一些常见的符号,之后扩展了一半。总之是一个字节来做编码,大于128的部分是一些特殊符号。但ASCII是无法编码别的东西的,比如说是不存在“中文的ascii码需要2个字符”这种说法的。ASCII就只有一个字节。
Unicode是足够编码地球上所有的语言了,所以ASCII中所能表示的,Unicode当然全部包括了。Unicode本身是只有2个字节的,之所以出现UTF-8,UTF-16等等之类,那是为了针对不同的应用环境,提高整体编码效率,比如如果某篇文章里绝大部分是英语(单字节就能表示),就比较适合使用utf-8,而如果绝大部分是中文(需要双字节),可能就utf-16比较合适了
COPY的,不过也是正确的,当然是UNICODE普遍.
一般手机的电子书只能是UNCODE编码的TXT
E. GBK内码 Unicode码 区位码有什么区别和联系 怎样互相转化
ANSI , 这是美国国家标准协会制定的编码格式,例如"A汉" 在这种编码方式下的内存值为 41 BA BA ,'A'占用一个字节,"汉"用两个字节,而且 BA BA 正式 GBK内码的值, 那让我们先认识GBK编码. GB2312,GBK,GB18030都是中国人自己发明的(中国之外并不使用的), 他们出现的时间顺序是GB2312 -> GBK -> GB18030 ,他们是包含关系,GB我猜是 "国标" 的意思 "k" 可能是 "扩展", 这些编码都是书面协议,要在计算机内部表示所以GB2312的内存值须在原来的每个字节值(区位码)上加0x80得到机内码,加上0x80是为了使得每个字节的最高位为1,这样就可以在内存中区分汉字和ASCII了[因为ASCII的最高位都为0]. 但是后来要在GB2312上扩展(得到GBK,GB18030),就需要更多的编码空间,所以GBK,GB18030就没有要求第二个字节的的最高位为1了,而是通过第一个字节来判断这是一个字节的ASCII还是两个字节的GBK.另外需要说明一点GB2312,GBK,GB18030是向下兼容的,例如 "汉" 在GB2312,GBK,GB18030中都是BA,BA . 另外,GB2312,GBK并没有因为GB18030的出现退出市场,在一些嵌入式设备中还是应用广泛的,因为减少字库容量可以大大减少成本. 回到之前的ANSI, 我们大概知道了GBK(不知道人们为什么喜欢用GBK而不是GB18030,姑且认为是GBK只有3个字母,书写方便吧!),那么ANSI又是怎么回事呢? ANSI就像一个指针,本身没有内容,如果指向"中国的编码",那么它就是GBK,如果指向"印度的编码",他就是x??x.也就是说在中国ANSI是GBK,在日本ANSI是XXX,在印度ANSI是???,但是他们在windows的记事本中都只能看到ANSI.但是ANSI也做了一些小的变动,就像刚才一样,'A'在内存中只占用了一个字节,也就是说ANSI = ASCII + 本地编码Unicode: 但是,我们怎么在一个汉语资料中书写日文符号呢?这时,Unicode出现了,不过它是谁发明的,反正Unicode把世界上的所有文字符号都包含进来了,不仅解决了刚才说的问题,而且程序员用Unicode写的程序可以在全世界的电脑上运行.C语言中用wchar_t表示.UCS: 据说UCS是和Unicode一样的工程,最后两个工程达成共识,所以编码完全兼容.所以我就把UCS看做Unicode. 这里的UCS-2就是常说的UCS,只使用了两个字节保存一个字符,而UCS-4则是使用4个字节保存一个字符.UTF-8: (ucs transformation format),为什么要创造UTF-8呢?其中一个原因是:0x00在C语言及操作系统文件名(等..)中有特殊意义(如字符串结尾),然而按照Unicode编码的话,很可能这个字符的第一个字节(高字节)为非零数值,而低字节为零,这样C语言就会误认为这是字符串的结尾.所以UTF-8的一个功能是保证Unicode编码表中不出现0x00(当然正常的0x00是可以的)UCS-2编码,Unicode(16进制) UTF-8 字节流(二进制)
0000 - 007F 0xxxxxxx
0080 - 07FF 110xxxxx 10xxxxxx (第一个1之后有几个1就表示后面还有一个字节,这里后面还有1个)
0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx (第一个1之后有几个1就表示后面还有一个字节,这里后面还有2个) 应为UTF-8的这种编码方式,它不需要判断大小端模式,所以它是利于网路传输的(我也不知道是为什么) (BOM) EF BB BF ,我们可以通过BOM来判断文本是否为UTF-8编码格式.打开一个文本文件时如何判断是何种编码呢?1)提示用户选择编码类型2)根据一定的规则猜测编码类型3)检测文件头标识识别编码类型
EF BB BF UTF-8
FE FF UTF-16/UCS-2(Unicode), little endian,(在文件一个只含一个字母'A'的中文件中,文件内容为 FE FF 00 41 )
FF FE UTF-16/UCS-2(Unicode), big endian,(在文件一个只含一个字母'A'的中文件中,文件内容为 FF FE 41 00 )
FF FE 00 00 UTF-32/UCS-4, little endian.
00 00 FE FF UTF-32/UCS-4, big-endian. 区位码 国标(GBK) 内码 "汉" 1A1A 3A3A BABA 国标 = 区位码 + 0x20 (每个字节) 内码 = 国标(GBK) + 0x80 (每个字节)
F. Unicode和ASCII的区别是什么
计算机发明后,为了在计算机中表示字符,人们制定了一种编码,叫ASCII码。ASCII码由一个字节中的7位(bit)表示,范围是0x00 - 0x7F 共128个字符。
后来他们突然发现,如果需要按照表格方式打印这些字符的时候,缺少了“制表符”。于是又扩展了ASCII的定义,使用一个字节的全部8位(bit)来表示字符了,这就叫扩展ASCII码。范围是0x00 - 0xFF 共256个字符。
中国人利用连续2个扩展ASCII码的扩展区域(0xA0以后)来表示一个汉字,该方法的标准叫GB-2312。后来,日文、韩文、阿拉伯文、台湾繁体(BIG-5)......都使用类似的方法扩展了本地字符集的定义,现在统一称为 MBCS 字符集(多字节字符集)。这个方法是有缺陷的,因为各个国家地区定义的字符集有交集,因此使用GB-2312的软件,就不能在BIG-5的环境下运行(显示乱码),反之亦然。
为了把全世界人民所有的所有的文字符号都统一进行编码,于是制定了UNICODE标准字符集。UNICODE 使用2个字节表示一个字符(unsigned shor int、WCHAR、_wchar_t、OLECHAR)。这下终于好啦,全世界任何一个地区的软件,可以不用修改地就能在另一个地区运行了。虽然我用 IE 浏览日本网站,显示出我不认识的日文文字,但至少不会是乱码了。UNICODE 的范围是 0x0000 - 0xFFFF 共6万多个字符,其中光汉字就占用了4万多个
G. unicode编码和utf-8编码的区别
UTF-8是对unicode字符集进行编码的一种编码方式。
UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间:
H. java中unicode是谁开发的
以下来自网络:
Unicode(统一码、万国码、单一码)是计算机科学领域里的一项业界标准,包括字符集、编码方案等。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。1990年开始研发,1994年正式公布。
中文名:万国码
外文名:Unicode
也称:统一码
解释:它计算机科学领域里的一项业界标准,Unicode是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案!
简单一句话:任何使用计算机的国家都参与了它的开发;
I. unicode可实现对世界上主要文字进行统一编码对吗.
Unicode是国际标准万国码的字符集编码,目的是对全世界的文字进行编码,便于全球间的信息化交流,也是电脑制造商必须遵照执行的字符集标准。
随着万国码版本的不断更新,编入字符集的字符数不断增加。目前可供电脑利用的最大字符集是6.2版超大字符集,含有中日韩越汉字7.68万以上;世界上大多数国家的文字均被收入了。国务院两年前颁布的《通用规范汉字表》的8105个汉字都包括在内。只要下载安装万国码6版超大字符集字库,就能显示出所有通用规范汉字,还能显示出世界大多数国家的文字和各种符号。
多元输入法(多元汉字与图形符号输入法)是目前调用超大字符集字符的最佳输入法。特点:不须知读音,不用背字根,不必记部首,不用数笔画,见字知码,简单易学;码长极短,输入汉字1~3码,图形符号1~4码,词汇4码;国务院2013年8月19日公布的8105个通用规范汉字不但能全部打出,且均在第一屏显示;日常打字平均每字不到2码。可以输入国际标准万国码6.2版超大字符集全部汉字(7.68万以上), 彻底解决了不能输入所有汉字的难题。还具有识别汉字是否属于GBK字符集,以及按特定条件检索出所有相关汉字的功能。能让不懂中文者迅速打出所有汉字;不懂韩语者直接打出所有韩朝谚文(1.15万以上);不懂泰语者打出泰文……;输入内容多元化,能直接输入50余种语言涉及136个非英语国家的法定文字;还能输入盲文点字、易经太玄经卦符、工程单位、数学符号及各类图案符号等;词汇有成语、歇后语、地名等9万条;广泛适用各行各业,实现真正的全球数字化信息交流。
该输入法目前受国家发明专利保护,暂不提供下载或销售,尚待有实力的部门或公司向全球推广应用。