Ⅰ 验证码有什么用呢
验证码(CAPTCHA)是“Completely Automated Public Turing test to tell Computers and
Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机和人的公共全自动程序。可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试,实际上是用验证码是现在很多网站通行的方式(比如招商银行的网上个人银行,网络社区),我们利用比较简易的方式实现了这个功能。
大多数网站的验证码都是需要点击一下填写框,然后会自动弹出验证码图片。
点击验证码旁边红色字样即可更换
由于验证码是随机产生的,有很大几率会出现无法清楚识别的验证码图片,所以需要注意的是,一般网站都会有相应的提示,如“看不清,换一张”等,如果没有提示,则直接点击当前的验证码图片,可以完成验证码的更换。
(1).验证码一般是防止批量注册的,人眼看起来都费劲,何况是机器。二像网络贴吧未登录发贴要输入验证码大概是防止大规模匿名回帖的发生。目前,不少网站为了防止用户利用机器人自动注册、登录、灌水,都采用了验证码技术。所谓验证码,就是将一串随机产生的数字或符号,生成一幅图片, 图片里加上一些干扰,例如随机画数条直线,画一些点(防止OCR),由用户肉眼识别其中的验证码信息,输入表单提交网站验证,验证成功后才能使用某项功能。
(2)一般注册用户ID的地方以及各大论坛都要输入验证码
(3)常见的验证码
1,四位数字和字母,可能都是字母,也可能都是数字,随机的4位字符串,最原始的验证码,验证作用几乎为零。2,CSDN网站用户登录用的是GIF格式,目前常用的随机数字图片验证码。图片上的字符比较中规中矩,验证作用比上一个好。没有基本图形图像学知识的人,不可破!可惜读取它的程序,在CSDN使用它的第一天,好像就在论坛里发布了,真是可怜!
2,汉字是注册目前最新的验证码,随机生成,打起来更难了!例如QQ申诉页面
3,MS的hotmail申请时候的是BMP格式, 随机数字+随机大写英文字母+随机干扰像素+随机位置。
4,韩文或日文,现在跑跑HF上MS注册都要打韩文的,这更增加了难度,要去修学下才行。
5,Google的Gmail注册时候的是JPG格式,随机英文字母+随机颜色+随机位置+随机长度。
6,其他各大论坛的是XBM格式,内容随机。
7,广告验证码:输入广告中的部分内容即可,特点是可以给网站带来额外收入,也可以使使用者耳目一新。广告验证码
8,问题验证码:问题验证码主要是以问答式的形式来进行填写。
它的查看比加模验证码更容易辨别和录入,系统可以生成诸如“1+2=?”的问题让用户进行回答,当然这样的问题是随机生成的。
另一种问题验证码,则是文字式的问题验证码,诸如生成问题“中国的全称是什么?”,当然有些网站还在问题后面给出了提示答案或直接答案。
验证码还有什么作用?
您肯定上过论坛吧?几乎所有正规的论坛都要求注册时输入验证码,这是为了防止乱发垃圾广告的家伙用注册机来恶意注册。这个源自美国卡内基-梅隆大学的发明被称为CAPTCHA(用于区分人类与电脑的全自动图灵测试),因为注册者需要辨识图片上七歪八扭的文字,而这项工作只有真正的人类才能完成。
要知道,全世界的网络用户数以亿计,对个人来说,辨认文字所花的几秒时间微不足道,但如果将所有网民的力量利用起来,那便能完成难以想象的浩大工程,而这正是美国宾夕法尼亚州匹兹堡市的CMU研究小组正在做的事。
该小组受一家名为“互联网档案馆”的非营利组织委托,要将海量的古老书籍和手稿通过OCR(光学字符识别)软件转化为电子文本,以方便电脑储存和查询。然而,由于原稿的质量太差,可怜的电脑每扫描十个单词就会错读一个,唯一解决的办法就是人工核对,而这样的工作显然不是一个人或一个小组可以胜任的。
于是,CMU设计了一个名叫reCAPTCHA的强大系统,让他们的电脑去向人类求助。具体做法是:将OCR软件无法识别的文字扫描图传给世界各大网站,用以替换原来的验证码图片;那些网站的用户在正确识别出这些文字之后,其答案便会被传回CMU。
为了提高用户辨识文字的正确率,他们往往被要求辨认两个单词,其中一个的答案已经知晓。这样以来,正确辨认出有答案的那个单词的用户,很有可能也会正确辨认另一个单词。有时候,CMU也会将一个未经辨认的单词提交给不同的用户,如果得到的是相同的答案,那这个答案便可以肯定是正确的。
由于许多人气极高的网站,如Facebook、Twitter和StumbleUpon等,都采用了reCAPTCHA,CMU现在每天都可以处理大约一百万个单词。不过,按照现在的速度,要电子化“互联网档案馆”提供的所有文本,估计还需要400年。
(4)目前比较流行的验证就是手机短信验证码,通过手机短信的验证码验证,也提供了网站或者用户登陆的安全性。
Ⅱ 关于网络图片的版权问题
侵权与否要看图片使用者是否用作商业用途。若属于以下规定的十二种合理使用的情形,则不属于侵权:
《著作权法》第二十二条规定,在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬。
(一)为个人学习、研究或者欣赏,使用他人已经发表的作品;
(二)为介绍、评论某一作品或者说明某一问题,在作品中适当引用他人已经发表的作品;
(三)为报道时事新闻,在报纸、期刊、广播电台、电视台等媒体中不可避免地再现或者引用已经发表的作品;
(四)报纸、期刊、广播电台、电视台等媒体刊登或者播放其他报纸、期刊、广播电台、电视台等媒体已经发表的关于政治、经济、宗教问题的时事性文章,但作者声明不许刊登、播放的除外;
(五)报纸、期刊、广播电台、电视台等媒体刊登或者播放在公众集会上发表的讲话,但作者声明不许刊登、播放的除外;
(六)为学校课堂教学或者科学研究,翻译或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行;
(七)国家机关为执行公务在合理范围内使用已经发表的作品;
(八)图书馆、档案馆、纪念馆、博物馆、美术馆等为陈列或者保存版本的需要,复制本馆收藏的作品;
(九)免费表演已经发表的作品,该表演未向公众收取费用,也未向表演者支付报酬;
(十)对设置或者陈列在室外公共场所的艺术作品进行临摹、绘画、摄影、录像;
(十一)将中国公民、法人或者其他组织已经发表的以汉语言文字创作的作品翻译成少数民族语言文字作品在国内出版发行;
(十二)将已经发表的作品改成盲文出版。
一般需要检查图片的许可协议,如果是第一手的照片,有水印或声明需要版权的,就不能擅自使用。
请问你老人家识字吗
(2)互联网档案馆版权扩展阅读
怎么看图片有没有版权
在网络首页搜索自己想要的图片。
搜索完成之后点击进去图片主页面,注意观看右下角的版权信息栏目,如果是有的,一般都是有版权的信息。另外一般高清像素高的图片也多有版权,具体的可以点进去仔细的观看一下,或者注明图片的来源。
有版权的图片需要获得作者的授权才能用于商业用途,不要盗用。
Ⅲ 版权的作品形式
所称的作品,包括以下列形式创作的文学、艺术和自然科学、社会科学、工程技术等作品:
(一)文字作品;
(二)口述作品;
(三)音乐、戏剧、曲艺、舞蹈作品;
(四)美术、摄影作品;
(五)电影、电视、录像作品;
(六)工程设计、产品设计图纸及其说明;
(七)地图、示意图等图形作品;
(八)计算机软件;(九)法律、行政法规规定的其他作品。
1、著作权是依法而产生的。
2、又叫版权。分为著作人格权与著作财产权。其中著作人格权的内涵包括了公开发表权、姓名表示权及禁止他人以扭曲、变更方式利用著作损害著作人名誉的权利。
3、有以下几条权利
(一)发表权,即决定作品是否公之于众的权利;
(二)署名权,即表明作者身份,在作品上署名的权利;
(三)修改权,即修改或者授权他人修改作品的权利;
(四)保护作品完整权,即保护作品不受歪曲、篡改的权利;
(五)复制权,即以印刷、复印、拓印、录音、录像、翻录、翻拍等方式将作品制作一份或者多份的权利;
(六)发行权,即以出售或者赠与方式向公众提供作品的原件或者复制件的权利;
(七)出租权,即有偿许可他人临时使用电影作品和以类似摄制电影的方法创作的作品、计算机软件的权利,计算机软件不是出租的主要标的的除外;
(八)展览权,即公开陈列美术作品、摄影作品的原件或者复制件的权利;
(九)表演权,即公开表演作品,以及用各种手段公开播送作品的表演的权利;
(十)放映权,即通过放映机、幻灯机等技术设备公开再现美术、摄影、电影和以类似摄制电影的方法创作的作品等的权利;
(十一)广播权,即以无线方式公开广播或者传播作品,以有线传播或者转播的方式向公众传播广播的作品,以及通过扩音器或者其他传送符号、声音、图像的类似工具向公众传播广播的作品的权利;
(十二)信息网络传播权,即以有线或者无线方式向公众提供作品,使公众可以在其个人选定的时间和地点获得作品的权利;
(十三)摄制权,即以摄制电影或者以类似摄制电影的方法将作品固定在载体上的权利;
(十四)改编权,即改变作品,创作出具有独创性的新作品的权利;
(十五)翻译权,即将作品从一种语言文字转换成另一种语言文字的权利;
(十六)汇编权,即将作品或者作品的片段通过选择或者编排,汇集成新作品的权利;
(十七)应当由著作权人享有的其他权利。
著作权要保障的是思想的表达形式,而不是保护思想本身,因为在保障著作财产权此类专属私人之财产权利益的同时,尚须兼顾人类文明之累积与知识及资讯之传播,从而算法、数学方法、技术或机器的设计均不属著作权所要保障的对象。 版权,国内网络中至今未能解决症结。侵权行为不断,被起诉的却寥寥无几。一方面是普遍缺乏保护版权意识,另一方面盗版者多,分布范围广而侵权行为普遍较轻,起诉成功的补偿常常不及起诉时人力财力的消耗。包括网站也有版权。
对于中小网站,常见的侵权方式集中于非法转载。
非法转载的情况的常见情况包括: 当作者明确禁止转载时,强行转载,虽然注明作者并用链接方式指向原文,这仍然属于侵权。
目 前互联网管理没有出台专门的法律文本,现在最全面的互联网法规是国务院出台的互联网工作条例,互联网无时无刻不在飞速发展,我们期待着全面完善的互联网法律的出台。 从版权法产生之初,版权限制与版权保护就如影随形:版权保护为作品的创作与传播提供物资和精神的激励,版权限制则确保社会公众及时获得作品、最大限度地分享文化进步艺术繁荣带来的利益,从版权法平衡作者与社会公众利益的立法目的而言,二者不可偏废。版权保护与版权限制既处于此消彼涨的永恒冲突之中,又总是追求和谐共存的动态平衡,一部版权发展史其实就是追随技术进步的步履不断调整保护与限制平衡点的历史。
随着数字网络时代的到来,作品的复制与传播成本日益低廉,复制质量完美无缺,无所不在的私人复制严重损害了版权人的利益,在一定程度上触动了版权体系的传统平衡,于是版权人竭力要求强化版权保护,取消对版权的限制——正如美国推出的《知识产权与国家信息基础设施》报告即白皮书所述:“在数字世界,合理使用制度的适用范围将日益缩小,如果不是完全消亡的话。”事实上,正如版权发展史所表明的,即使在网络时代,基于人权保护、促进竞争、保护公众利益和公共政策等多方面的需要,版权限制制度也仍然有适用的余地。“即使数字技术将改变一切,也无法改变作者、出版商、唱片制作者、读者之间的利益关系”,而维持上述利益的平衡则是版权法永远的目标。
一、人权保护与版权限制
知识产权与人权的冲突与协调正日益引起各国立法者和知识产权与人权学者的重视,人权与版权的冲突则首当其冲。许多基本人权,包括言论自由、出版自由、表现自由、信息自由、民主辩论、隐私或个人自治的利益,都可以为限制版权提供正当理由。以表现自由为例,正如吴汉东教授所指出的,表现自由在基本人权体系中占有突出重要的地位,相对于经济自由等权利,表现自由应当具有“优越地位”,即应看作是具有优先性的法价值。表现自由优于经济自由的原则在各国宪法理论与实践中都得到承认。这就是说,版权的独占性质不应构成思想表现和信息交流的障碍。在这种人权理念的指引下,各国版权法都对作品的独占权利设定了必要限制,以保障表现自由权利的实现。没有理由认为,在网络时代,基于表现自由对版权的限制会失去存在的基础。比如,出于批评、评论的目的,人们有权对版权作品进行适当引用或复制:学术论文出于评论目的可以复制他人作品的一部分,报社记者为了指出其错误可以发表政治家的演讲,所有这些都是本原意义上的合理使用制度。考虑到在因特网上各种批评、评论、新闻报道和公共辩论将更显活力,合理引用或者合理使用规则在数字世界必将继续占有一席之地,正如在传统印刷世界的情形一样。
“隐私权是公民对其私人生活安宁与私人信息享有的不被非法侵扰、知悉、搜集、利用和公开的一种权利。”[2]一方面,某些作品如纪实文学、素描绘画作品可能会包含有涉及他人隐私的材料,这样,作者发表权的行使就要充分考虑到对他人隐私权的尊重;另一方面,某些复制作品的行为发生在私人生活领域,坚持严格的版权保护会侵扰人们的私生活宁静,因此版权人无权干涉发生在私人领域的复制行为。也就是说,要建立起一套严格的版权执行制度,将版权之手伸向人们的家庭范围之内并要求人们出示其所拥有的包括作品在内的所有信息的收据或者许可证,这需要巨大的社会成本。而且,版权效力向私人领域的延伸与公共政策所代表的利益相冲突,这些利益在历史上对信息政策诸如言论自由、保护隐私、竞争政策和百家争鸣都产生了重要影响。这样,版权人只能放弃对某些私人复制的控制。这也许是生活在自由社会所不得不支付的代价!更何况,在网络时代,侵犯隐私权正在演变成为日益严重的社会问题,因而为保护隐私权加大对版权的限制显得尤为必要。
二、公共利益与版权限制
出于公共利益的考虑对版权的限制在不同的国家和不同的时代会存在某种程度的差异,但一般说来,世界各国都从立法上承认了下列限制,包括:在非营利性教育机构的面授过程中表演版权作品;图书馆和档案馆为保存版本、更换毁损藏书或者其他合法目的而制作作品复制件;为盲人制作演绎作品。可以预言,这类限制在网络时代也不会有大的变化。值得注意的是,即使是屡遭诟病的美国《数字千年版权法》也试图在版权人与社会公众利益之间维持一种平衡,因而规定了限制版权的条款,使得图书馆和档案馆可以出于上述目的制作作品的数字复制件以及印刷和传真复制品。该法案还授权国会图书馆进行相关研究,以帮助国会确定从促进远程教育的角度考虑,应如何制定版权规则。有时基于公共利益的理由可以援引合理使用制度为在法律程序中(如作为与正在辩论的事实有关的证据)或者为了出于行政管理的需要(如证明某一毒品的效力)复制版权作品的行为提供正当性辩护,在立法或修订法律的过程中有关机关适当复制相关法学作品和实证材料则更是一种正当的行为。
三、促进竞争与版权限制
竞争政策也可以为版权限制提供依据。在市场经济中,竞争机制能够促使市场主体生产或提供质优价廉的商品或服务,而包括版权在内的知识产权却赋予权利人某种垄断地位,使得作品的供给量低于竞争状态,供给价格则高于竞争价格,导致社会总体福利水平的下降,这就是经济学上所谓的无谓损失。这样,在社会经济生活中,如果过强的版权保护导致超出法定程度的垄断,就必须对版权进行适当的限制。比如,在美国版权法中,有两例属于基于竞争政策的版权限制制度:其一,针对音乐版权人的强制许可,以便有更多的企业制作某一音乐作品的录音带;其二,针对广播信号权利人的强制许可,以便他人通过有线系统被动转播被广播的材料。美国的合理使用抗辩有时也用于促进市场竞争,如在Sega v. Accolade (Sega v. Accolate, 977F.2d 1510(9th Cir. 1992)。)案的审理中,法院认定虽未得到授权但具有开发具备兼容性程序之合法目的的解构他人程序的行为属于合理使用。正如该案所表明的,当信息表现为数字形式时,竞争政策问题会不时浮出水面。而美国司法部针对微软公司提起的反垄断诉讼,实际上也是试图通过对微软公司通过软件版权而获得的强大市场垄断地位进行限制以促进竞争。
四、弹性机制与版权限制
在技术飞速发展的年代,立法者很难准确预测将会出现怎样的新技术、人们将如何使用这类技术以及版权法应如何应对。正如学者所指出的:“法律试图跟上技术的发展,而结果却总是技术走在前头,这几乎是一个永恒的规律。”这样,当立法机关对特定案件的情势并没有表示明确的态度时,法院就常常采用合理使用制度作为一种弹性机制,以便平衡这类案件中版权人和其他当事人的利益。例如在1984年Sony v. Universal City Studios案的判决中,美国最高法院明确指出,应推定非商业性私人复制行为属于合理使用,“不必为了保护对作者的创作激励而禁止对作品潜在市场或价值没有明显影响的私人复制行为,对这种非商业性使用作品行为的禁止只会阻碍人们获得作品的思想,而不会带来任何收益。”而在Lewis Galoob Toys Inc.案的审理过程中,法庭支持原告发行一种“游戏精灵”的权利,这使得任天堂游戏的用户在玩游戏的过程中可以有一些临时性的变化,[3]而在Religious Technology Center案中,法庭认定,在线服务提供者自动张贴源于用户的因特网信息的行为属于合理使用。[4]上述案例都成功地利用版权限制法理解决了法律不时与高新技术发展脱节的矛盾,使得版权法保持面向未来的适度弹性和灵活性。
五、市场失灵与版权限制
“市场失灵”是解释版权限制依据的经典理论之一。根据这一理论,版权法之所以不愿意扩大版权保护范围以彻底禁止私人使用,不但不追究在理论上有可能构成侵权的行为,反而将其认定为合理使用,是因为立法者认识到过高的交易成本使得版权人与使用者之间难以达成任何协议。这样,从实用主义的角度而言,对于社会来说,得到半条面包(社会公众自由使用作品而版权人得不到使用费收入)比什么都得不到要强(即社会公众不能自由使用作品,版权人也得不到使用费收入)。也就是说,当为达成许可而进行谈判的交易成本远远超出交易的预期收益(既可以表现为许可收入,也可以是其他利益,如名声或者商誉的提高)时,就不能形成有效的市场,这时,人们自然可以援引合理使用抗辩。
那么,在网络时代,这种“市场失灵”是否依然存在呢?答案是肯定的。虽然从表面上看,在数字网络环境下,适度的技术保护措施和权利管理信息的存在可以在相当程度上减少交易成本,使得版权人有可能按照使用或者复制作品的次数和时间收费,从而导致“市场失灵”理论失去存在的基础。而实际上,技术保护措施和权利管理信息本身就是一笔不小的成本,更不用说一整套网上支付交易系统的运行和维护需要大量的人力和物力投入。上述成本对于大量市场价值不高的普通作品而言,足以构成“市场失灵”的充足理由。事实上,许多为私人目的复制作品的行为要么没有明显的经济上的重要性,要么由于一些特殊的原因如便利研究工作而被认定为正当。更何况,虽然网络的触须正在伸向世界的每一个角落,但由于经济、地理和人们自身的原因如存在视力、智力障碍,网络终究有其局限,对于某类地区、某类群体,会不可避免地存在“网络失灵”。这样,网络与市场“双重失灵”的存在使得版权限制制度依然有相当的适用空间。
六、反共地悲剧与版权限制
近 年来,国外一些学者试图运用经济学上“反共地悲剧”理论为网络时代的版权限制制度进行辩护。“反共地悲剧”是与“共有地悲剧”相比较而存在的经济学理论模型,“共有地悲剧”和“反共地悲剧”分别以两种极端的情形来说明保证土地(其实可以被视为人类赖以生存和发展的各种资源的代表)适度开发利用的理想产权架构:没有产权保护会导致土地过度开发利用甚至资源枯竭,如过度放牧导致土地沙化使人们失去牧场,即所谓“共有地悲剧”;而在土地上存在过多过强的权利甚至权力又会阻碍资源的充分利用,如现实中多个部门共同掌握土地等资源的审批权,各种权利/权力相互牵制,最终导致土地长期荒废,这就是“反共地悲剧”。
上述理论模型同样适用于作品和版权保护。数字网络技术使得作品管理和版权交易的成本下降,减少了基于“市场失灵”的版权限制,但一方面,版权过于充分的“行使”会增加作品使用者的成本、减少作品的使用量从而对社会不利,因为对于社会来说,作品的价值就在于使用,另一方面,过强的版权保护也会阻碍新作品的创作,这是由于每一部作品的创作都必然会牵涉到对许多在先作品的利用,存在于在先作品的过多过强的版权交织在一起形成一张网,必然阻碍甚至窒息作品的创作,陷入一种“反共地悲剧”。这就说明,不管在哪个时代,我们都必须追求一种版权适度保护模式,维系版权保护与限制的动态平衡。
七、使用者权与版权限制
早在前网络时代,为对抗作者享有的版权,一些学者就明确提出,包括读者和其他作品使用者在内的社会公众享有一种“使用者权”。根据这种观点,合理使用不仅是一种消极抗辩,更是社会公众享有的积极权利。也就是说,一旦版权人将其作品在公众中传播,对该作品的合理使用就成为公众享有的一种“权利”。版权法只是授予版权人在有限时间内的有限权利,而将所有其他权利包括合理使用权都保留给公众,这已成为版权保护史上一脉相承的传统并体现在网络时代的典型案例中。例如,1992年,美国第九巡回上诉法院判决Accolade公司出于兼容目的解构Sega公司软件代码的行为属于合理使用行为。[5]此后,为达到兼容效果而解构他人软件就成为一种权利。而在另外一个案例中,美国最高法院指出,如果版权法要实现其促进知识进步的宪法目标,就必须为合理使用留出合适的空间。[6]因此,一些学者坚持认为,合理使用是公众享有的一种如此强有力的权利,以致于可以根本不考虑旨在排除合理使用的合同条款或者技术保护措施的限制。
总之,版权保护与版权限制恰如版权天平两端的砝码,任何一端砝码的不当增减固然会导致天平暂时失衡,而完全去掉“版权限制”的砝码则势必摧毁版权天平本身。正如经济学家所津津乐道的,时代在不断变化,但对经济学而言,“有所改变的只是答案而不是问题本身。”对于版权法来说也是如此:在网络时代,版权天平还是那架天平,砝码还是那两种砝码(即“版权保护”与“版权限制”),立法者的任务也依然是保持天平的平衡,有所改变的只是天平两端托盘中的砝码数量以及为维持平衡而增减砝码的频率。
Ⅳ 关于互联网论文资料等的版权问题
如果不是为盈利或者从事商业活动,不算侵犯了版权。
Ⅳ 互联网档案馆怎样用
微软Orleans的口号是“Cloud Computing Much Easier",初步试用了一下,Orleans Grain似乎是高度隔离的,grains是由silo高度自动化管理的,看起来比较傻瓜式,但是如果真的能够让开发人员从底层解放出来也是件好事。资料现在不多,刚刚开始学习中。
这段视频中,Bykov说生产效率提高了3-5倍(00:25:30):
Episode 142: Microsoft Research project Orleans simplify development of scalable cloud services
Ⅵ 网上的图片有版权吗
你网站没做出名是没人管的,一旦你网站赚到大钱了自然有人来找你 呵呵,我个人建议啊。你在网站上注明。本站图片来自互联网,如有侵权,请作者联系管理员清除
Ⅶ 中国银行信用卡随机验证码“1+4=”怎么输入“”
这是计算式的验证码,算式计算出的结果就是要输入的验证码。
问题里中国银行验证码“1+4=?”的计算结果是5,故输入5
验证码可防止恶意注册
几乎所有正规的论坛都要求注册时输入验证码,这是为了防止乱发垃圾广告的人用注册机来恶意注册。这个源自美国卡内基-梅隆大学的发明被称为CAPTCHA(用于区分人类与电脑的全自动图灵测试),因为注册者需要辨识图片上七歪八扭的文字,而这项工作只有真正的人类才能完成。全世界的网络用户数以亿计,对个人来说,辨认文字所花的几秒时间微不足道,但如果将所有网民的力量利用起来,那便能完成难以想象的浩大工程,而这正是美国宾夕法尼亚州匹兹堡市的CMU研究小组正在做的事。
该小组受一家名为“互联网档案馆”的非营利组织委托,要将海量的古老书籍和手稿通过OCR(光学字符识别)软件转化为电子文本,以方便电脑储存和查询。然而,由于原稿的质量太差,可怜的电脑每扫描十个单词就会错读一个,唯一解决的办法就是人工核对,而这样的工作显然不是一个人或一个小组可以胜任的。于是,CMU设计了一个名叫reCAPTCHA的强大系统,让他们的电脑去向人类求助。具体做法是:将OCR软件无法识别的文字扫描图传给世界各大网站,用以替换原来的验证码图片;那些网站的用户在正确识别出这些文字之后,其答案便会被传回CMU。
为了提高用户辨识文字的正确率,他们往往被要求辨认两个单词,其中一个的答案已经知晓。这样以来,正确辨认出有答案的那个单词的用户,很有可能也会正确辨认另一个单词。有时候,CMU也会将一个未经辨认的单词提交给不同的用户,如果得到的是相同的答案,那这个答案便可以肯定是正确的。
由于许多人气极高的网站,如Facebook、Twitter和StumbleUpon等,都采用了reCAPTCHA,CMU每天都可以处理大约一百万个单词。不过,按照现在的速度,要电子化“互联网档案馆”提供的所有文本,估计还需要400年。
验证码_网络
Ⅷ 最大的硬盘有几G
现在普通电脑硬盘最大的是2TB 1TB=1024GB
Ⅸ 互联网档案馆的互联网档案计划
“互联网档案计划”分为六大部分:
一、电子书
这个部分,我以前已经介绍过了,它专门收集公共领域的书籍和文档,任何人都可以免费下载。截至到今天,共有29万多种材料,堪称互联网上最好的公共领域图书搜索引擎。
它主要收集英语书籍,但也包括少部分其他语种的书籍,比如朱熹的《论语集注》。
二、网页
这个部分有个专门的名字,叫做”时光倒流机器“(Wayback Machine),它像收集旧报纸那样收集旧网页。举例来说,Yahoo!的首页就有5000多份档案,最早的可以回溯到1996年10月17日,最近的则是2007年8月30日。
要将全世界的网页都保存下来,这需要多大的存储容量啊?根据2006年的统计,当时Wayback Machine的存储容量有2000T,然后还在以每月20T的速度增加。
三、视频
这个部分收集视频材料,你在其中可以找到动画片和电影。
四、音频
音频材料主要是有声书籍和音乐。
五、软件
六、教育材料
这部分主要是美国大学课程,有视频和文字材料下载,相当于不去北美就可以上那里的课,比如麻省理工学院的《微分方程》和Naropa大学的《艾伦·金斯堡的诗歌》。
Ⅹ 互联网档案馆的简介
由 Alexa 创始人布鲁斯特·卡利(Brewster Kahle)创办,是一个Wayback machine公益性质的计划。Internet Archive 非正式中文名有“网站时光倒流机器”、“互联网档案馆”等。
对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份”一次,每次可能收录数十个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。对网站不同时期的历史资料进行研究,是互联网档案馆最大的价值所在。用户可以通过 Internet Archive 的“Take Me Back”对网站的发展与历史资料进行研究。