多翼推荐 优质外链 腾讯云CDN拥有顶尖加速能力,丰富的功能全面覆盖各业务场景的加速需求,最为用户考虑的加速产品

验证码的最初摸样 我们举手投足间的改变

  “输入验证码”,相信对于大家来说已经是屡见不鲜的事情了,特别是过年前12306出台的变态验证码也是遭到了各种网游们的大吐槽,但是无论你喜欢与否,无论验证码的奇葩与否,它们的存在其实也是为了维护一个正常的网络环境,可是顺着时间的轨道我们往前推移,又有多少人知道最初的验证码的验证方式呢?

  CAPTCHA

  早在2000年,卡内基梅隆大学的Luis von Ahn发明了一种工具,以抵制网络上的不良软件程序。假如你要在线购买车票,那么你需要过目一组扭曲的字母,并输入正确内容。这样,系统可以将你判定为人类,而非机器程序。这就是所谓的CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)。

  然而,随着恶意软件的进步,验证码也跟着提升了难度,这使人们在辨识图案这件事上要花费更多的精力。偶尔,也会出现些令人尴尬的情形。据说Yahoo曾收到一条求救信息,询问系统出现了“W A I T”字样,可是他等了20分钟却没有任何反应。

  如果说这是一场介于网站和恶意程序/用户之间的竞争,那么最大的受害者是普通用户。据Google统计,每天,地球人至少要填写2亿个验证码。平均来讲,人们搞定一个验证码需要10秒的时间。往往我们还会因为看不清楚而不得不换一个新的来输入。按照这些数据计算,人类每天在验证码上就浪费了50多万个小时。这实在是一件令人沮丧的事。

  两个验证码

  这样大数量级的时间浪费问题再一次激发了Luis von Ahn,他开始思考,是否有什么方法可以把这些碎片时间利用起来,哪怕仅仅是那短暂的10秒。面对如此奇妙的设想,他居然找到了答案。

  如果你曾经填写过类似下面形式的验证码,那么恭喜你,尽管你可能并不知情,但实际上你在做着一件很有意义的事情——为旧书电子化。

  解决这一问题的传统做法是直接扫描书页,然后由计算机来辨认图片中的文字。这就是所谓的光学字符识别(OCR)。然而这一技术并没有我们以为的那样理想,对于一本50年前的旧书,计算机可正确辨识的文字甚至达不到30%。我们所看到的那些扭曲怪词正是出自这样的旧书。当然,这些词汇变得扭曲只是为了抵抗那些恶意程序。

  问题来了,如何判断人们输入的词正确与否呢?上图中出现的双词形式正是Von Ahn给出的解决方法。对于从旧书中提取出来的陌生词语,计算机并不知道答案,所以也无法判断电脑前的真人输入的是否正确。但是系统可以多给出一个词,这个词系统是知道其正确文字内容的。输入验证码的用户并不知道哪个是哪个的,只是顺其自然地把两个词都填上。如果电脑知道正确答案的那个词我们输入对了,那么系统会判定用户是真人,从而推断另一个输入的词也是正确的。当然,这样一次判断是不够的。通过重复这一过程,如果还有(比如) 10个真人都输入了相同的内容,那么系统才会认为这个未知词语真正得到了数字化。

  这就是所谓的reCAPTCHA。在国外,Ticketmaster,Facebook,Twitter等很多站点都曾使用过这种技术。据统计,通过这种方法每天可以数字化的词汇可达1亿个。也就是说,每年会有250万本书被数字化,而这一壮举只不过是基于我们最简单不过的填写验证码完成的。尽管reCAPTCHA较以往的验证码难度更大,但数据表明,人们输入的正确率高达92%。

  然而这还并非最了不起的数字。要知道,很多伟大的工程都需要耗费巨大人力。很巧的是,建造埃及金字塔,修建巴拿马运河,或者把一个人送上月球,这些事都牵扯了大约10万人。这也不难理解,在互联网出现以前,调度和照顾10万人以上是很困难的事。如今,在将人类文化与知识数字化这一工作上,通过双词验证码做出过贡献的个人超过了7.5亿,这已经超出了世界人口的十分之一。试想,10万人可以把一名宇航员送上月球,那么1亿人能做出什么?7.5亿人又能实现什么?

  多邻国(Duolingo)

  Von Ahn并没有停下脚步,顺着这条思路,他又将故事推向了新的高度。也许你听说过多邻国(Duolingo),没错,正是验证码的发明者开发了这个语言学习平台。上亿人在学习外语的同时,也在帮助翻译资料

  我们知道,互联网中的内容大部分为英文,而其他语言尽管比例相对略低,但体量依然巨大。Von Ahn想做的事是将互联网中的大部分内容翻译成各种主流语言。这件事目前仍无法依赖电脑来完成,原因同OCR一样。当然,也有专业语言机构可以提供此种服务,但问题是费用极其昂贵。我们选取维基百科为例,其西班牙语版本内容仅为英语版内容的20%,如果把另外80%全部翻译为西班牙语,那么这至少需要5000万美元。而Von Ahn则想让上亿人在不经意间携手完成这一壮举。

  要实现这一点,至少需要克服两个困难。一是需要拥有双语能力的人;二是需要这些人有足够的动机去做翻译之类的事。哪一条看起来都很棘手,我们甚至不知道世界上有没有1亿人具备双语能力,更别说引导他们去做翻译工作。

  然而有一件事正好可以一箭双雕,那就是语言教育。如今,世界上有超过12亿人在学习一门外语。单在美国,花上500美元购买语言软件的人就超过500万。Von Ahn却反其道而行之,开发了Duolingo这款免费语言学习系统。

  其基本原理在于人们免费学习语言的同时,也在翻译内容。无论初级还是高级用户,系统会分配相当难度的语句让你翻译,通过比对其他用户的翻译结果,你不断地学习了这些内容。也就是说,人们都是在边做边学。令人惊讶的是,这一理念在实际应用中极为有效。

  有趣的是,几个初级水平的用户合起来的效果与一名专业翻译人员的贡献相当。人们在学习的同时,也在创造价值。还以维基百科西班牙版为例,如果将那80%英文内容全部译为西班牙语,在拥有10万个活跃用户的情况下只需5周时间;如果有100万个活跃用户,将只要80个小时。记住,这可是个价值5000万美元的项目。

  当然,多邻国总是要盈利的。Von Ahn曾亲自在网上表示,其盈利模式有两点:一是付费翻译。CNN和Buzzfeed这样的机构会将待译的英文内容交给将他们,多邻国系统将这些内容发到正在学习英文的人手中,使其将新闻翻译成各自的母语。CNN自然会为这些地道的文章买单;另外一点就是App的语言测试服务。大家知道,托福或者雅思考试收费很高,而你大概只需要一两百块钱就可以参加多邻国提供的语言水平测试。这一点也很有竞争力。

  尽管如此,我们不要忘记,这一系统的最大意义在于免费面向全人类。能够花500美元买软件的人也许只占5%,世界上还有95%的人无法承受这一负担,却同样拥有学习的渴望。在创业过程中,这样的商业模式与驱动模式非常值得我们借鉴。

    上一篇:苹果缺乏营收增长推动力 营收增长难实现  
    下一篇:游戏直播推进游戏发展 69%游戏玩家因看直播玩游戏

    延伸阅读:

    腾讯云CDN拥有顶尖加速能力,丰富的功能全面覆盖各业务场景的加速需求,最为用户考虑的加速产品
    标签:图说资料

    上一篇:几何画板如何绘制二次函数图像

    下一篇:游戏直播推进游戏发展 69%游戏玩家因看直播玩游戏

    发表留言

    *

    ◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

    腾讯云服务器安全可靠高性能,多种配置供您选择
    扫一扫,加我为微信好友 加我为微信好友
    您可以使用eMule或eMule Mod(Windows)、aMule(Win、Linux、Mac)等软件下载eD2k链接。。
    eMule收藏集(.emulecollection)文件是您选中的所有链接的列表文件。eMule可以直接下载它们。
    按住SHIFT键选择可以选中多个选择框。
    可用文件名和大小选择器来选择文件。
    文件名选择器帮您根据文件名称或后缀来选择文件。不分大小写。
    符号使用:
    和:空格( )、+
    不包含:-
    或:|
    转义:一对英文引号("");
    匹配开头:^
    匹配结尾:$
    例如:
    选中所有名称中包含有“eMule”或“0.49c”字眼,但不包含有“exe”字眼的:emule|0.49c -exe
    选中所有名称的开头是“eMule”,结尾是“0.49c”的:^emule 0.49c$
    选中所有名称中带有“eMule 0.49c”的(必须是“eMule 0.49c”,中间没有别的字符,不能是“eMule fake 0.49c”),需要转义:"emule 0.49c"
    大小选择器帮您根据文件大小选择文件。