丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
專欄 正文
發(fā)私信給知社學術圈
發(fā)送

5

驗證碼的故事:1億人的舉手之勞能帶來什么?

本文作者: 知社學術圈 2016-04-17 19:11
導語:最初的驗證碼:令人沮喪的驗證碼背后,1億人能帶來什么?

按:本文由知社學術圈士奇原創(chuàng)編譯。

驗證碼的故事:1億人的舉手之勞能帶來什么?

如何在王珞丹里面找出白百合?如何在春哥叢中發(fā)現(xiàn)姚明?也許你曾被12306那些神奇的驗證碼所折磨,也許你曾看著那些被折磨的家伙而心中竊喜。無論怎樣的搞怪和奇葩,它們存在的根本目的其實是保護多數(shù)人的利益,維護一個正常的網(wǎng)絡環(huán)境。論壇上留言,社交網(wǎng)站里注冊賬號,或者直接在網(wǎng)上買一張火車票……驗證碼隨處可見,在一定程度上阻擋了惡意軟件的肆虐。那么,最初的驗證碼又是什么樣子呢?

CAPTCHA

早在2000年,卡內(nèi)基梅隆大學的Luis von Ahn發(fā)明了一種工具,以抵制網(wǎng)絡上的不良軟件程序。假如你要在線購買車票,那么你需要過目一組扭曲的字母,并輸入正確內(nèi)容。這樣,系統(tǒng)可以將你判定為人類,而非機器程序。這就是所謂的CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart)。

然而,隨著惡意軟件的進步,驗證碼也跟著提升了難度,這使人們在辨識圖案這件事上要花費更多的精力。偶爾,也會出現(xiàn)些令人尷尬的情形。據(jù)說Yahoo曾收到一條求救信息,詢問系統(tǒng)出現(xiàn)了“W A I T”字樣,可是他等了20分鐘卻沒有任何反應。

如果說這是一場介于網(wǎng)站和惡意程序/用戶之間的競爭,那么最大的受害者是普通用戶。據(jù)Google統(tǒng)計,每天,地球人至少要填寫2億個驗證碼。平均來講,人們搞定一個驗證碼需要10秒的時間。往往我們還會因為看不清楚而不得不換一個新的來輸入。按照這些數(shù)據(jù)計算,人類每天在驗證碼上就浪費了50多萬個小時。這實在是一件令人沮喪的事。

兩個驗證碼

這樣大數(shù)量級的時間浪費問題再一次激發(fā)了Luis von Ahn,他開始思考,是否有什么方法可以把這些碎片時間利用起來,哪怕僅僅是那短暫的10秒。面對如此奇妙的設想,他居然找到了答案。

如果你曾經(jīng)填寫過類似下面形式的驗證碼,那么恭喜你,盡管你可能并不知情,但實際上你在做著一件很有意義的事情——為舊書電子化。

驗證碼的故事:1億人的舉手之勞能帶來什么?

解決這一問題的傳統(tǒng)做法是直接掃描書頁,然后由計算機來辨認圖片中的文字。這就是所謂的光學字符識別 (OCR)。然而這一技術并沒有我們以為的那樣理想,對于一本50年前的舊書,計算機可正確辨識的文字甚至達不到30%。我們所看到的那些扭曲怪詞正是出自這樣的舊書。當然,這些詞匯變得扭曲只是為了抵抗那些惡意程序。

問題來了,如何判斷人們輸入的詞正確與否呢?上圖中出現(xiàn)的雙詞形式正是Von Ahn給出的解決方法。對于從舊書中提取出來的陌生詞語,計算機并不知道答案,所以也無法判斷電腦前的真人輸入的是否正確。但是系統(tǒng)可以多給出一個詞,這個詞系統(tǒng)是知道其正確文字內(nèi)容的。輸入驗證碼的用戶并不知道哪個是哪個的,只是順其自然地把兩個詞都填上。如果電腦知道正確答案的那個詞我們輸入對了,那么系統(tǒng)會判定用戶是真人,從而推斷另一個輸入的詞也是正確的。當然,這樣一次判斷是不夠的。通過重復這一過程,如果還有 (比如) 10個真人都輸入了相同的內(nèi)容,那么系統(tǒng)才會認為這個未知詞語真正得到了數(shù)字化。


驗證碼的故事:1億人的舉手之勞能帶來什么?

這就是所謂的reCAPTCHA。在國外,Ticketmaster,F(xiàn)acebook,Twitter等很多站點都曾使用過這種技術。據(jù)統(tǒng)計,通過這種方法每天可以數(shù)字化的詞匯可達1億個。也就是說,每年會有250萬本書被數(shù)字化,而這一壯舉只不過是基于我們最簡單不過的填寫驗證碼完成的。盡管reCAPTCHA較以往的驗證碼難度更大,但數(shù)據(jù)表明,人們輸入的正確率高達92%。

然而這還并非最了不起的數(shù)字。要知道,很多偉大的工程都需要耗費巨大人力。很巧的是,建造埃及金字塔,修建巴拿馬運河,或者把一個人送上月球,這些事都牽扯了大約10萬人。這也不難理解,在互聯(lián)網(wǎng)出現(xiàn)以前,調(diào)度和照顧10萬人以上是很困難的事。如今,在將人類文化與知識數(shù)字化這一工作上,通過雙詞驗證碼做出過貢獻的個人超過了7.5億,這已經(jīng)超出了世界人口的十分之一。試想,10萬人可以把一名宇航員送上月球,那么1億人能做出什么?7.5億人又能實現(xiàn)什么?

多鄰國 (Duolingo)

Von Ahn并沒有停下腳步,順著這條思路,他又將故事推向了新的高度。也許你聽說過多鄰國 (Duolingo),沒錯,正是驗證碼的發(fā)明者開發(fā)了這個語言學習平臺。上億人在學習外語的同時,也在幫助翻譯資料。

我們知道,互聯(lián)網(wǎng)中的內(nèi)容大部分為英文,而其他語言盡管比例相對略低,但體量依然巨大。Von Ahn想做的事是將互聯(lián)網(wǎng)中的大部分內(nèi)容翻譯成各種主流語言。這件事目前仍無法依賴電腦來完成,原因同OCR一樣。當然,也有專業(yè)語言機構可以提供此種服務,但問題是費用極其昂貴。我們選取維基百科為例,其西班牙語版本內(nèi)容僅為英語版內(nèi)容的20%,如果把另外80%全部翻譯為西班牙語,那么這至少需要5000萬美元。而Von Ahn則想讓上億人在不經(jīng)意間攜手完成這一壯舉。

驗證碼的故事:1億人的舉手之勞能帶來什么?

要實現(xiàn)這一點,至少需要克服兩個困難。一是需要擁有雙語能力的人;二是需要這些人有足夠的動機去做翻譯之類的事。哪一條看起來都很棘手,我們甚至不知道世界上有沒有1億人具備雙語能力,更別說引導他們?nèi)プ龇g工作。

然而有一件事正好可以一箭雙雕,那就是語言教育。如今,世界上有超過12億人在學習一門外語。單在美國,花上500美元購買語言軟件的人就超過500萬。Von Ahn卻反其道而行之,開發(fā)了Duolingo這款免費語言學習系統(tǒng)。

其基本原理在于人們免費學習語言的同時,也在翻譯內(nèi)容。無論初級還是高級用戶,系統(tǒng)會分配相當難度的語句讓你翻譯,通過比對其他用戶的翻譯結果,你不斷地學習了這些內(nèi)容。也就是說,人們都是在邊做邊學。令人驚訝的是,這一理念在實際應用中極為有效。

有趣的是,幾個初級水平的用戶合起來的效果與一名專業(yè)翻譯人員的貢獻相當。人們在學習的同時,也在創(chuàng)造價值。還以維基百科西班牙版為例,如果將那80%英文內(nèi)容全部譯為西班牙語,在擁有10萬個活躍用戶的情況下只需5周時間;如果有100萬個活躍用戶,將只要80個小時。記住,這可是個價值5000萬美元的項目。

當然,多鄰國總是要盈利的。Von Ahn曾親自在網(wǎng)上表示,其盈利模式有兩點:一是付費翻譯。CNN和Buzzfeed這樣的機構會將待譯的英文內(nèi)容交給將他們,多鄰國系統(tǒng)將這些內(nèi)容發(fā)到正在學習英文的人手中,使其將新聞翻譯成各自的母語。CNN自然會為這些地道的文章買單;另外一點就是App的語言測試服務。大家知道,托?;蛘哐潘伎荚囀召M很高,而你大概只需要一兩百塊錢就可以參加多鄰國提供的語言水平測試。這一點也很有競爭力。

盡管如此,我們不要忘記,這一系統(tǒng)的最大意義在于免費面向全人類。能夠花500美元買軟件的人也許只占5%,世界上還有95%的人無法承受這一負擔,卻同樣擁有學習的渴望。在創(chuàng)業(yè)過程中,這樣的商業(yè)模式與驅(qū)動模式非常值得我們借鑒。

參考資料

1、articles.philly.com

2、www.ted.com

3、www.tools138.com

【作者介紹】微信公號:知社學術圈,海歸學者發(fā)起的公益學術交流平臺,旨在分享學術信息,整合學術資源,加強學術交流,促進學術進步。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

驗證碼的故事:1億人的舉手之勞能帶來什么?

分享:
相關文章

專欄特約作者

海歸學者發(fā)起的公益學術交流平臺,旨在分享學術信息,整合學術資源,加強學術交流,促進學術進步。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說