2
本文作者: 劉子榆 | 2016-11-08 12:14 |
新的調(diào)查顯示 AI 能夠輕松戰(zhàn)勝人類,但還有很多工作要做。
如何讀懂唇語對人類來說是一個難題,據(jù)數(shù)據(jù)顯示,大多數(shù)人平均只能讀對一句唇語的十分之一。唇讀很困難,不僅是因為你要觀察對方嘴唇、舌頭和牙齒的輕微運動,而且大多數(shù)唇語信號十分隱晦,難以在沒有語境的情況下分辨。
現(xiàn)在,研究人員表示人工智能技術(shù),比如深度學(xué)習(xí)或許能夠解決這個難題。人工智能側(cè)重于大數(shù)據(jù)運算,已經(jīng)幫助改善了機器語音識別,甚至能達到人類的水平。那么機器學(xué)習(xí)技術(shù)是不是也能運用到讀懂人類的唇語上?
據(jù)國外媒體報道,牛津大學(xué)人工智能實驗室、谷歌 DeepMind 團隊 和加拿大高等研究院(CIFAR)就在近日聯(lián)合發(fā)布了一篇論文,介紹了結(jié)合深度學(xué)習(xí)技術(shù)的唇讀程序 LipNet。在 GRID 語料庫上,LipNet 實現(xiàn)了 93.4% 的準(zhǔn)確度,超過了經(jīng)驗豐富的人類唇讀者和之前的 79.6% 的最佳準(zhǔn)確度。研究人員還將 LipNet 的表現(xiàn)和聽覺受損的會讀唇的人的表現(xiàn)進行了比較。平均來看,他們可以達到 52.3% 的準(zhǔn)確度,LipNet 在相同句子上的表現(xiàn)是這個成績的 1.78 倍。除此之外,該模型將可變長度的視頻序列轉(zhuǎn)換成文本的過程幾乎是實時的。
不過,當(dāng)你沉醉在科幻電影《2001: 太空漫游》里,幻想著像 Hall 一樣能讀懂人類唇語的飛船主控計算機出現(xiàn)之前,雷鋒網(wǎng)小編必須要給你敲響一個警鐘——牛津大學(xué)的這一實驗很可能具有局限性。這一實驗首先是基于 GRID 語料庫完成的,這其中包含 34 個志愿者錄的短視頻,所有的視頻都長 3 秒,使用 DLib 面部檢測器和帶有 68 個 landmark 的 iBug 面部形狀預(yù)測器進行處理。每個句子都是以這樣的模式出現(xiàn)的:命令、顏色、介詞、字母、數(shù)字、副詞等。例如“set blue by A four please”或者 " place red at C zero again " 這樣的句式。由于這一模式下的詞句是有限的,只包含了四種不同的命令和顏色。這導(dǎo)致人工智能領(lǐng)域的一些專家認為,牛津大學(xué)這篇論文的研究結(jié)果被夸大了,尤其是當(dāng)他們看到其中一位研究人員在接受采訪時煽情地表示這項成果意味著人們將“沒有秘密。”
“事實并非如此,” 研究人員 Yannis Assael 和 Brendan Shillingford 在接受國外科技媒體 The Verge 采訪時說道,他們正在努力地突破“有限的詞匯和語法” 。Assael 表示,“現(xiàn)在的數(shù)據(jù)集雖小,但它卻是一個好的跡象,將來我們會使用更大的數(shù)據(jù)集執(zhí)行任務(wù)。”
除此之外,Yannis Assael 和 Brendan Shillingford 都在強調(diào)這一成果不會用于窺探他人的隱私。很簡單,因為唇讀需要看到對方的舌頭,所以你必須在光線很好的地方才能夠完成這一行為?!斑@在技術(shù)上來說是非常困難的?!?Assael 表示,任何唇讀軟件都很難做到監(jiān)視他人的地步,所以大家可以放心。而且幀率也是一個重要的因素?!俺悄隳弥粋€技術(shù)很高的相機對準(zhǔn)目標(biāo)對象,同時還要舉著一個麥克風(fēng)指向他?!?/p>
相反,兩位研究者認為在深度學(xué)習(xí)的幫助下,這種唇讀方式可以幫助有聽力障礙的人,尤其是在嘈雜的環(huán)境中。例如在聚會上,LipNet 就可以錄制實時通話,并將信息清晰準(zhǔn)確地送到人們的耳中。“只要你有語音識別和攝像頭,在任何地方都可以實現(xiàn)這項服務(wù)?!?nbsp;Assael 說。他還提到蘋果的 Siri 或谷歌語音助理或許也會用到這樣的技術(shù)。那么在未來,如果你不想親自和計算機對話,只要動動嘴巴它就能知道你在說什么了。
論文戳這里 PDF
Via the verge
推薦閱讀:
只訓(xùn)練一次數(shù)據(jù)就能識別出物體,谷歌全新 AI 算法“單次學(xué)習(xí)”
情感計算是不是手機差異化的下一個突破口?前微軟亞洲工程院副院長為何創(chuàng)業(yè)做EMOTIBOT
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。