6
本文作者: 溫曉樺 | 2016-04-07 22:08 |
說起人工智能(AI),盡管很容易又讓人想起它的威脅,但是該技術(shù)確實(shí)能夠在很多方面讓我們的生活變得更美好。AI算法是為了幫助我們與朋友聯(lián)系、查找信息,甚至帶我們感知物理世界。
國外媒體報(bào)道,F(xiàn)acebook即將發(fā)布一款新型屏幕閱讀工具,能對圖片上的內(nèi)容進(jìn)行自動描述,從而讓盲人或視覺障礙患者“看到”圖片。 據(jù)悉,用戶在iOS設(shè)備上使用這款屏幕閱讀器時(shí),該工具可對照片進(jìn)行自動文本處理,從而讓用戶聽到照片上的內(nèi)容描述,如“有三個人,面帶微笑,站在戶外”等。
為了提高AI的文本識別準(zhǔn)確度,開發(fā)者對算法模型基于100種不同類型的對象進(jìn)行了集中訓(xùn)練,所以目前該算法僅能夠識別人類、披薩、棒球等等。隨著研究地不斷推進(jìn),算法的識別將能夠越來越廣泛和復(fù)雜。
視覺障礙人士上網(wǎng)時(shí)往往依賴于屏幕閱讀器,然而,屏幕閱讀器只有一樣好,那就是它們只能讀好給定的文本內(nèi)容。如果文本缺失,它們什么也讀不出來。雖然網(wǎng)頁標(biāo)準(zhǔn)規(guī)定,圖片需要有一個叫“alt text”的字段,以防網(wǎng)頁上的圖片因?yàn)槟撤N原因不能被顯示時(shí)能夠出現(xiàn)相應(yīng)的替代文字。不過,F(xiàn)acebook上的大多數(shù)圖片里唯一可度的文本就是隨狀態(tài)一起發(fā)出的文字。
通過應(yīng)用人工智能算法,F(xiàn)acebook能夠掃描每個圖像,并整理出相應(yīng)的信息描述。如果某人的帖子是一張披薩圖,算法能夠自動將“披薩”這個詞添加到圖片的替代文字中,那么屏幕閱讀器就能夠?qū)D片也讀出來告訴用戶了。
具體來說,F(xiàn)acebook想要利用這個機(jī)會來使得其技術(shù)研究更加大眾化。該公司的“無障礙倡議”項(xiàng)目(Accessibility team)和人工智能團(tuán)隊(duì)直接將從用戶那里獲得反饋利用到進(jìn)一步的研究當(dāng)中。3月份,F(xiàn)acebook與康奈爾大學(xué)共同發(fā)表了一項(xiàng)探索盲人如何使用Facebook的研究,希望做一個能夠滿足這些群體需要的產(chǎn)品。
“研究的過程應(yīng)該是以用戶的需要來驅(qū)動研究,而不是用我們的研究來產(chǎn)生需要。反饋?zhàn)屛覀冞M(jìn)行更多有用的研究。”
挑戰(zhàn)識別并描述圖片是人工智能領(lǐng)域里一個杰出的研究項(xiàng)目。新的技術(shù)和硬件支持深度學(xué)習(xí)——利用人工神經(jīng)網(wǎng)絡(luò)層級或者模擬大腦神經(jīng)元的微型數(shù)學(xué)方程式 集群,來整理數(shù)據(jù)和尋找計(jì)算模式。這些技術(shù)可以應(yīng)用于圖像、音頻、文本等幾乎任何類型的數(shù)據(jù)。
單個對象的話很簡單。但當(dāng)存在對象相互作用,或上下文聯(lián)系的情況時(shí),計(jì)算就變得困難了,因?yàn)闄C(jī)器需要真正了解物理世界,并且知道客觀對象之間的關(guān)系。對于一臺純粹的機(jī)器來說,它們不會有重心、家庭關(guān)系和愛。它們有的只是數(shù)據(jù)。
所以說,如果要識別出圖片“父親與女兒在散步”等信息,機(jī)器首先要學(xué)習(xí)現(xiàn)實(shí)世界。
而這正是Facebook Accessibility團(tuán)隊(duì)需要實(shí)現(xiàn)的?,F(xiàn)在,他們將這些被識別的對象稱為標(biāo)簽。一只貓是一個標(biāo)簽,一張床是一個標(biāo)簽,一個人是一個標(biāo)簽……有了這些信息,算法就可以說出“照片中四個人在吃冰淇淋或者披薩”等描述了。
然而,在許多方面來說,這只是一個起點(diǎn)。該團(tuán)隊(duì)不僅夢想實(shí)現(xiàn)更多基于上下文的對象識別,同時(shí)也希望這些識別行為更加富有互動性。Facebook的計(jì)算機(jī)視覺研究負(fù)責(zé)人Manohar Paluri曾表示,它們或許還將開發(fā)出新的功能,可以讓算法描述圖片的特定局部。
但在Facebook的研究中,精確度是首要的任務(wù)。Facebook、Instagram、Messenger和WhatsApp上,每天有超過20億張圖片被分享,所以,即使百分之一的誤差都可能意味著數(shù)以百萬計(jì)的錯誤。因此,工程師每次對大約100算個法可以檢測的概念進(jìn)行手動調(diào)整。舉例來說,關(guān)于性別等信息,算法需要更多的準(zhǔn)確性支持。據(jù)悉,大多數(shù)機(jī)器可以理解的概念是關(guān)于人們和客觀事物。它知道眼鏡、棒球,甚至自拍照。當(dāng)然,還有一些研究員未加入數(shù)據(jù)庫的圖片,這通常都是一些動物,比如照片角落里有一個貓爪子。
一個貓爪出現(xiàn)在照片的一角,算不算一張“貓片”呢?這個問題沒有標(biāo)準(zhǔn)答案
目前的人工智能,尤其在圖片識別領(lǐng)域,很可能觸碰到政治雷區(qū),比如前陣子谷歌識圖把黑人的照片辨認(rèn)成了大猩猩。為了避免這種狀況,Paluri 說:“我們要有足夠的自信,并不斷收到積極的反饋”。
“一個貓爪出現(xiàn)在照片的一角,算不算一張‘貓片’呢?這個問題沒有標(biāo)準(zhǔn)答案”,他說,“也許這只是一張‘貓爪照片’,這就是有趣的地方”。
人工智能的研究方向還有很多,甚至可以研究笑點(diǎn)。但總而言之,人工智能的研究基本等同于算法的研究,人工智能的任何提升都是算法在背后起作用。人工智能的研究者們承諾將使人類的生活更簡單,更美好。我們把一部分的思考外包給機(jī)器,讓機(jī)器的智慧增強(qiáng)人類,世界將運(yùn)行的更好。
現(xiàn)在,這項(xiàng)功能已經(jīng)可以在 iOS 的 Facebook app 里面啟用了,其他平臺及英語之外的其他語言也將陸續(xù)提供支持。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。