Facebook將反饋融入AI系統(tǒng)，視覺障礙者現(xiàn)在也能“讀懂”照片啦

本文作者：陳鳴鳩

2017-03-01 10:00

導(dǎo)語：Automatic Alt-Text的發(fā)布讓視覺障礙用戶更好地讀懂FaceBook新聞推送 (News Feeds) 里的照片。

雷鋒網(wǎng)按：Automatic Alt-Text (AAT) 的發(fā)布讓盲人（或使用屏幕閱讀器的用戶）更好地讀懂新聞推送 (News Feeds) 里的照片的內(nèi)容。以訪談，可用性測試以及調(diào)查為手段的用戶研究給工具的發(fā)明提供了幫助。我們將在本文簡要介紹這項(xiàng)工作的一些亮點(diǎn)，雷鋒網(wǎng)獨(dú)家編譯，未經(jīng)許可不得轉(zhuǎn)載。

這項(xiàng)工作的主要作者、數(shù)據(jù)科學(xué)家Shaomei Wu將會出席本周在波特蘭舉辦的CSCW 2017，屆時她將在會上詳細(xì)介紹該工具的功能以及所進(jìn)行的研究。如果您想面對面探討，請?jiān)跁虾臀覀兟?lián)系。

背景

眾所周知，F(xiàn)acebook的新聞推送大多都帶有圖像和視頻，隨著配備高畫質(zhì)相機(jī)的手機(jī)上越來越普及，大家分享的圖像和視頻會越來越多。通過視覺媒體讓大家觀看和討論所發(fā)生的事，是Facebook提供的一項(xiàng)關(guān)鍵功能。事實(shí)上，人們每天在Facebook、Instagram、Messenger和WhatsApp上分享的照片超過20億張。聽起來不錯吧？有人歡喜有人愁，對盲人等有視覺障礙的人來說，他們注定很難參與圍繞圖片展開的交流。

Facebook的目標(biāo)是于創(chuàng)造一個更加開放、互聯(lián)的世界，和賦予人們分享的能力。超過3900萬的盲人和2.46億有嚴(yán)重視力障礙的人分布在全球，他們都曾經(jīng)有過因?yàn)椴荒苋虆⑴c以照片和視頻為中心的交流而感到被排斥或被孤立的沮喪經(jīng)歷。為了讓更多的人參與圖片社交，F(xiàn)acebook推出了AAT技術(shù)，希望屏幕閱讀器用戶也能夠理解新聞推送中大部分圖像的內(nèi)容（有望很快覆蓋所有圖像?。?。

Facebook將反饋融入AI系統(tǒng)，視覺障礙者現(xiàn)在也能“讀懂”照片啦

前世今生

該從哪里開始克服這個挑戰(zhàn)？關(guān)于如何創(chuàng)建AAT和構(gòu)建計(jì)算機(jī)視覺模型的Lumos技術(shù)，詳情請參考Face-book數(shù)據(jù)科學(xué)家Shaomei Wu以前的技術(shù)帖子。在這里，我們聚焦如何和盲人合作從而給他們創(chuàng)造絕佳的用戶體驗(yàn)。

從以前的研究中可知，一些服務(wù)會使用定制化的服務(wù)（或叫好友幫忙）來描述照片，這種服務(wù)一張照片對應(yīng)一個請求。不幸的是，這種方法存在一些缺點(diǎn)：

?耗時很長
?需要一個愿意執(zhí)行任務(wù)的人在場
?瀏覽新聞推送被中途打斷
?最重要的是很難進(jìn)行擴(kuò)展

然而積極的一面是，朋友或被委托人針對照片給出的翻譯可以達(dá)到很高的精準(zhǔn)度?？紤]到你們的關(guān)系，朋友還可能提供額外的圖片信息（例如繪聲繪色地進(jìn)行描述或講一個隱藏其中的玩笑）。但是如何取其精華去其糟粕地?cái)U(kuò)展這個方案？為此我們的目標(biāo)是革新這種定制服務(wù)，以此構(gòu)建一個新的Facebook功能。

AAT項(xiàng)目通過尋求更佳的算法，針對照片得出有用和準(zhǔn)確的描述，這種方法不會受限于用戶的知識面，可以在更大范圍進(jìn)行擴(kuò)展。由于alt-text具有HTML屬性的這個設(shè)計(jì)，可作為圖像的替換文本，網(wǎng)頁的圖像內(nèi)容管理員可以輕松把圖像更換為alt-text，并且采用W3C可訪問性標(biāo)準(zhǔn)，當(dāng)用戶把屏幕閱讀器軟件的光標(biāo)移動到任一圖像上，軟件都能對圖像進(jìn)行識別和朗讀。

研究

在構(gòu)建可擴(kuò)展的穩(wěn)定人工智能系統(tǒng)的10個月里，我們完成了兩類研究。我們對Shaomei Wu設(shè)計(jì)的原型進(jìn)行了質(zhì)性研究和可用性測試，從中找出了系統(tǒng)的關(guān)鍵性缺陷，并對原型系統(tǒng)進(jìn)行了改善。系統(tǒng)發(fā)布后，以前感到沮喪和困惑的人們現(xiàn)在驚喜又感謝。對研究結(jié)果進(jìn)行三角測量的另一種方法是進(jìn)行這樣一個實(shí)驗(yàn)：告知并獲得測試者（實(shí)驗(yàn)組）的同意為他們啟用一項(xiàng)實(shí)驗(yàn)功能，與沒有啟用該功能的組（控制組）進(jìn)行同樣的實(shí)驗(yàn)。兩組成員都是VoiceOver Facebook iOS用戶。

訪談和可用性測試

在這個過程中我們遇到的最大挑戰(zhàn)，是平衡人類想獲得更多圖片信息的欲望和圖片蘊(yùn)含信息的質(zhì)量以及不同智力之間的平衡。解讀視覺文本是非常主觀和依賴背景，例如，即使人們主要關(guān)心誰在照片里以及他們在做什么，有時候背景才是使照片有趣或重要的關(guān)鍵。這個關(guān)鍵的發(fā)現(xiàn)最終決定了我們呈現(xiàn)給用戶的句子是如何構(gòu)成的。

此外，對人類來說輕挑選出照片最有趣的部分易舉就能，這事對即使最聰明的人工智也是難如登天。社會知識和大量有效的反饋是這項(xiàng)服務(wù)提供絕佳用戶體驗(yàn)的關(guān)鍵，我們希望最終能實(shí)現(xiàn)這點(diǎn)！通過訪談我們意識到，相較于遺漏大家不確定的事物，給出錯誤的信息往往更糟糕，例如，系統(tǒng)不小心把照片里一位嬌小女性誤認(rèn)為一個小孩。我們同樣吸取其他公司的AI系統(tǒng)把事情變得糟糕的教訓(xùn)，例如把人類描述成動物，這會使各方處于苦惱境地。如果用戶知道朋友并沒有孩子，系統(tǒng)給出這樣的評論會導(dǎo)致用戶難堪和引起社交尷尬。牢記我們與開發(fā)團(tuán)隊(duì)要創(chuàng)建這樣的一個系統(tǒng)：

?可以大規(guī)模識別內(nèi)容

?可以挑選照片中有趣的概念或事物

?可以向用戶提供有意義的反饋

?可以無縫互動

在定性研究過程中我們學(xué)到最后一個大教訓(xùn)是，不要談?wù)揂I從照片中得出哪些概念的確定性有多大，這非常重要。否則據(jù)我們所知，談?wù)撨@點(diǎn)會使參與者覺得這個系統(tǒng)不吉利或者非常不智能，并對系統(tǒng)逐漸產(chǎn)生不信任感。我們的補(bǔ)救措施是，（高于AI一定精度閾值的前提下）極度肯定從照片中得出的概念，并把復(fù)述評價AI系統(tǒng)所得概念有多正確的功能刪除。盡管準(zhǔn)確度提高了，系統(tǒng)初始版本能識別出至少一個概念的照片比例，占到了上傳到Facebook所有圖片的50％以上，隨著時間的推移，這個數(shù)字將隨著更好的技術(shù)問世而上升。

開展試驗(yàn)以來，和這些樂于助人的參與者一起工作，讓我們在如何面試盲人這方面受益良多，我們希望把一些實(shí)用的建議分享給做盲人定性研究的同行。

一個小小的經(jīng)驗(yàn)是，即使他們根據(jù)自己的需要預(yù)設(shè)了輔助功能，也要讓盲人參與者自帶設(shè)備，因?yàn)檫@讓他們在研究中更舒適自然（對任何參與者來說都是一個好建議）。

另一個提示是要求使用屏幕閱讀器的用戶將語音速率稍微降低，這樣參與者才能既跟得上讀音又能出聲思考。出聲思考在很多方面都是關(guān)于參與者究竟如何解讀屏幕閱讀器所讀出的話。如果思維跟不上這兩個聲音（即參與者和閱讀器的聲音），即表示您錯過了一半的信息。在開始這階段之前，學(xué)習(xí)使用屏幕閱讀器將使您成為一個更有效率的主持人。

最后，一些研究人員說，招聘屏幕閱讀器用戶極具挑戰(zhàn)性，因?yàn)樵S多用戶體驗(yàn)招聘者不熟悉這類人群，與倡導(dǎo)團(tuán)體（例如Lighthouse，感謝您的支持）合作，或者聯(lián)系專業(yè)招聘人員尋找參與者更加高效。

調(diào)查

未知的定性理解還太多，為此我們把研究轉(zhuǎn)向更全面、被更廣泛理解地描述AAT的使用感受的方向，調(diào)查了大約550名確定有一種（或以上）視力障礙或失明參與者。如上所述，總樣本大約9,000份，我們收到來自控制組（使用普通版本Facebook）和實(shí)驗(yàn)組（使用ATT版Facebook）的綜合反饋。參與者都填寫了幾乎相同的問題，唯一的區(qū)別是實(shí)驗(yàn)組會問一些關(guān)于AAT的問題。參與者都能選擇參與抽獎活動，十名幸運(yùn)兒獲得了亞馬遜的100美元禮品券。

與其他調(diào)查一樣，為目標(biāo)受訪者設(shè)計(jì)一個簡潔、通俗易懂的調(diào)查很重要，為盲人用戶創(chuàng)建調(diào)查，我們發(fā)現(xiàn)了一些實(shí)用技巧：

?避免使用水平單選按鈕和拖放問題。前者比垂直選項(xiàng)更難分頁，而后者則不可能應(yīng)用到屏幕閱讀器上。
?避免使用矩陣和星級評分問題。前者有時在HTML側(cè)不會被正確地標(biāo)記，也就不可能分辨矩陣中的應(yīng)答者在哪，而后者應(yīng)該被替換為非圖形HTML元素，使不同的屏幕閱讀器能通用地訪問。
?避免給屏幕閱讀器提供返回功能，否則誤觸導(dǎo)致的錯誤會頻頻發(fā)生。
?相比調(diào)查使用鼠標(biāo)操作系統(tǒng)的視力正常用戶，在屏幕閱讀器上進(jìn)行調(diào)查所花的時間更長。如果屏幕閱讀器用戶響應(yīng)調(diào)查對您來說很重要，那么首先引導(dǎo)用戶閱讀簡介很重要。
?與傳統(tǒng)的優(yōu)秀調(diào)查設(shè)計(jì)一樣，盡量減少每頁的問題，避免認(rèn)知復(fù)雜性和導(dǎo)航問題。
?使用間距來確保單選按鈕和復(fù)選框與其標(biāo)簽關(guān)聯(lián)清楚，能避免出現(xiàn)模糊與混亂。

?縮略語在調(diào)查中很常見。然而并非所有受訪者都對它們熟悉或記得住，屏幕閱讀器可能會混淆字母縮寫和縮略語的發(fā)音?！笆鬃帜缚s寫”和“縮略語”提示標(biāo)簽可以用于緩解這一點(diǎn)，并且“標(biāo)題”屬性在需要的時候可以提供更多的信息。

調(diào)查/實(shí)驗(yàn)結(jié)果：亮點(diǎn)

相比于沒有打開AAT功能的控制組，測試組中的人員認(rèn)為AAT作用很大，他們的答案也反映出了這一點(diǎn)。更廣泛地，測試組的參與者更有可能這樣做：

?給新聞推送中的照片點(diǎn)贊（或?qū)φ掌鞒龌貜?fù)）
?相比于非AAT用戶，認(rèn)為Facebook更關(guān)心可訪問性
?總體而言，相比于非AAT用戶，認(rèn)為Facebook更有用
?最重要的是，能在更短的時間內(nèi)弄清楚照片中內(nèi)容

調(diào)查的樣本問題：

我們請AAT用戶確認(rèn)，在點(diǎn)擊新聞推送中的照片時，是否聽到這樣一句話：“圖片可能包含......”，如果他們說真的有聽到這句話，我們會問他們幾個問題！

問題：（如果在測試組）聽到這個替換文本后，感覺如何？（檢查所有適用）

測試組中的受訪者在聽完圖片中的替換文本后，一組隨機(jī)詞語隨即被提供給他們選擇，讓他們用這些詞語描述聽完的感覺，此外我們還設(shè)立了一組可以隨意描述感受的參照組。根據(jù)我們的研究結(jié)果，我們發(fā)現(xiàn) 著重強(qiáng)調(diào)愉快（29％），驚訝（26％）和印象深刻（25％）等的積極詞語遙遙領(lǐng)先。

問題：（要回答這個問題，請回想在新聞推送中最后的幾張照片）分辨出這些照片是和什么有關(guān)的難易程度有多大？

兩者在回答“稍微容易”（23％vs2％）和“極其困難”（42％vs73％）的這兩個難度上，差距都很大，這點(diǎn)展現(xiàn)了ATT的附加價值

Facebook將反饋融入AI系統(tǒng)，視覺障礙者現(xiàn)在也能“讀懂”照片啦

下一步呢？

我們承認(rèn)這一功能還不成熟，該如何改進(jìn)AAT，幾乎所有受訪者都在他們的寫入反饋上提出了建議。這些建議集中在以下兩個類別：

?從圖像中提取和識別文本（29％的人提了這個建議）

?盡可能提供圖像中人物的信息（26％的人提了這個建議）

其他請求包括擴(kuò)展算法的詞匯、增加現(xiàn)有標(biāo)簽的調(diào)用、使AAT在更多的語言和平臺中可用。

最后的想法

將快速增長的視覺社交網(wǎng)絡(luò)覆蓋更多地區(qū)的前景讓我們感到興奮。對Omid來說，這是他在無障礙領(lǐng)域的第一次深度探索，能接觸到和以往所從事的完全不同類型的統(tǒng)計(jì)學(xué)讓他十分著迷。Julie以前的工作是讓服務(wù)更容易互聯(lián)，這項(xiàng)工作讓她以前的工作和Facebook出色的工程能力連接起來。

Facebook擔(dān)起致力于使世界更加開放和連接的使命，Facebook無障礙團(tuán)隊(duì) (accessibility team) 將在為每個人提供卓越用戶體驗(yàn)的路上繼續(xù)探索。在成功實(shí)現(xiàn)這項(xiàng)功能的基礎(chǔ)上，我們聘請了第一個全職的無障礙研究員，現(xiàn)在團(tuán)隊(duì)上下都對未來的發(fā)展充滿憧憬。

更多資訊請關(guān)注雷鋒網(wǎng)。

via fb , 雷鋒網(wǎng)編譯

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

陳鳴鳩

知情人士

發(fā)私信

當(dāng)月熱門文章