0
本文作者: 何忞 | 2018-01-31 14:22 |
雷鋒網按:日前谷歌在其官網發(fā)布博文,文中詳細介紹了 AI 相機 Google Clips 的一些設計思路。雷鋒網將其編譯如下。
正如過去曾經發(fā)生過的移動革命以及再之前的網絡革命一樣,機器學習正在讓我們反思、重構、重新審視我們生活中已經擁有的一切。在 Google 用戶體驗(UX)社區(qū)中,我們開始了一項名為“以人為本的機器學習(HCML)”工作項目,來指導和幫助我們重構世界。站在這樣的視角下,我們在思考機器學習(ML)如何在解決人類的需求時發(fā)揮自身的獨特性。我們的團隊集合了 Google 整個公司的各種人才,為 UX 用戶帶來機器學習的核心概念,讓用戶了解如何將機器學習和人工智能完美地融合到交互設計中。
由谷歌AI相機Google Clips camera捕捉的父母、孩子和寵物的真實時刻
Google Clips 是谷歌的一款 AI 相機,專門用于捕捉身邊人的精彩時刻。設備自帶的人工智能可以通過機器學習了解到誰是你最親密的身邊人,并且知道如何才能拍出一張漂亮又令人難忘的照片。今天,我們將以這款 A I相機為例,詳細闡釋在這三年中,我們是如何構建出產品模型、進行工業(yè)設計和用戶界面的。通過這篇文章,我們希望大家能夠了解如何用以人為本的方法來設計 AI 產品。
AI 相機可以放置在固定的框架上,并保持靜止。上圖中,我把相機夾在了籃筐上,抓拍到了我兒子打籃的精彩時刻。
只是將更多的 UX 用戶分配到機器學習的項目中是遠遠不夠的。更加關鍵的是讓更多人了解到機器學習的核心概念,充分理解 AI 的能力,并能夠圍繞最佳實踐產品來構建和維護信任。其實,從確定在產品構建中哪些模型是有用的,到數據的收集和注解,以及新穎的原型機的建造和測試,機器學習生命周期中的每一個階段都是創(chuàng)新的時機。
首先第一個問題是,為什么采用以人為本的方法來構建機器學習產品和系統(tǒng)是非常重要的呢?我們認為有以下幾個原因:
機器學習本身并不會找出現實中需要解決的問題。如果你在設計中沒有考慮到人的需求,那么你只是建立一個非常強大的系統(tǒng)來解決一個非常小或者根本不存在的問題。
如果 AI 系統(tǒng)的目標不明確,并且用戶對自身在調教系統(tǒng)中的角色認識不清,那么用戶就會根據自己對 AI 的理解或想象來看待系統(tǒng),這會讓他們的信心受到影響。
為了迅速發(fā)展,機器學習必須適應多學科的任務,即使不需要太多學科,但如何適應人類社會系統(tǒng)應該是一個需要面臨的技術問題。機器學習是根據它在數據中自動發(fā)現的模式和關系進行預測的技術。一個 ML 模型的工作是要弄清楚這些自動發(fā)現的這些模式有多大可能出錯,從而盡可能地保證通常的預測盡可能地正確。但這是遠遠不夠的。從一開始建立模型的思路,到選擇訓練用的數據源到樣本數據本身、以及用于描述和標記數據的方法,一直到模式關系對錯的判斷標準,機器學習系統(tǒng)的方方面面都是依靠人的判斷來調整和修正的。總之,那句 UX 的公理“你永遠不如用戶了解他自己”,在這里顯得異常重要。
三種以人為本提升AI設計的方法
解決人類的真正需求
今年,人們將會使用我們的相機拍攝大約一萬億張照片。在面對如此龐大的數字照片庫時,我們中的很多人實際上并不會仔細瀏覽。新手父母尤其如此,感受寶寶的每一個第一次就是他們的日常生活。在那些珍貴而短暫的時刻,人們已經習慣使用他們的手機相機,希望能夠為未來捕捉和保留一些回憶。但最終的結果是,人們用一個小小的屏幕來取代所有的感官,與世界的互動反而更低了。
作為一個新手父母,你的照片庫可能看起來很像我的上面手機照片——連續(xù)地拍攝,以捕捉孩子最完美最可愛的表情。
因此,我們在想,能不能創(chuàng)建一個產品,幫助我們更加關注我們關心的人呢?能不能讓我們出現在照片中,而不是總躲在照相機后面呢?我們能不能“即時”拍攝照片,而不必停下來,拿出電話,打開相機,在鏡頭中對焦,保持這一刻的真實呢?我們能不能讓一個攝影師在我們身邊隨時捕捉更多真實的生活時刻,比如孩子們的真正微笑呢?那些真實而轉瞬即逝的時刻,往往讓我們覺得甚至永遠背著相機都不可能全部捕捉得到,而這就是我們這款 AI 相機打算滿足的人類需求。
引導機器智能
產品設計之初,最迫切的問題是:如果人們拍攝了大量的照片,但其實并不想回頭去整理它們,那么我們要如何標注數據呢?這就是基礎的“以人為本的機器學習”項目誕生的起點:描述理論上的人類“專家”執(zhí)行任務的方式。這個理論有兩層含義:第一,如果連人類也無法完成這個任務,那么 AI 也不可能完成; 第二,通過深入研究專家完成任務的方法,我們可以找到一些信號來指導數據的收集、標記和組件模型的架構。
當時我們能想到的最接近“專家”就是一位婚禮攝影師,所以我開始了采訪工作。我們通過代理進行招聘,并且使用了一個非常模糊的招聘信息“秘密項目!攝影!”。經過一番篩選加上一些運氣,我們最終發(fā)現了一個寶庫——一個紀錄片制作人、一個攝影記者和一個美術攝影師的專業(yè)素材。我們一起開始收集團隊成員的鏡頭材料,試圖回答“什么是令人難忘的時刻?”
在評估我們的照片和視頻的質量時,我們必須意識到很多細微之處、人們的審美本能和個人的生活歷史,這些在過去都被我們所忽視了。例如,每當我看到我的小兒子在探索一根彎曲的吸管(左邊),或者我去偷親他(中間)時,我的心情就會泛起漣漪。當我看到我的大兒子在公園里騎自行車的時候(右邊),我便非常自豪,因為我記得那一天是他第一次獨自騎車。
建立信任
這個項目的初始假設是:我們可以向機器學習模型展示我們認為美麗而有趣的東西,然后它會學習如何找到更多這樣的東西。我們對于圖像的景深、構圖原則、光線強弱、視頻剪輯、情節(jié)設計等方面的處理顯得較為隨意,但遺憾的是,我們發(fā)現,永遠不能低估人類運用常識和本能的能力。
這些早期的實驗暴露出一些關鍵的技術差距,也幫助我們重新評估了我們對產品的假設,讓我們真正明白了這項工作的本質。我們轉變了工作方式,機器學習并不是我們所認為的那樣“神圣”,它只有在相當簡化的框架下才能有效地學習。打個比方,當時的我們就像在用莎士比亞而不是“Go,dog,go!”來教一個兩歲的孩子英語。對我來說,這就是 AI 這個“龐然大物”走下“神壇”的時刻——AI 并不意味著一種可以理解所有事物、并且可以將學到的知識自行推廣的單一“智能”。不,它差遠了。
回歸基礎
“一致性”是教授任何東西時秘訣。比如我們在教孩子們英語時,為了正確發(fā)音,我們會不斷地重復同一類詞匯(如 tough, through, thorough 中的 O-U-G-H,或 cat, bat, sat 中的 A-T),通過一致性,我們可以預測更多同類的詞匯發(fā)音和拼寫。
而信心便來自一致性。試想一下,當一位老師提供兩個似乎并不一致的例子時,大多數學生會立刻指出其中的不協(xié)調。但是算法并不會提供這樣的反饋。就算法而言,除非另有指示,否則為算法提供的所有內容對算法而言都具有相同的價值。對于 Clips Camera 來說,這意味著我們不僅需要示例間的一致性,而且還需要每個示例中的一致性。AI 需要對每一個單獨的框架進行具體預測。同時我們還需要教會它哪些內容可以被忽略。
捕獲圖像
我們需要訓練模型學習什么是不好的圖像:比如手擋在鏡頭前、快速晃動、鏡頭模糊。
我們使用上面的例子來訓練機器學習模型來識別相機是在口袋或錢包里面(左圖),或者相機被手指擋住時(右圖)。雖然訓練模型去忽視某些東西的好處并不能立即體現,但隨著時間的推移,它會成為我們設計中的關鍵戰(zhàn)略部分。這種訓練能夠讓相機減少無效照片的拍攝浪費,捕獲圖像的總體質量將會顯著上升。
構圖問題
我們需要訓練模型以保持圖像的穩(wěn)定性、清晰度,還要正確的取景。如果不稍加注意,面部探測模型就會將畫框中心和邊緣檢測到的面部同等對待。
為了訓練模型保持對某個對象的連續(xù)性,需要特別強調一些特殊的例子。比如上圖中,左邊是我的小兒子全程都處在焦點范圍內,而右圖中我的大兒子只有 5% 左右的時間處在焦點中。
確定人物
熟悉你是為你拍攝的前提:你將相機對準某人時,他們通過微笑或擺姿勢來暗示同意,你才能按下快門。并且,攝影師才是那個決定取景和構圖的人。所以對自動相機而言,我們必須根據社交線索來確定你想要和誰一起拍照,我們可以根據你和他人相處的時間長短來確定是否拍攝有關他的照片。
編輯
多樣性和冗余問題在我們拍照時并不是什么大問題,因為 我們腦海里總會有一個小小的聲音說:“我們還沒見過這個,需要拍下來!” 或者 “你已經拍了太多孩子的照片,可以停下來了。”,但是我們的 AI模型在這方面則需要很多的幫助。
我們從三個方面來處理多樣性:
時間:時間是最簡單的圖像捕捉信號。相機不能停工太久。
視覺: 顏色微妙或戲劇性的變化可以說明環(huán)境和活動的變化??梢該瞬蹲姜毺氐木蕰r刻。
人物: 你正在一大群人當中,還是獨自一人?讓相機理解你正在和多少不同的熟悉面孔在一起,是不錯過你人生重大時刻的關鍵。
我把 AI 相機放在書架的邊緣,鏡頭朝下,這個角度正好可以看到我的孩子們搭積木的場景。同時,這也意味著我在相當長的一段時間里,向相機展示了一堆非常相似的內容。既要避免不必要的冗余又不能錯過太多的精彩時刻,這在很長一段時間里都將會是一個非常復雜的 UX 挑戰(zhàn)。
用戶信任和自我效能
我們投資在 AI 相機上的一個原因是想要向大家展示出,設備自帶的用戶私人機器學習系統(tǒng)有多么重要,當然還有它其他非常強大的功能特點(例如,它只需要很少的電量,設備不會發(fā)燙,而且設備處理器不需要網絡連接就可以快速而可靠地工作)。相機是一個非常私人化的物品,而我們一直在努力保證這一特性——相機硬件內容和機器智能都只屬于你一個人。所有的一切都會永遠保留在你的相機里,除非你自己將它公之于眾。
概念設計
我們著眼于用戶的信任和自我效能,在用戶界面設計中也非常強調這一點。這意味著,在項目開始的時候,我們就在不斷假設一個 AI 產品應該如何“存在”。
當我們開始考慮與未來相關的科技時,許多設計師都會一下子跳躍到“少數派報告”或“刀鋒戰(zhàn)士”這類電影中的沉浸式體驗中。但是請你想象一下,“少數派報告”中的 UI 是多么瘋狂: 只需伸出手臂,等待兩秒后,抓一把空氣,然后大手一揮反方向一轉就搞定了,多么簡單!幾乎每個科幻片中的用戶界面都有類似的東西,仿佛產品的交互模式必須要體現出科幻系統(tǒng)的無敵復雜性。雖然在我們早期的設計中曾經有過這樣的一段時間,但是我們最終盡量避免了這樣的幻想,其中的原因是這樣的:
我們在一個明顯的模擬環(huán)境中向人們展示了虛假內容,人們并沒有與圖像進行真正的交互。請注意,這個問題不是AI獨有的;可用性實驗室中常有發(fā)生。
我們每天都和同行們在一起,對AI的未來想法一致。我們的錯誤在于,忘記了普羅大眾才是我們產品設計的參照點。
我們總認為我們的新設計非常酷,所以總覺得即使產品無法盡快實現也說得過去。
大多數產品都有一些學習曲線,但是隨著 AI 的火熱,我們需要著重考慮到用戶的認知負擔。對用戶來講,當產品的內容相對新穎時(圖A),可靠性非常重要。當UI界面非常新穎需要用戶學習時(圖B),需要特別考慮到初級用戶的使用體驗。而當產品的功能特別新奇時(圖C),你的用戶界面應該向人們熟悉的模式靠近。
隨著時間的推移,我們放棄了那些不實用的幻想。我們開始大幅降低用戶界面的復雜性,并為我們的體驗框架提供了用戶控制,增加用戶的熟悉感。我們在相機上增加了一個軟件取景器和一個硬件捕捉按鈕。從相機中的最佳取景框到理想的持續(xù)時間,我們都確保用戶有最終決定權。同時,我們讓相機拍攝了更多的照片,因為實際上,讓用戶看到更多照片,自己刪除一些不那么精彩的照片,才讓他們更好地理解相機所能拍攝的畫面,才能提升他們對相機的信任。
經過這個過程,我們發(fā)現了另一個關于測試 AI 產品的重要原則:使用用戶的真實內容來創(chuàng)建用戶體驗模式比使用 ML 模型進行測試更加有用。后者需要花費很長時間來構建和部署(與傳統(tǒng)的軟件開發(fā)相比,ML 模型的靈活性和適應性也差得多,所以錯誤的的代價也更高),而前者則能提供真正的人類視角,人們才能真正從你的產品中獲得價值。
用戶通過從相機流式傳輸來預覽他們的照片。左圖中,用戶可以選擇他們想要保存在收集中的圖片。中間圖中,用戶可以切換到建議的視圖。右圖中,用戶可以精確定位出他們想要保存的靜態(tài)圖片。
在主觀性和個性化的背景下,完美是不可能的,我們甚至不應該以此為目標。與傳統(tǒng)的軟件開發(fā)不同,機器學習系統(tǒng)永遠不會“沒有 bug”,因為預測是本身就是一種模糊科學。但正是這種模糊的特性才讓機器學習變得非常有用!這正是幫助我們制造更為強大和動態(tài)的“IF”語句的真諦所在,我們可以用它來設計一些東西——“如果看起來像 X,則執(zhí)行 Y 任務”。我們不僅要背離僵硬的邏輯規(guī)則,還需要拋棄傳統(tǒng)的用戶參與方式。谷歌 AI 相機的成功不僅僅在于“保留,刪除,點擊和編輯”(盡管這些都很重要),但更關鍵的是,用戶的作者身份、機器和用戶的共同學習和不斷的改進。我們很希望通過這個產品,讓用戶可以忘掉拍照,盡情玩耍。
帶著目的去設計
通過對傳統(tǒng) AI 范例的重新定位,找到讓機器變得更加智能的方法,探索提升人類能力的方法,我們可以釋放出機器學習的更多潛力。它會成為一個前所未有的探索創(chuàng)新工具; 一個幫助我們找出自己和周圍世界內在模式的工具。在“以人為本的機器學習”項目中,我們有無數的機會用 AI 來塑造一個更加人性化、更加包容的世界。而這一切要從我們的本源出發(fā):尋找和解決人類真正的需求,維護人類的價值。要始終記住:我們是為了增強人類的能力而設計,不是為了機器的自動化。
人工智能的作用不是幫我們在雜草里尋找丟失的針,而是幫助我們清除雜草,好讓我們自己找到那根針。
via design.google雷鋒網編譯
雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。