0
雷鋒網(wǎng) AI 科技評論按:對我而言,攝影是即時的識別,時間的一塊碎片,一個事件的意義所在,而攝影也就是賦予該事件適當表達的精密組織的一種形式?!▏麛z影家 Henri Cartier-Bresson
過去幾年,雷鋒網(wǎng) AI 科技評論和大家一同親眼見證了 AI 領域內(nèi)寒武紀大爆炸般的發(fā)展,深度學習方法已經(jīng)能夠讓計算機視覺算法識別一張好照片內(nèi)的許多元素:人物、笑臉、寵物、有名地標以及更多的元素。但是,盡管深度學習已經(jīng)在近期取得了一些進步,但在其在自動攝影方面依舊面臨著一項極具挑戰(zhàn)的難題:相機能夠自動抓拍到精彩的瞬間嗎?
谷歌去年發(fā)布了一個自動抓拍生活中有趣瞬間的全新相機產(chǎn)品:Google Clips 相機,Google Clips 的設計遵循以下三項重要的原則:
谷歌想要全部計算在相機端上進行。在相機端進行計算的好處,除了可以延長相機電池壽命和減少計算延遲之外,還意味著除非用戶決定存儲或者分享相機拍攝數(shù)據(jù),所有數(shù)據(jù)都將保留在相機端,這也是用戶隱私控制的關鍵所在。
谷歌希望 Clips 拍攝短視頻,而不是單張照片。拍攝動態(tài)瞬間更能切中用戶需求和忠實于回憶,而且相較于及時抓拍單張完美瞬間的照片,拍攝一段包含引人注目瞬間的視頻更容易一些。
谷歌想讓相機專注于「偷拍」人和寵物,而不是將心思放在更抽象和存在主觀難題的藝術照片拍攝上去。也就是,谷歌并沒有嘗試教 Clips 去思考構圖、色彩平衡、光線等拍攝方面的技巧;相反,Clips 專注于選擇「偷拍」人和動物在做有趣活動的瞬間。
如何訓練一項算法來識別精彩瞬間?和解決大多數(shù)的機器學習問題一樣,谷歌也是從一個數(shù)據(jù)集開始的。首先,谷歌打造了一個含有成千上萬個不同場景的視頻數(shù)據(jù)集,并認為 Clips 可以在這些場景下派上用場。谷歌還確保該數(shù)據(jù)集大范圍的覆蓋種族、性別、以及年齡等類別范圍。另外,谷歌還雇用了專業(yè)攝影師和視頻剪輯師,來從 Clips 拍攝的影片素材中精心挑選出最優(yōu)的片段部分。對視頻的早期綜合處理為谷歌提供了樣本,這些樣本可供算法進行模擬。但是,訓練算法獨立地學習人類的主觀選擇是具有挑戰(zhàn)性的,這就需要一個平滑梯度的標簽來教算法學會識別視頻的內(nèi)容品質(zhì)(從「完美」到「糟糕」)。
為了處理這個問題,谷歌采用了第二種數(shù)據(jù)收集方法,該方法旨在在整個視頻長度內(nèi)創(chuàng)造一個連續(xù)的品質(zhì)評分。谷歌將每個視頻分割成短片段(類似 Clips 拍攝的內(nèi)容片段),并從中隨機選出一對片段來讓人類評估員從中挑出他們最愛的那個。
因為從一對片段中選出比較好的那個要比從一堆視頻片段里選容易得多,所以谷歌采用了成對比較的方法,而不是讓人類評估員直接對整個視頻打分。谷歌發(fā)現(xiàn)在使用成對比較方法時,人類評估員的發(fā)揮始終如一,而直接打分時就沒那么穩(wěn)定了。對于任何給定視頻,只要給定足夠多的成對比較片段,谷歌就能夠在整個視頻長度范圍內(nèi)計算出連續(xù)的片段品質(zhì)評分。在這個過程中,谷歌從 Clips 上的 1000 多個視頻上,取樣了超過 5000 萬個用于成對比較的視頻片段。這一過程耗費了大量人力!
在給定訓練數(shù)據(jù)的品質(zhì)得分的情況下,谷歌下一步就是訓練一個神經(jīng)網(wǎng)絡模型,并使用這個模型來評價 Clips 拍攝的照片品質(zhì)。谷歌先基本假設模型知道照片里有什么(如人物、狗、樹等),這將幫助模型來定義何為「有趣」。如果這個假設成立,谷歌就可以得到一個人類對比照片的行為上衍生出來的新特性:通過已識別的照片內(nèi)容來預測該照片的品質(zhì)得分。
谷歌利用驅(qū)動 Google 圖像搜索和 Google 相冊的同款機器學習技術,來識別訓練數(shù)據(jù)中描述事物、概念以及動作的內(nèi)容標簽,可以識別的不同標簽超過 27000 種。谷歌顯然不需要所有的這些標簽,也不可能在設備上把它們?nèi)加嬎銈€遍,因此,谷歌的攝影專家們只選擇了幾百種標簽,他們認為這些標簽與預測一張照片的「有趣」最為接近。谷歌還加上了與人類評估員打出的片段品質(zhì)得分最契合的那些標簽。
在獲得了這些標簽的子集后,谷歌就需要設計一個壓縮的、高效的模型,這個模型在能源和發(fā)熱的嚴格限制下,在設備端對任何給定的圖像進行預測。這就帶來了一項挑戰(zhàn),因為支持計算機視覺的深度學習技術通常需要強大的桌面 GPU,目前適合在移動端設備運行的算法還遠遠落后桌面和云端的最先進技術。為了訓練這個設備端模型,首先,谷歌使用了一組數(shù)量很多的照片集,并再次使用了谷歌強大的、基于服務器的識別模型,來為上面描述過的每一個「有趣」標簽預測標簽可信度。隨后,谷歌訓練了一個 MobileNet 圖像內(nèi)容模型(ICM)來模擬 server-based 模型(server-based model)的預測。這個壓縮模型能夠識別照片中最有趣的那些元素,同時忽略掉與「有趣」無關的內(nèi)容。
最后一步是,為一張輸入的照片(照片內(nèi)容由由 ICM 預測)預測一個單一的品質(zhì)評分,同時使用 5000 萬個成對比較樣本作為訓練數(shù)據(jù)。這項評分是使用一個分段線性回歸模型計算得到的,模型將 ICM 的輸出合并成某一幀片段的品質(zhì)得分。這一幀的品質(zhì)得分,是綜合視頻分片段來產(chǎn)生一個瞬間得分。給定一個成對比較樣本后,模型應該可以計算出一個瞬間得分,也就是給人類偏愛的那個片段打一個更高的分數(shù)。這樣訓練模型來讓它的預測盡可能的與人類在成對片段比較中的喜好相匹配。
這個過程允許谷歌訓練一個結合 Google 圖片識別技術和人類評估員智慧的模型,其中人類評估員的智慧由 5000 萬個關于「何為有趣內(nèi)容」的觀點代表!
雖然由數(shù)據(jù)驅(qū)使的評分模型,已經(jīng)在識別視頻的有趣和無趣瞬間上表現(xiàn)得相當不錯,但谷歌仍在整體評分的基礎上增加了一些獎勵,來激勵模型拍攝一些谷歌想讓它拍攝的畫面,包括人臉(特別是經(jīng)常出現(xiàn)在鏡頭前的熟悉面孔)、笑容和寵物。谷歌近期發(fā)表了一篇「Jump for joy: Google Clips captures life's little moments」,在論文中谷歌針對用戶們明確想記錄的一些特定行為(如擁抱、接吻、跳躍和舞蹈等)增加了一些對模型的獎勵,激勵模型記錄這些用戶行為。識別上面這些行為,需要對 ICM 模型進行擴展。
有了可以預測一個場景的「有趣」的強大模型后,Clips 相機就能判斷哪個場景需要實時抓拍了。Clips 相機的拍攝控制算法遵循下面三個主要原則:
高效利用電池和避免設備過熱:谷歌希望 Clips 的電池可以保持大致 3 個小時的續(xù)航,且不希望設備過熱(禁止設備以高性能狀態(tài)運行全程)。Clips 大部分時間在低能耗狀態(tài)下運行,期間 Clips 每秒拍攝一幀畫面。如果某一幀的畫面品質(zhì)達到了 Clips 的臨界值(依據(jù) Clips 最近拍到的最好照片品質(zhì)而設定),Clips 就會進入每秒拍攝 15 幀畫面的高性能模式。隨后,Clips 會在對包含第一張達到最好品質(zhì)的照片的視頻片段進行保存。
避免冗余的拍攝:谷歌不希望 Clips 一次記錄所有的瞬間,而忽略掉剩下的那些。因此,谷歌的拍照控制算法將 Clips 拍攝的瞬間,分群放入視覺上相似的組中,并對每個群內(nèi)的片段數(shù)量加以限制。
對所拍內(nèi)容實施二次評估:當拍攝的片段總體擺在你面前的時候,可以很輕松地判斷哪個片段拍的最好。因此,相較于直接將拍攝結果展示給用戶,Clips 傾向記錄更多的瞬間來讓用戶選擇。將拍攝的片段傳輸至手機端前,Clips 相機會再一次評估拍攝的內(nèi)容,然后只將品質(zhì)最好和最少冗余的內(nèi)容呈現(xiàn)給用戶。
除了保證視頻數(shù)據(jù)集覆蓋人種類別的多樣性之外,谷歌還建立了幾項其他的測試來評估算法的公平性。在保證平衡的前提下,谷歌從不同性別和膚色中對取樣 subject,打造了一個可控數(shù)據(jù)集,同時保持如內(nèi)容類型、時長、環(huán)境條件恒定的多樣性。隨后,谷歌使用這個數(shù)據(jù)集來測試算法應用到不同組時,是否仍保持相同的表現(xiàn)。為了幫助檢測算法在公平性上是否發(fā)生任何退化,一旦發(fā)現(xiàn)退化,谷歌就會及時地改進這個瞬間品質(zhì)模型(moment quality models),谷歌也將這個公平性測試加到了自家的自動化系統(tǒng)上。任何軟件上的改變都要進行電池續(xù)航測試,且需要合格通過。需要注意的是,這個方法并不能完全保證算法的公平,正如谷歌無法對每一個可能的場景和結果都進行測試一樣。但是,谷歌相信在機器學習算法中實現(xiàn)公平的長期研究中,以上步驟是重要的一部分。
大多數(shù)的機器學習算法都被設計來評估目標的品質(zhì):如判斷一張照片內(nèi)有貓,或者沒有貓。在這個案例中,谷歌旨在將算法設計成拍攝一個更難懂、更主觀的品質(zhì),即判斷一張個人照片是否有趣。因而,谷歌將照片的客觀、語義內(nèi)容與人類的主觀喜好結合起來,用于打造支持 Google Clips 相機的 AI 技術。另外,Clips 還被設計成可在用戶參與下工作,而不是獨自工作;為了取得更好的拍攝結果,需要用戶來考慮取景并保證把 Clips 對準有趣的內(nèi)容。谷歌很高興地看到 Google Clips 運行表現(xiàn)良好,并將繼續(xù)改進算法來幫助 Clips 捕捉那個「完美」的瞬間!
via Google AI Blog,雷鋒網(wǎng) AI 科技評論編譯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。