0
雷鋒網(wǎng) AI 科技評(píng)論按:對(duì)我而言,攝影是即時(shí)的識(shí)別,時(shí)間的一塊碎片,一個(gè)事件的意義所在,而攝影也就是賦予該事件適當(dāng)表達(dá)的精密組織的一種形式。——法國(guó)著名攝影家 Henri Cartier-Bresson
過去幾年,雷鋒網(wǎng) AI 科技評(píng)論和大家一同親眼見證了 AI 領(lǐng)域內(nèi)寒武紀(jì)大爆炸般的發(fā)展,深度學(xué)習(xí)方法已經(jīng)能夠讓計(jì)算機(jī)視覺算法識(shí)別一張好照片內(nèi)的許多元素:人物、笑臉、寵物、有名地標(biāo)以及更多的元素。但是,盡管深度學(xué)習(xí)已經(jīng)在近期取得了一些進(jìn)步,但在其在自動(dòng)攝影方面依舊面臨著一項(xiàng)極具挑戰(zhàn)的難題:相機(jī)能夠自動(dòng)抓拍到精彩的瞬間嗎?
谷歌去年發(fā)布了一個(gè)自動(dòng)抓拍生活中有趣瞬間的全新相機(jī)產(chǎn)品:Google Clips 相機(jī),Google Clips 的設(shè)計(jì)遵循以下三項(xiàng)重要的原則:
谷歌想要全部計(jì)算在相機(jī)端上進(jìn)行。在相機(jī)端進(jìn)行計(jì)算的好處,除了可以延長(zhǎng)相機(jī)電池壽命和減少計(jì)算延遲之外,還意味著除非用戶決定存儲(chǔ)或者分享相機(jī)拍攝數(shù)據(jù),所有數(shù)據(jù)都將保留在相機(jī)端,這也是用戶隱私控制的關(guān)鍵所在。
谷歌希望 Clips 拍攝短視頻,而不是單張照片。拍攝動(dòng)態(tài)瞬間更能切中用戶需求和忠實(shí)于回憶,而且相較于及時(shí)抓拍單張完美瞬間的照片,拍攝一段包含引人注目瞬間的視頻更容易一些。
谷歌想讓相機(jī)專注于「偷拍」人和寵物,而不是將心思放在更抽象和存在主觀難題的藝術(shù)照片拍攝上去。也就是,谷歌并沒有嘗試教 Clips 去思考構(gòu)圖、色彩平衡、光線等拍攝方面的技巧;相反,Clips 專注于選擇「偷拍」人和動(dòng)物在做有趣活動(dòng)的瞬間。
如何訓(xùn)練一項(xiàng)算法來識(shí)別精彩瞬間?和解決大多數(shù)的機(jī)器學(xué)習(xí)問題一樣,谷歌也是從一個(gè)數(shù)據(jù)集開始的。首先,谷歌打造了一個(gè)含有成千上萬個(gè)不同場(chǎng)景的視頻數(shù)據(jù)集,并認(rèn)為 Clips 可以在這些場(chǎng)景下派上用場(chǎng)。谷歌還確保該數(shù)據(jù)集大范圍的覆蓋種族、性別、以及年齡等類別范圍。另外,谷歌還雇用了專業(yè)攝影師和視頻剪輯師,來從 Clips 拍攝的影片素材中精心挑選出最優(yōu)的片段部分。對(duì)視頻的早期綜合處理為谷歌提供了樣本,這些樣本可供算法進(jìn)行模擬。但是,訓(xùn)練算法獨(dú)立地學(xué)習(xí)人類的主觀選擇是具有挑戰(zhàn)性的,這就需要一個(gè)平滑梯度的標(biāo)簽來教算法學(xué)會(huì)識(shí)別視頻的內(nèi)容品質(zhì)(從「完美」到「糟糕」)。
為了處理這個(gè)問題,谷歌采用了第二種數(shù)據(jù)收集方法,該方法旨在在整個(gè)視頻長(zhǎng)度內(nèi)創(chuàng)造一個(gè)連續(xù)的品質(zhì)評(píng)分。谷歌將每個(gè)視頻分割成短片段(類似 Clips 拍攝的內(nèi)容片段),并從中隨機(jī)選出一對(duì)片段來讓人類評(píng)估員從中挑出他們最愛的那個(gè)。
因?yàn)閺囊粚?duì)片段中選出比較好的那個(gè)要比從一堆視頻片段里選容易得多,所以谷歌采用了成對(duì)比較的方法,而不是讓人類評(píng)估員直接對(duì)整個(gè)視頻打分。谷歌發(fā)現(xiàn)在使用成對(duì)比較方法時(shí),人類評(píng)估員的發(fā)揮始終如一,而直接打分時(shí)就沒那么穩(wěn)定了。對(duì)于任何給定視頻,只要給定足夠多的成對(duì)比較片段,谷歌就能夠在整個(gè)視頻長(zhǎng)度范圍內(nèi)計(jì)算出連續(xù)的片段品質(zhì)評(píng)分。在這個(gè)過程中,谷歌從 Clips 上的 1000 多個(gè)視頻上,取樣了超過 5000 萬個(gè)用于成對(duì)比較的視頻片段。這一過程耗費(fèi)了大量人力!
在給定訓(xùn)練數(shù)據(jù)的品質(zhì)得分的情況下,谷歌下一步就是訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型,并使用這個(gè)模型來評(píng)價(jià) Clips 拍攝的照片品質(zhì)。谷歌先基本假設(shè)模型知道照片里有什么(如人物、狗、樹等),這將幫助模型來定義何為「有趣」。如果這個(gè)假設(shè)成立,谷歌就可以得到一個(gè)人類對(duì)比照片的行為上衍生出來的新特性:通過已識(shí)別的照片內(nèi)容來預(yù)測(cè)該照片的品質(zhì)得分。
谷歌利用驅(qū)動(dòng) Google 圖像搜索和 Google 相冊(cè)的同款機(jī)器學(xué)習(xí)技術(shù),來識(shí)別訓(xùn)練數(shù)據(jù)中描述事物、概念以及動(dòng)作的內(nèi)容標(biāo)簽,可以識(shí)別的不同標(biāo)簽超過 27000 種。谷歌顯然不需要所有的這些標(biāo)簽,也不可能在設(shè)備上把它們?nèi)加?jì)算個(gè)遍,因此,谷歌的攝影專家們只選擇了幾百種標(biāo)簽,他們認(rèn)為這些標(biāo)簽與預(yù)測(cè)一張照片的「有趣」最為接近。谷歌還加上了與人類評(píng)估員打出的片段品質(zhì)得分最契合的那些標(biāo)簽。
在獲得了這些標(biāo)簽的子集后,谷歌就需要設(shè)計(jì)一個(gè)壓縮的、高效的模型,這個(gè)模型在能源和發(fā)熱的嚴(yán)格限制下,在設(shè)備端對(duì)任何給定的圖像進(jìn)行預(yù)測(cè)。這就帶來了一項(xiàng)挑戰(zhàn),因?yàn)橹С钟?jì)算機(jī)視覺的深度學(xué)習(xí)技術(shù)通常需要強(qiáng)大的桌面 GPU,目前適合在移動(dòng)端設(shè)備運(yùn)行的算法還遠(yuǎn)遠(yuǎn)落后桌面和云端的最先進(jìn)技術(shù)。為了訓(xùn)練這個(gè)設(shè)備端模型,首先,谷歌使用了一組數(shù)量很多的照片集,并再次使用了谷歌強(qiáng)大的、基于服務(wù)器的識(shí)別模型,來為上面描述過的每一個(gè)「有趣」標(biāo)簽預(yù)測(cè)標(biāo)簽可信度。隨后,谷歌訓(xùn)練了一個(gè) MobileNet 圖像內(nèi)容模型(ICM)來模擬 server-based 模型(server-based model)的預(yù)測(cè)。這個(gè)壓縮模型能夠識(shí)別照片中最有趣的那些元素,同時(shí)忽略掉與「有趣」無關(guān)的內(nèi)容。
最后一步是,為一張輸入的照片(照片內(nèi)容由由 ICM 預(yù)測(cè))預(yù)測(cè)一個(gè)單一的品質(zhì)評(píng)分,同時(shí)使用 5000 萬個(gè)成對(duì)比較樣本作為訓(xùn)練數(shù)據(jù)。這項(xiàng)評(píng)分是使用一個(gè)分段線性回歸模型計(jì)算得到的,模型將 ICM 的輸出合并成某一幀片段的品質(zhì)得分。這一幀的品質(zhì)得分,是綜合視頻分片段來產(chǎn)生一個(gè)瞬間得分。給定一個(gè)成對(duì)比較樣本后,模型應(yīng)該可以計(jì)算出一個(gè)瞬間得分,也就是給人類偏愛的那個(gè)片段打一個(gè)更高的分?jǐn)?shù)。這樣訓(xùn)練模型來讓它的預(yù)測(cè)盡可能的與人類在成對(duì)片段比較中的喜好相匹配。
這個(gè)過程允許谷歌訓(xùn)練一個(gè)結(jié)合 Google 圖片識(shí)別技術(shù)和人類評(píng)估員智慧的模型,其中人類評(píng)估員的智慧由 5000 萬個(gè)關(guān)于「何為有趣內(nèi)容」的觀點(diǎn)代表!
雖然由數(shù)據(jù)驅(qū)使的評(píng)分模型,已經(jīng)在識(shí)別視頻的有趣和無趣瞬間上表現(xiàn)得相當(dāng)不錯(cuò),但谷歌仍在整體評(píng)分的基礎(chǔ)上增加了一些獎(jiǎng)勵(lì),來激勵(lì)模型拍攝一些谷歌想讓它拍攝的畫面,包括人臉(特別是經(jīng)常出現(xiàn)在鏡頭前的熟悉面孔)、笑容和寵物。谷歌近期發(fā)表了一篇「Jump for joy: Google Clips captures life's little moments」,在論文中谷歌針對(duì)用戶們明確想記錄的一些特定行為(如擁抱、接吻、跳躍和舞蹈等)增加了一些對(duì)模型的獎(jiǎng)勵(lì),激勵(lì)模型記錄這些用戶行為。識(shí)別上面這些行為,需要對(duì) ICM 模型進(jìn)行擴(kuò)展。
有了可以預(yù)測(cè)一個(gè)場(chǎng)景的「有趣」的強(qiáng)大模型后,Clips 相機(jī)就能判斷哪個(gè)場(chǎng)景需要實(shí)時(shí)抓拍了。Clips 相機(jī)的拍攝控制算法遵循下面三個(gè)主要原則:
高效利用電池和避免設(shè)備過熱:谷歌希望 Clips 的電池可以保持大致 3 個(gè)小時(shí)的續(xù)航,且不希望設(shè)備過熱(禁止設(shè)備以高性能狀態(tài)運(yùn)行全程)。Clips 大部分時(shí)間在低能耗狀態(tài)下運(yùn)行,期間 Clips 每秒拍攝一幀畫面。如果某一幀的畫面品質(zhì)達(dá)到了 Clips 的臨界值(依據(jù) Clips 最近拍到的最好照片品質(zhì)而設(shè)定),Clips 就會(huì)進(jìn)入每秒拍攝 15 幀畫面的高性能模式。隨后,Clips 會(huì)在對(duì)包含第一張達(dá)到最好品質(zhì)的照片的視頻片段進(jìn)行保存。
避免冗余的拍攝:谷歌不希望 Clips 一次記錄所有的瞬間,而忽略掉剩下的那些。因此,谷歌的拍照控制算法將 Clips 拍攝的瞬間,分群放入視覺上相似的組中,并對(duì)每個(gè)群內(nèi)的片段數(shù)量加以限制。
對(duì)所拍內(nèi)容實(shí)施二次評(píng)估:當(dāng)拍攝的片段總體擺在你面前的時(shí)候,可以很輕松地判斷哪個(gè)片段拍的最好。因此,相較于直接將拍攝結(jié)果展示給用戶,Clips 傾向記錄更多的瞬間來讓用戶選擇。將拍攝的片段傳輸至手機(jī)端前,Clips 相機(jī)會(huì)再一次評(píng)估拍攝的內(nèi)容,然后只將品質(zhì)最好和最少冗余的內(nèi)容呈現(xiàn)給用戶。
除了保證視頻數(shù)據(jù)集覆蓋人種類別的多樣性之外,谷歌還建立了幾項(xiàng)其他的測(cè)試來評(píng)估算法的公平性。在保證平衡的前提下,谷歌從不同性別和膚色中對(duì)取樣 subject,打造了一個(gè)可控?cái)?shù)據(jù)集,同時(shí)保持如內(nèi)容類型、時(shí)長(zhǎng)、環(huán)境條件恒定的多樣性。隨后,谷歌使用這個(gè)數(shù)據(jù)集來測(cè)試算法應(yīng)用到不同組時(shí),是否仍保持相同的表現(xiàn)。為了幫助檢測(cè)算法在公平性上是否發(fā)生任何退化,一旦發(fā)現(xiàn)退化,谷歌就會(huì)及時(shí)地改進(jìn)這個(gè)瞬間品質(zhì)模型(moment quality models),谷歌也將這個(gè)公平性測(cè)試加到了自家的自動(dòng)化系統(tǒng)上。任何軟件上的改變都要進(jìn)行電池續(xù)航測(cè)試,且需要合格通過。需要注意的是,這個(gè)方法并不能完全保證算法的公平,正如谷歌無法對(duì)每一個(gè)可能的場(chǎng)景和結(jié)果都進(jìn)行測(cè)試一樣。但是,谷歌相信在機(jī)器學(xué)習(xí)算法中實(shí)現(xiàn)公平的長(zhǎng)期研究中,以上步驟是重要的一部分。
大多數(shù)的機(jī)器學(xué)習(xí)算法都被設(shè)計(jì)來評(píng)估目標(biāo)的品質(zhì):如判斷一張照片內(nèi)有貓,或者沒有貓。在這個(gè)案例中,谷歌旨在將算法設(shè)計(jì)成拍攝一個(gè)更難懂、更主觀的品質(zhì),即判斷一張個(gè)人照片是否有趣。因而,谷歌將照片的客觀、語(yǔ)義內(nèi)容與人類的主觀喜好結(jié)合起來,用于打造支持 Google Clips 相機(jī)的 AI 技術(shù)。另外,Clips 還被設(shè)計(jì)成可在用戶參與下工作,而不是獨(dú)自工作;為了取得更好的拍攝結(jié)果,需要用戶來考慮取景并保證把 Clips 對(duì)準(zhǔn)有趣的內(nèi)容。谷歌很高興地看到 Google Clips 運(yùn)行表現(xiàn)良好,并將繼續(xù)改進(jìn)算法來幫助 Clips 捕捉那個(gè)「完美」的瞬間!
via Google AI Blog,雷鋒網(wǎng) AI 科技評(píng)論編譯。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。