0
雷鋒網(wǎng) AI 科技評論按:視頻分割是一項用途廣泛的技術(shù),把視頻的前景和背景分離之后,導(dǎo)演們、視頻制作者們就可以把兩者作為兩個不同的視覺層,便于后續(xù)的處理或者替換。對背景的修改可以傳遞不同的情緒、可以讓前景的主人公顯得去了另一個地方,又或者增強這條視頻消息的影響力。不過,這項工作傳統(tǒng)上都是由人工完成的,非常費時(比如需要逐幀把里面的人描選出來);省時的辦法則需要一個專門的電影工作室,布置綠幕作為拍攝背景,從而實時替換成別的需要的內(nèi)容。
不過,以往復(fù)雜的背景分割工作,現(xiàn)在僅僅靠一臺手機就可以完成了!谷歌今天在 YouTube app 中的 stories 里集成了一個新的視頻分割功能,在手機上就可以準確、實時地分割視頻的前景背景。這個功能是專門為 YouTube 視頻作者們設(shè)計的,在目前的 beta 版中 stories 作為新的輕量級視頻格式,可以讓視頻作者們替換以及更改視頻背景,不需要專門的設(shè)備就可以輕松增加視頻的創(chuàng)作價值。谷歌也發(fā)布了一篇博客對其中的技術(shù)細節(jié)作了介紹,雷鋒網(wǎng) AI 科技評論編譯如下。
谷歌的研究人員們借助了機器學(xué)習(xí)的力量,把這個任務(wù)作為一個語義分割問題來考慮,并設(shè)計了卷積神經(jīng)網(wǎng)絡(luò)來達到目標。具體來說,他們針對手機的特點設(shè)計了適用的網(wǎng)絡(luò)架構(gòu)和訓(xùn)練過程,遵循著這幾個要求和限制:
作為在手機上運行的解決方案,它需要足夠輕量,運行速度需要比目前最先進的照片分割模型快 10 倍到 30 倍。對于實時推理任務(wù),所需的模型計算結(jié)果的速度至少需要達到每秒 30 幀。
作為視頻模型,它應(yīng)當利用視頻的時間冗余性(相鄰的幀內(nèi)容相似),自己展現(xiàn)出時間持續(xù)性(相鄰的輸出結(jié)果相似)
作為基本規(guī)律,高質(zhì)量的結(jié)果也需要高質(zhì)量的標注訓(xùn)練數(shù)據(jù)
為了給機器學(xué)習(xí)流水線提供高質(zhì)量的訓(xùn)練數(shù)據(jù),谷歌標注了上萬張照片,其中包含了各種各樣豐富的前景(人物)姿勢和背景內(nèi)容。標注內(nèi)容里包括了精確到像素的前景人物的圖像結(jié)構(gòu),比如頭發(fā)、眼鏡、脖子、皮膚、嘴唇等等,各類背景則統(tǒng)一標注為「背景」,標注質(zhì)量在人類標注員的交叉驗證測試中取得了 98% 的 IOU。
這個視頻分割任務(wù)的具體定義是對視頻輸入的每一幀(RGB 三個通道)計算出一張二值掩蔽圖。這里需要解決的關(guān)鍵問題是讓計算出的不同幀的掩蔽圖之間達到時間持續(xù)性?,F(xiàn)有的使用 LSTM 和 GRU 的方法雖然有效,但對于要在手機上實時運行的應(yīng)用來說,需要的計算能力太高了。所以谷歌研究人員們想到的替代方案是把前一幀計算出的掩蔽圖作為第四個通道,和新一幀本來的 RGB 三個通道一起作為網(wǎng)絡(luò)輸入,從而實現(xiàn)時間持續(xù)性。如下圖
對于視頻分割任務(wù),我們希望達到幀與幀之間的時間連續(xù)性,同時也要照顧到圖像中內(nèi)容的突然變化,比如人突然出現(xiàn)在攝像頭視野中。為了訓(xùn)練模型能夠魯棒地處理這些使用狀況,谷歌的研究人員們對每張圖像的真實背景分割結(jié)果做了各種不同的處理后再作為來自前一幀的掩蔽圖:
空的前一幀掩蔽:這種情況用來訓(xùn)練網(wǎng)絡(luò)正確分割視頻的第一幀,以及正確分割視野中新出現(xiàn)的物體。這模擬了某人突然出現(xiàn)在攝像頭視野內(nèi)的狀況。
仿射變換過的真實背景掩蔽:輕微的變換可以訓(xùn)練網(wǎng)絡(luò)據(jù)此進行調(diào)整,向前一幀的掩蔽適配。大幅度的變換就訓(xùn)練網(wǎng)絡(luò)判斷出掩蔽不適合并拋棄這個結(jié)果。
變換過的圖像:對視頻的原始圖像做薄板樣條平滑,模擬攝像頭快速移動和轉(zhuǎn)動時拍攝出的畫面
根據(jù)修改過的輸入/輸出格式,谷歌的研究人員們以標準的沙漏型分割網(wǎng)絡(luò)架構(gòu)為基礎(chǔ),做了如下改進:
使用大卷積核、4 或者更大的大步距在高分辨率的 RGB 輸入幀內(nèi)檢測物體特征。對通道數(shù)不多的層做卷積的計算開銷相對較小(在這種情況下就是 RGB 三個通道的輸入),所以在這里用大的卷積核幾乎對計算需求沒有影響。
為了提高運行速度,模型中結(jié)合大步距和 U-Net 類似的跳躍連接,激進地進行下采樣,同時也在上采樣時保留低層次的特征。對于谷歌的這個分割模型,有跳躍連接的模型的 IOU 要比沒有跳躍連接的大幅提高 5%。
為了進一步提高速度,谷歌研究人員們優(yōu)化了默認的殘差網(wǎng)絡(luò)瓶頸。在學(xué)術(shù)論文中,研究者們通常喜歡在網(wǎng)絡(luò)中部把通道數(shù)縮減為 1/4 (比如,通過使用 64 個不同的卷積核把 256 個通道縮減為 64 個通道)。不過,谷歌的研究人員們認為他們可以更加激進地縮減通道,可以縮減為 1/16 甚至 1/32,而且并不會帶來性能的大幅下降。
為了美化圖像邊緣、提高圖像邊緣分割的準確率,在整個分割網(wǎng)絡(luò)之上增加了幾層全分辨率的密集連接 DenseNet 層,這種做法和神經(jīng)網(wǎng)絡(luò)匹配很相似。這種技巧帶來的模型總體數(shù)值表現(xiàn)提升并不大,僅有 0.5% IOU,但是人類視覺感知上的分割質(zhì)量提升很明顯。
經(jīng)過這些修改之后,網(wǎng)絡(luò)在移動設(shè)備上的運行速度非常塊,不僅在 iPhone 7 上有超過 100 幀每秒、Pixel 2 上超過 40幀每秒的速度,而且還有很高的準確率(根據(jù)谷歌的驗證數(shù)據(jù)集達到了 94.8%),為 YouTube stories 功能提供了各種豐富流暢的實時響應(yīng)效果。
視頻分割團隊的近期目標是在 YouTube stories 功能的小規(guī)模開放期間進行更多測試。隨著分割技術(shù)改善、拓展到更多標簽的識別分割,谷歌的 AR 服務(wù)中未來也有可能會把它集成進去。
via GoogleBlog,雷鋒網(wǎng) AI 科技評論編譯
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。