0
本文作者: songwenhui | 2019-03-22 14:31 |
本文轉(zhuǎn)自 | AI前線
作者|李巖
導(dǎo)讀:隨著近年來(lái)深度學(xué)習(xí)、大算力、大數(shù)據(jù)快速發(fā)展,計(jì)算機(jī)視覺(jué)、語(yǔ)音識(shí)別等技術(shù)都取得了非常大的進(jìn)展,綜合了多種信息模態(tài)的多模態(tài)研究已成為一個(gè)新趨勢(shì)。對(duì)于快手而言,多模態(tài)研究也是非常重要的課題??焓质且粋€(gè)記錄和分享生活的短視頻社交平臺(tái),通過(guò)人、內(nèi)容及二者互動(dòng)數(shù)據(jù)的理解,借助算法匹配推薦用戶可能感興趣的內(nèi)容。一方面,視頻可稱是典型的多模態(tài)問(wèn)題,綜合了視覺(jué)、聽(tīng)覺(jué)、文本多種模態(tài)信息。在視頻的基礎(chǔ)上,加上用戶行為數(shù)據(jù)就是一種更加復(fù)雜的多模態(tài)問(wèn)題。目前快手在多模態(tài)技術(shù)上的應(yīng)用,一方面在于幫助用戶更好地表達(dá)與記錄,另一方面在于對(duì)視頻內(nèi)容的精準(zhǔn)理解。
多模態(tài)技術(shù)幫助用戶更好地表達(dá)與記錄
1、語(yǔ)音轉(zhuǎn)文字打造便捷字幕生成體驗(yàn)
在視頻中,對(duì)音頻部分的理解是視頻信息傳遞的重要部分。快手上有很多以語(yǔ)言講述為核心的視頻,需要大量匹配的字幕輔助觀看。視頻字幕制作其實(shí)是一件工作量很大的事情,一般需要在電腦前使用專業(yè)的編輯軟件手動(dòng)逐個(gè)輸入文字。而如果通過(guò)語(yǔ)音識(shí)別技術(shù),把語(yǔ)音直接轉(zhuǎn)成文字,就可以很輕松地通過(guò)手機(jī)編輯生成一個(gè)帶字幕的視頻。
對(duì)視頻進(jìn)行語(yǔ)音轉(zhuǎn)寫(xiě)時(shí),面臨以下的技術(shù)難點(diǎn):首先,拍攝視頻時(shí),麥克風(fēng)和說(shuō)話者之間的距離比較遠(yuǎn),語(yǔ)音信號(hào)因?yàn)閭鬏斁嚯x遠(yuǎn)產(chǎn)生衰減,同時(shí)麥克風(fēng)對(duì)環(huán)境噪聲的抑制能力也會(huì)減弱,造成語(yǔ)音信號(hào)弱,背景噪聲強(qiáng)的現(xiàn)象;其次,在房間內(nèi)拍攝時(shí),可能因墻壁對(duì)語(yǔ)音信號(hào)的反射造成混響;第三,快手的用戶包括了全國(guó)各個(gè)區(qū)域,自然地包括了多樣的口音;最后,短視頻的內(nèi)容種類豐富,表達(dá)方式隨意,有些視頻還有很強(qiáng)的韻律起伏。這些因素都會(huì)影響語(yǔ)音識(shí)別系統(tǒng)的準(zhǔn)確率??焓轴槍?duì)這些問(wèn)題,研發(fā)了語(yǔ)音質(zhì)量檢測(cè)、單通道混響消除、噪聲掩蔽建模等多種技術(shù),以及通過(guò)序列化建模方法提升多種口音的識(shí)別準(zhǔn)確率。
2、語(yǔ)音合成實(shí)現(xiàn)個(gè)性化配音
在視頻配音方面,如果用戶不喜歡男性配音,而希望實(shí)現(xiàn)女性配音的效果,就可以通過(guò)語(yǔ)音合成技術(shù)滿足個(gè)性化的訴求。
語(yǔ)音識(shí)別及合成技術(shù)都會(huì)使記錄的過(guò)程變得更加便捷、有趣,但這兩項(xiàng)技術(shù)在做視覺(jué)或者多媒體的圈子里面關(guān)注度不是特別高,在語(yǔ)音圈子里面,語(yǔ)音識(shí)別、語(yǔ)音合成也往往是兩波人在做。
隨著深度學(xué)習(xí)技術(shù)的出現(xiàn),語(yǔ)音識(shí)別和合成其實(shí)在某種程度上可以看做是非常對(duì)稱的兩個(gè)問(wèn)題,因?yàn)檎Z(yǔ)音識(shí)別是從語(yǔ)音到文字,語(yǔ)音合成是從文字到語(yǔ)音。語(yǔ)音識(shí)別,我們提取一些聲學(xué)的特征,經(jīng)過(guò)編碼器或者 Attention 的機(jī)制,實(shí)現(xiàn)從語(yǔ)音到文字的轉(zhuǎn)化;語(yǔ)音合成的技術(shù)和算法,其實(shí)也涉及編碼器或者 Attention 的機(jī)制,二者形成了比較對(duì)稱的網(wǎng)絡(luò)。所以我們把語(yǔ)音識(shí)別和合成看成是一個(gè)模態(tài)轉(zhuǎn)換的特例,從神經(jīng)網(wǎng)絡(luò)建模角度來(lái)看,是一個(gè)比較一致、容易解決的問(wèn)題??焓值恼Z(yǔ)音識(shí)別、語(yǔ)音合成技術(shù)原理圖如下:
3、根據(jù)視頻內(nèi)容自動(dòng)生成音樂(lè)
音樂(lè)也是短視頻非常重要的一部分,為一個(gè)場(chǎng)景匹配合適的音樂(lè)并非易事。過(guò)去,有不少用戶在拍攝時(shí)為了與音樂(lè)節(jié)拍一致,努力配合音樂(lè)節(jié)奏拍攝,極大限制了拍攝的自由度。快手希望用戶可以隨意按照自己的方式錄制視頻,對(duì)用戶拍攝的視頻內(nèi)容進(jìn)行理解后,自動(dòng)生成符合視頻內(nèi)容的音樂(lè)。
利用神經(jīng)網(wǎng)絡(luò)強(qiáng)大的學(xué)習(xí)能力,實(shí)現(xiàn)視覺(jué)信息到音樂(lè)要素的轉(zhuǎn)化,包括:歌曲節(jié)奏、速度、調(diào)性、情感、風(fēng)格、動(dòng)機(jī)等。例如:將視頻中用戶身體扭動(dòng)的時(shí)間點(diǎn)與生成音樂(lè)中的“鼓點(diǎn)”位置對(duì)齊;動(dòng)作快慢決定歌曲速度等。
通過(guò)上述音樂(lè)要素,從備選曲庫(kù)中篩選合適的樂(lè)譜組成旋律空間。音樂(lè)的動(dòng)機(jī)是由幾個(gè)小節(jié)組成的旋律片段,它是音樂(lè)的核心,整首歌曲都圍繞動(dòng)機(jī)展開(kāi)。在自動(dòng)編碼器網(wǎng)絡(luò)中,動(dòng)機(jī)被表示為一個(gè)向量,旋律空間被表示為若干的向量序列。在動(dòng)機(jī)與旋律空間的約束下進(jìn)行采樣,生成新的向量序列,再通過(guò)解碼網(wǎng)絡(luò)生成新的旋律。同樣的動(dòng)機(jī),在相同的旋律空間下,也可以生成情感、風(fēng)格相似,但表現(xiàn)上又有差異的音樂(lè)作品。常見(jiàn)的 AI 旋律生成算法,難以保存作曲手法,生成較長(zhǎng)的旋律片段時(shí),整個(gè)作品的走勢(shì)會(huì)難以控制。采用旋律空間加動(dòng)機(jī)的方式,能夠有效解決該問(wèn)題。對(duì)旋律進(jìn)行自動(dòng)化的配器和混音,最終生成符合視頻內(nèi)容的音樂(lè)作品。
音樂(lè)生成涉及很多具體的技術(shù),其中一個(gè)問(wèn)題是懂音樂(lè)的人不懂計(jì)算機(jī)科學(xué),懂計(jì)算機(jī)科學(xué)的人不懂音樂(lè)。想要把短視頻配樂(lè)這個(gè)問(wèn)題研究好,需要有做音樂(lè)和做 AI 的人一起集成創(chuàng)新,這方面快手也做了非常多的工作。
4、2D 圖像驅(qū)動(dòng) 3D 建模實(shí)現(xiàn) Animoji 效果
iPhoneX 問(wèn)世時(shí)的一項(xiàng)標(biāo)志性功能,是通過(guò)結(jié)構(gòu)光攝像頭實(shí)現(xiàn) Animoji,現(xiàn)在國(guó)內(nèi)手機(jī)廠商也越來(lái)越多地采用結(jié)構(gòu)光的方式去實(shí)現(xiàn) Animoj。而快手是國(guó)內(nèi)較早實(shí)現(xiàn)不使用結(jié)構(gòu)光,只用 RGB 圖像信息就實(shí)現(xiàn) Animoji 效果的企業(yè)。
用戶不必去花上萬(wàn)元去買(mǎi) iphoneX,只要用一個(gè)千元的安卓手機(jī),就可在快手的產(chǎn)品上體驗(yàn) Animoji 的特效,從而能夠在不暴露臉部信息的同時(shí)展現(xiàn)細(xì)微的表情變化,例如微笑、單只眼睛睜單只眼睛閉等,讓原來(lái)一些羞于表演自己才藝的人,也可以非常自如地表達(dá)。
其實(shí)解決這樣一個(gè)問(wèn)題是非常難的,即使是蘋(píng)果,也采用了結(jié)構(gòu)光這樣配置額外硬件的方式來(lái)解決。想讓每一個(gè)用戶都能享受到最尖端的技術(shù),快手面臨著硬件的約束,只能通過(guò) 2D 的 RGB 視覺(jué)信息對(duì)問(wèn)題進(jìn)行建模、求解。
整個(gè)模擬人臉的過(guò)程借助了 3D 結(jié)構(gòu)恢復(fù)與 3D 信息融合,用 3D 重建技術(shù)恢復(fù)出 3D 結(jié)構(gòu),融合 2D 信息后,分析人臉特征,進(jìn)而生成虛擬形象。
3D 人臉重建需要借助快手內(nèi)部的上萬(wàn)級(jí) 3D 人臉數(shù)據(jù)集,包含每個(gè)人的年齡段、人種、臉型和表情,通過(guò)人臉關(guān)鍵點(diǎn)識(shí)別技術(shù),幫助 3D 人臉重建,不論表情是哭是笑都可以重現(xiàn)出來(lái)。
此外,生成虛擬形象還要分析用戶的人臉屬性,借助分類 / 回歸 / 分割等方法,區(qū)分出性別、年齡、膚色、臉型等信息。
之后,因?yàn)樯傻?3D 卡通圖像是會(huì)隨著人的表情而變化的,需要分析人臉表情,才能在卡通形象上展示出一模一樣的表情。
這里需要通過(guò) 2D 的 RGB 視覺(jué)信息對(duì)問(wèn)題進(jìn)行建模求解,獲得人臉關(guān)鍵點(diǎn)和實(shí)時(shí)重建的 3D 模型,把各種模態(tài)信息做建模、做對(duì)齊,求解出人臉的表情,驅(qū)動(dòng)虛擬卡通形象做各種逼真的動(dòng)作。
此外,快手 Animoji 的體驗(yàn)非常流暢,也需要?dú)w功于深度神經(jīng)網(wǎng)絡(luò)模型的量化。為了讓模型在手機(jī)端流暢運(yùn)行,需要進(jìn)行圖像預(yù)處理,合并多種預(yù)處理操作,對(duì)預(yù)處理的圖像內(nèi)存進(jìn)行統(tǒng)一分配和回收,利用 NEON 加速和蘋(píng)果自帶的 accelerate 加速,讓運(yùn)行庫(kù)只占 2M 的空間。
最后,在保證預(yù)測(cè)精度的前提下,快手技術(shù)團(tuán)隊(duì)對(duì) AI 模型進(jìn)行局部的 INT8 量化,使得運(yùn)行速度可提高 1 倍以上,同時(shí) AI 預(yù)測(cè)模型的占用空間也壓縮到將近原來(lái)的四分之一。
多模態(tài)技術(shù)如何實(shí)現(xiàn)精準(zhǔn)理解視頻內(nèi)容?
除了幫助用戶更好地記錄,快手也希望通過(guò)一個(gè)更好的分享機(jī)制,讓用戶發(fā)布的視頻能夠被更多感興趣的人看到,這也涉及視頻推薦里面多模態(tài)的一些問(wèn)題,其中有兩點(diǎn)值得分享:
第一,我們強(qiáng)調(diào)音頻和視覺(jué)的多模態(tài)綜合的建模,而不是僅僅是單獨(dú)的視覺(jué)或者音頻,視覺(jué)和聽(tīng)覺(jué)兩種媒體的融合,會(huì)是未來(lái)一個(gè)重要趨勢(shì)。
第二,工業(yè)界和學(xué)術(shù)界所做的研究有很大區(qū)別,快手有非常多的用戶數(shù)據(jù),這些用戶數(shù)據(jù)是不在傳統(tǒng)多媒體內(nèi)容研究范疇里面的,但是工業(yè)界可以很好地利用這些數(shù)據(jù),更好地做內(nèi)容理解。
舉個(gè)例子,一個(gè)男子表演口技的視頻中,如果關(guān)閉聲音,僅憑畫(huà)面信息,我們并不知道他是在做什么,可能會(huì)覺(jué)得是在唱歌或唱戲。這說(shuō)明如果僅僅是通過(guò)視覺(jué)的話,人們可能無(wú)法獲得真實(shí)的信息。我們對(duì)世界的理解一定是多模態(tài)的理解,而不僅僅是視覺(jué)的理解。
快手?jǐn)?shù)據(jù)庫(kù)中有 80 億短視頻,想要理解這么多的視頻內(nèi)容,必須借助多模態(tài)技術(shù)。我們從文本、視覺(jué)、聽(tīng)覺(jué)角度去做了很多單模態(tài)的建模,包括多模態(tài)的綜合建模、有序與無(wú)序,以及多模態(tài)特征之間怎樣進(jìn)行異構(gòu)的建聯(lián),在很多任務(wù)內(nèi)部的分類上也做了改進(jìn)。
另一方面需要強(qiáng)調(diào)的是, ImageNET 等很多學(xué)術(shù)界研究?jī)?nèi)容理解的任務(wù)有完善的標(biāo)注數(shù)據(jù)集,但是這個(gè)數(shù)據(jù)集對(duì)于工業(yè)界而言還是太小,且多樣性不夠??焓置刻煊?1.6 億用戶、超過(guò) 150 億次的視頻播放,這個(gè)數(shù)據(jù)是非常大的。如果有 150 億的標(biāo)注數(shù)據(jù),做算法就會(huì)有很大的幫助,但是現(xiàn)實(shí)上是不具備的。
怎樣將研究分析技術(shù)與海量數(shù)據(jù)更好地做到融合?快手通過(guò)融合行為數(shù)據(jù)和內(nèi)容數(shù)據(jù),進(jìn)行綜合建模。同樣大小的人工標(biāo)注量,利用海量的用戶行為數(shù)據(jù),能夠獲得比純內(nèi)容模型更好的性能,對(duì)視頻有了一個(gè)更好的理解,進(jìn)而在多媒體內(nèi)容的理解和分析方面的算法研究有了非常大的進(jìn)展。
多模態(tài)技術(shù)研究的三個(gè)難點(diǎn):語(yǔ)義鴻溝、異構(gòu)鴻溝、數(shù)據(jù)缺失
其實(shí)在目前來(lái)看,多模態(tài)研究難度還是非常高的。
其中大家談得比較多的是語(yǔ)義鴻溝,雖然近十年來(lái)深度學(xué)習(xí)和大算力、大數(shù)據(jù)快速發(fā)展,計(jì)算機(jī)視覺(jué)包括語(yǔ)音識(shí)別等技術(shù)都取得了非常大的進(jìn)展,但是截至現(xiàn)在,很多問(wèn)題還沒(méi)有得到特別好的解決,所以單模態(tài)的語(yǔ)義鴻溝仍然是存在的。再者,由于引入了多種模態(tài)的信息,所以怎樣對(duì)不同模態(tài)之間的數(shù)據(jù)進(jìn)行綜合建模,會(huì)是一個(gè)異構(gòu)鴻溝的問(wèn)題。
另外,做語(yǔ)音、做圖像是有很多數(shù)據(jù)集的,大家可以利用這些數(shù)據(jù)集進(jìn)行刷分、交流自己算法的研究成果。但是多模態(tài)的數(shù)據(jù)集是非常難以構(gòu)建的,所以我們?cè)谧龆嗄B(tài)研究時(shí)是存在數(shù)據(jù)缺失的問(wèn)題的。
多模態(tài)技術(shù)的未來(lái)應(yīng)用方向展望
首先,多模態(tài)技術(shù)會(huì)改變?nèi)藱C(jī)交互的方式,我們與機(jī)器交互的方式將會(huì)越來(lái)越貼近于更令人舒適、更自然的方式。比如我們剛才講的 Animoji 技術(shù),其實(shí)它帶來(lái)的是一種可以通過(guò)人臉控制手機(jī)自動(dòng)生成 Avatar(虛擬動(dòng)畫(huà))的體驗(yàn)。原來(lái)實(shí)現(xiàn)這些效果,需要在好萊塢專門(mén)設(shè)一個(gè)特效室來(lái)實(shí)現(xiàn)這一點(diǎn),而現(xiàn)在普通用戶都能享受這樣的技術(shù),所以人機(jī)交互會(huì)由原來(lái)重的、貴的、笨的方式轉(zhuǎn)變?yōu)楸阋说摹⒚總€(gè)人都能參與的而且便捷的方式。
第二,多模態(tài)技術(shù)會(huì)帶來(lái)新的內(nèi)容形態(tài),原來(lái)接入信息更多是從文本、頁(yè)面中獲得,現(xiàn)在有視頻,未來(lái)可能還會(huì)有 AR 或者其它的形式。多模態(tài) AR 很重要的一點(diǎn)就是強(qiáng)調(diào)沉浸感,這種沉浸感其實(shí)是通過(guò)聽(tīng)覺(jué)和視覺(jué)綜合作用才能產(chǎn)生的。
第三,多模態(tài)亟需新的算法和大型的數(shù)據(jù),因?yàn)檫@兩者可能會(huì)是一個(gè)某種意義上可以相互折算的問(wèn)題。以目前的機(jī)器學(xué)習(xí)算法來(lái)講,需要海量的數(shù)據(jù)才能解決好這個(gè)問(wèn)題,因?yàn)楝F(xiàn)在深度學(xué)習(xí)、內(nèi)容理解的成果,某種意義上是監(jiān)督學(xué)習(xí)的成果,有足夠的樣本、算力,所以現(xiàn)在的算法能力基本上還停留在對(duì)算力和數(shù)據(jù)有著非常大要求的階段。而多模態(tài)的大型數(shù)據(jù)是非常難建的,而且多模態(tài)解的空間是更大的。因?yàn)橐粋€(gè)模態(tài)解的空間是 n,另外一個(gè)是 m,它最后是一個(gè)乘積、一個(gè)指數(shù)級(jí)的變化,所以數(shù)據(jù)集要多大才足夠是一個(gè)很難的這個(gè)問(wèn)題,可能需要新的算法來(lái)對(duì)這個(gè)問(wèn)題進(jìn)行建模。
作者簡(jiǎn)介
李巖,畢業(yè)于中國(guó)科學(xué)院計(jì)算技術(shù)研究所,中國(guó)計(jì)算機(jī)學(xué)會(huì)多媒體技術(shù)專業(yè)委員會(huì)常委?,F(xiàn)任快手科技多媒體內(nèi)容理解部(Multimedia Understanding, MMU)負(fù)責(zé)人,帶領(lǐng)快手科技近百人的算法研發(fā)團(tuán)隊(duì),團(tuán)隊(duì)成員多來(lái)自清華大學(xué)、中科院和日本京都大學(xué)等國(guó)內(nèi)外頂尖高校和科研機(jī)構(gòu)。
原文傳送門(mén):https://mp.weixin.qq.com/s/tpdYcvx3QsVgthHrlpXkyg
轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào),未經(jīng)授權(quán)不允許二次轉(zhuǎn)載
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。