快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

本文作者：黃善清

2018-11-09 17:35

專題：CNCC 2018

導語：多模態(tài)技術有兩大應用方向：一是會改變?nèi)藱C交互的方式，二是將使信息分發(fā)更加高效。

快手

AI影響因子

活動

企業(yè)：快手

操作：主題演講

事項：

雷鋒網(wǎng) AI 科技評論按：在 CNCC2018「高通量媒體內(nèi)容理解論壇」上，快手科技多媒體內(nèi)容理解部負責人李巖發(fā)表了題為「多模態(tài)內(nèi)容生產(chǎn)與理解」的演講，講述了帶領多媒體內(nèi)容理解部在多模態(tài)研究上取得的一些進展。

李巖在演講中表示，多模態(tài)技術有兩大應用方向，一是會改變?nèi)藱C交互的方式，二是將使信息分發(fā)更加高效；視頻本身就是一個多模態(tài)的問題，而快手則擁有海量的多模態(tài)數(shù)據(jù)，多模態(tài)的研究對于快手來說是非常重要的課題；目前快手已經(jīng)在語音識別與合成、智能視頻配樂、通過 2D 圖像驅(qū)動 3D 建模特效、視頻精準理解等領域?qū)Χ嗄B(tài)技術進行研發(fā)應用。

以下為演講的主要內(nèi)容：

快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

大家好，首先我來簡單介紹一下快手，在這個平臺，用戶能夠被廣闊的世界看到，也能夠看到廣闊的世界，我們可以看一下快手的數(shù)據(jù)： 70 億條視頻總量、1500 萬日新增視頻，日均的使用時長超過 60 分鐘等，所以快手平臺上有非常多的多媒體數(shù)據(jù)，同時也有非常多的用戶交互數(shù)據(jù)，比如我們每天有 1.3 億用戶觀看超過 150 億次視頻的播放數(shù)據(jù)。

我們知道視頻是視覺、聽覺、文本多種模態(tài)綜合的信息形式，而用戶的行為也是另外一種模態(tài)的數(shù)據(jù)，所以視頻本身就是一個多模態(tài)的問題，再加上用戶行為就更是一種更加復雜的多模態(tài)問題。所以多模態(tài)的研究對于快手來說，是非常重要的課題。

多模態(tài)技術兩大應用方向：人機交互與信息分發(fā)

我認為多模態(tài)技術會有兩大主要的應用。

第一，多模態(tài)技術會改變?nèi)藱C交互的方式，我們與機器交互的方式將會越來越貼近于更令人舒適、更自然的方式。

第二，多模態(tài)技術會使得信息的分發(fā)更加高效。

快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

多模態(tài)技術研究的三個難點：語義鴻溝、異構鴻溝、數(shù)據(jù)缺失

其實在目前來看，多模態(tài)研究難度還是非常高的。

其中大家談得比較多的是語義鴻溝，雖然近十年來深度學習和大算力、大數(shù)據(jù)快速發(fā)展，計算機視覺包括語音識別等技術都取得了非常大的進展，但是截至現(xiàn)在，很多問題還沒有得到特別好的解決，所以單模態(tài)的語義鴻溝仍然是存在的。

再者，由于引入了多種模態(tài)的信息，所以怎樣對不同模態(tài)之間的數(shù)據(jù)進行綜合建模，會是一個異構鴻溝的問題。

另外，做語音、做圖像是有很多數(shù)據(jù)集的，大家可以利用這些數(shù)據(jù)集進行刷分、交流自己算法的研究成果。但是多模態(tài)的數(shù)據(jù)集是非常難以構建的，所以我們在做多模態(tài)研究時是存在數(shù)據(jù)缺失的問題的。

下面我會分享我們在多模態(tài)這個方面所做的事情，以及這些技術是怎么樣幫助快手平臺獲得更好的用戶體驗和反饋的。

多模態(tài)技術如何實現(xiàn)更好的記錄

首先，多模態(tài)技術將實現(xiàn)更好的記錄。隨著智能手機的出現(xiàn)，每個人都可以用手機上攝像頭去記錄周圍的世界，用麥克風去存儲周圍的音頻信息；而在以前，生成視頻，尤其生成一些比較專業(yè)的視頻，都是導演干的事情。但現(xiàn)在，我們通過手機就能夠做到，這里面會有非常多的多模態(tài)技術研究來輔助人們更好地記錄。

我們希望整個記錄過程是更加便捷、個性化、有趣，同時也是普惠的，具體我將分別通過四個案例分享。

1、語音轉(zhuǎn)文字打造便捷字幕生成體驗

一個視頻里，音頻部分對于整個視頻的信息傳遞是非常重要的。網(wǎng)上有很多帶有大量字幕的、以講述為主的視頻，這樣的視頻制作其實是一件很麻煩的事情，因為一個一個去輸入文字是很痛苦的，像過去在廣電系統(tǒng)專業(yè)工作室就需要很多用于字幕編輯的工具軟件。而如果我們通過語音識別技術，把語音直接轉(zhuǎn)成文字，就可以很輕松地通過手機編輯生成一個帶字幕視頻。

2、語音合成實現(xiàn)個性化配音

另外一個技術叫做個性化配音，假如在一個視頻中，你不喜歡聽男性配音，而希望聽到由一位女士配音，我們就可以通過語音合成技術滿足個性化的訴求。

語音識別及合成技術都會使我們記錄的過程變得更加便捷、有趣，但這兩個技術在做視覺或者多媒體的圈子里面關注度不是特別高，只是偶爾會在做語音的圈子里去聊這些問題。包括在語音圈子里面，語音識別和合成現(xiàn)在往往是兩波人在做。

快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

隨著深度學習技術的出現(xiàn)，語音識別和合成這兩個問題其實在某種程度上是非常對稱的，因為語音識別是從語音到文字，語音合成是從文字到語音。語音識別的時候，我們提取一些聲學的特征，經(jīng)過編碼器或者 Attention 的機制，實現(xiàn)從語音到文字的轉(zhuǎn)化；語音合成的技術和算法，其實也涉及編碼器或者 Attention 的機制，二者形成了比較對稱的網(wǎng)絡。所以我們把語音識別和合成看成是一個模態(tài)轉(zhuǎn)換的特例，從神經(jīng)網(wǎng)絡建模角度來看，是一個比較一致、容易解決的問題。

快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

具體神經(jīng)網(wǎng)絡在設計的時候，雖然二者內(nèi)容機制其實還是有一些不同，但更大的趨勢是這里面將來會有更多的趨同，因為我們知道隨著相關算法的發(fā)展，計算一定是朝著一個更加簡化，更加統(tǒng)一的方向發(fā)展。就像深度學習的出現(xiàn)，其實就是通過計算的方式取代了手工來獲取有效的特征。多模態(tài)的轉(zhuǎn)換領域里面也出現(xiàn)了這樣的特點，這是一件非常有意思的事情。

3、根據(jù)視頻內(nèi)容自動生成音樂

音樂也是短視頻非常重要的一部分，有錄視頻經(jīng)驗的同學可以感受到，為一個場景配合適的音樂是一個很難的事情。過去，有不少用戶為了與音樂節(jié)拍一致，努力配合音樂節(jié)奏拍攝，極大限制了拍攝的自由度。我們希望用戶可以隨意按照自己想要的節(jié)奏錄制，所以讓機器通過用戶拍攝的視頻內(nèi)容，自動生成符合視頻節(jié)奏的音樂，這樣視頻畫面與音樂節(jié)奏就會更匹配、更一致。快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

音樂生成涉及很多具體的技術，我們也做了非常多的研究，其中一個問題是懂音樂的不懂計算機科學，懂計算機科學的人不懂音樂。想要把短視頻配樂這個問題研究好，需要要有做音樂和做 AI 的人一起集成創(chuàng)新，這方面我們也做了非常多的工作。

4、2D 圖像驅(qū)動 3D 建模實現(xiàn) Animoji 效果

通過蘋果的發(fā)布會，大家應該都了解 Animoji 這項技術，iphoneX 有一個標志性的功能，就是通過結構光攝像頭實現(xiàn) Animoji，現(xiàn)在國內(nèi)手機廠商也越來越多地采用結構光的方式去實現(xiàn) Animoj。而快手是國內(nèi)較早實現(xiàn)不使用結構光，只用 RGB 圖像信息就實現(xiàn) Animoji 效果的企業(yè)。快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

用戶不必去花上萬元去買 iphoneX，只要用一個千元的安卓手機，就可在快手的產(chǎn)品上體驗 Animoji 的特效，從而能夠在不暴露臉部信息的同時展現(xiàn)細微的表情變化，例如微笑、單只眼睛睜單只眼睛閉等，讓原來一些羞于表演自己才藝的人，也可以非常自如地表達。我們覺得做技術有一個非常快樂的事情，就是讓原來少數(shù)人才能用的技術，變得更普惠。快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

其實解決這樣一個問題是非常難的，因為即使是像蘋果這樣的公司，也是采用了結構光這樣配置額外硬件的方式來解決。想讓每一個用戶都能享受到最尖端的技術，快手面臨著硬件的約束，只能通過 2D 的 RGB 視覺信息對問題進行建模、求解，這里面包括了像 Landmark 人臉關鍵點檢測、實時重建人臉三維模型等技術，把 2D 和 3D 兩種不同模態(tài)的信息做建模、做對齊。

我們也能看到現(xiàn)在市場上可能有一些小型的 APP 在做類似的事情，但體驗很差，而我們的整體體驗還是非常好非常流暢的，這也需要歸功于深度神經(jīng)網(wǎng)絡模型的量化，通過壓縮和加速解決手機性能問題，可適配任意機型。

多模態(tài)技術如何實現(xiàn)精準理解視頻內(nèi)容

剛才我講的是我們多模態(tài)技術怎樣去幫助用戶更好地記錄，我們同時也希望通過一個更好的分享機制，讓用戶發(fā)布的視頻能夠被更多感興趣的人看到。這也涉及視頻推薦里面多模態(tài)的一些問題。快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

對視頻內(nèi)容的理解其實是非常難的，這個里面我做了兩個比較有意思的事情。

第一，我們強調(diào)音頻和視覺的多模態(tài)綜合的建模，而不是僅僅是單獨的視覺或者音頻，視覺和聽覺兩種媒體的融合，會是未來一個非常重要的事情。

第二，在工業(yè)界做的事情和在學術界做的事情有很大不同，我們有非常多的用戶數(shù)據(jù)，這些用戶數(shù)據(jù)是不在傳統(tǒng)多媒體內(nèi)容研究范疇里面的，但是工業(yè)界可以很好地利用這些數(shù)據(jù)，更好地做內(nèi)容理解。快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

給大家舉個例子，一個男子表演口技的視頻中，如果關閉聲音，僅憑畫面信息，我們并不知道他是在做什么，可能會覺得是在唱歌或唱戲。這說明如果僅僅是通過視覺的話，你可能無法獲得真實的信息。我們對世界的理解一定是多模態(tài)的理解，而不僅僅是視覺的理解。

像這樣的視頻在快手數(shù)據(jù)庫中有 70 億，想要理解這么多的視頻內(nèi)容，必須借助多模態(tài)技術。所以我們在這方面也做了非常多的工作，從文本、視覺、聽覺角度去做了很多單模態(tài)的建模，包括多模態(tài)的綜合建模、有序與無序，以及多模態(tài)特征之間怎樣進行異構的建聯(lián)，在很多任務內(nèi)部的分類上也做了改進。

第二點需要強調(diào)的是，像 ImageNET 等很多的學術界研究內(nèi)容理解的任務有非常好的標注數(shù)據(jù)集，但是這個數(shù)據(jù)集對于工業(yè)界來說還是太小，且多樣性不夠。我們平臺每天有 1.3 億多用戶以及超過 150 億次的視頻播放，這個數(shù)據(jù)是非常大的。如果有 150 億的標注數(shù)據(jù)，做算法就會有很大的幫助，但是現(xiàn)實上是不具備的。快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

那怎樣將研究分析技術與海量數(shù)據(jù)更好地做到兩者的融合呢？我們通過融合行為數(shù)據(jù)和內(nèi)容數(shù)據(jù)，進行綜合建模，同樣大小的人工標注量，利用海量的用戶行為數(shù)據(jù)，能夠獲得比純內(nèi)容模型更好的性能，對視頻有了一個更好的理解，進而在多媒體內(nèi)容的理解和分析方面的算法研究有了非常大的進展，這就使我們在工業(yè)界和傳統(tǒng)學術界做這個事情時會更有優(yōu)勢。

未來多模態(tài)研究的熱點：特征表達與特征對齊

總結一下，多模態(tài)內(nèi)容解決的問題里面涉及一些模態(tài)的轉(zhuǎn)化，比如怎樣通過 2D 圖像驅(qū)動 3D，怎樣通過語音生成文本或者通過文本生成語音，怎樣通過視覺驅(qū)動音樂。另外一個應用是我們怎樣通過融合更多信息來驅(qū)動內(nèi)容的理解，其實都是一個多模態(tài)的問題。在學術界有很多研究還是停留在單模態(tài)，但我個人認為未來多模態(tài)會成為更有價值的研究方向。

多模態(tài)研究會有兩個難點或者說熱點：

第一是多模態(tài)的特征表達，也就是在多模態(tài)研究框架下怎樣設計單模態(tài)的特征，這是一個非常重要的問題。

第二是多模態(tài)特征之間如何對齊，也就是有沒有更好的算法對視覺、聽覺和行為的部分進行統(tǒng)一的建模，這是未來的一個熱點。快手科技李巖：多模態(tài)技術在產(chǎn)業(yè)界的應用與未來展望 | CNCC 2018

幾個總結

第一，多模態(tài)未來會持續(xù)帶來更新的人機交互方式，比如我們剛才講的 Animoji 技術，其實它帶來的是一種可以通過人臉控制手機自動生成 Avatar（虛擬動畫）的體驗。原來實現(xiàn)這些效果，需要在好萊塢專門設一個特效室來實現(xiàn)這一點，而現(xiàn)在普通用戶都能享受這樣的技術，所以人機交互會由原來重的、貴的、笨的方式轉(zhuǎn)變?yōu)楸阋说?、每個人都能參與的而且便捷的方式。

第二，我認為多模態(tài)技術會帶來新的內(nèi)容形態(tài)，原來接入信息更多是從文本、頁面中獲得，現(xiàn)在有視頻，未來可能還會有 AR 或者其它的形式。我覺得多模態(tài) AR 很重要的一點就是強調(diào)沉浸感，這種沉浸感其實是通過聽覺和視覺綜合作用才能產(chǎn)生的。

第三，我認為多模態(tài)亟需新的算法和大型的數(shù)據(jù)，因為這兩者可能會是一個某種意義上可以相互折算的問題。以目前的機器學習算法來講，需要海量的數(shù)據(jù)才能解決好這個問題，因為現(xiàn)在深度學習、內(nèi)容理解的成果，某種意義上是監(jiān)督學習的成果，有足夠的樣本、算力，所以現(xiàn)在的算法能力基本上還停留在對算力和數(shù)據(jù)有著非常大要求的階段。而多模態(tài)的大型數(shù)據(jù)是非常難建的，而且多模態(tài)解的空間是更大的。因為一個模態(tài)解的空間是 n，另外一個是 m，它最后是一個乘積、一個指數(shù)級的變化，所以數(shù)據(jù)集要多大才足夠是一個很難的這個問題，可能需要新的算法來對這個問題進行建模。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

專題

CNCC 2018

本專題其他文章

黃善清

編輯

發(fā)私信

當月熱門文章