揭秘優(yōu)酷認知實驗室

本文作者：汪思穎

2019-05-21 10:47

導語：這里匯聚優(yōu)酷各路大神，包括多媒體內(nèi)容檢索、多模態(tài)視頻內(nèi)容理解、視頻智能生產(chǎn)、可交互視頻等諸多技術(shù)。

雷鋒網(wǎng) AI 科技評論按，北京時間 5 月 15 日，阿里巴巴集團發(fā)布 2019 財年第四季度財報及 2019 財年業(yè)績，可以看到，優(yōu)酷的日均用戶群在 2019 財年和 2019 年 3 月期間，增長率同比增長約 88％和 50％。

作為一家大型視頻分享網(wǎng)站，2006 年，優(yōu)酷正式上線，發(fā)展至今，經(jīng)歷與土豆合并，被阿里收購等一系列里程碑事記，現(xiàn)已覆蓋 5.8 億多屏終端、日播放量 11.8 億，形成了一條從內(nèi)容生產(chǎn)、制作、宣傳、發(fā)布、播放的文化娛樂全產(chǎn)業(yè)鏈。而在內(nèi)容的采、制、宣、發(fā)、播過程中，有一個團隊占據(jù)了極其重要的地位，那就是優(yōu)酷認知實驗室。

「年輕」的實驗室，不「年輕」的陣容

從年齡來看，這一實驗室還很「年輕」——去年下半年才剛剛成立。但它展示給外界的更多是不「年輕」的一面。認知實驗室在組建之初，立足阿里集團達摩院，眾所周知，達摩院在音視頻領(lǐng)域皆有雄厚的算法資源和技術(shù)底蘊。

認知實驗室的團隊負責人王曉博博士，曾先后在百度、搜狗商務(wù)搜索部門從事廣告算法策略研發(fā)工作，在加入阿里推薦部門之后，組建了猜你喜歡算法團隊，短短三年內(nèi)，帶領(lǐng)團隊將猜你喜歡商品推薦打造為手機淘寶第一大導購場景。

而認知實驗室資深算法專家任海兵則在計算機視覺領(lǐng)域有 20 多年的研究經(jīng)驗，歷任 CVPR、ICCV、ECCV 等多個國際頂級學術(shù)會議審稿人，曾帶領(lǐng)團隊獲得 FRGC 人臉識別競爭第一名和 DAVISOSVOS 視頻物體分割競賽第四名。

此外，這一團隊還有一位深耕應用的老兵。優(yōu)酷魚腦平臺的負責人蔡龍軍，碩士畢業(yè)后曾在多家國內(nèi)外知名企業(yè)工作，主導研發(fā)了開源深度學習平臺 DeepDriver。魚腦是他在阿里期間主導研發(fā)的大數(shù)據(jù)內(nèi)容生命周期三維立體分析平臺，這一平臺能利用 AI 和大數(shù)據(jù)分析，為內(nèi)容采制、運營、營銷等產(chǎn)業(yè)全鏈條進行賦能。據(jù)悉。魚腦平臺在優(yōu)酷投入使用已經(jīng)有兩年之久，在一些大劇的演員選擇、內(nèi)容創(chuàng)作上，都有參與。

揭秘優(yōu)酷認知實驗室

定位于產(chǎn)研結(jié)合，致力五大研究方向

據(jù)王曉博介紹，認知實驗室旨在將產(chǎn)和研進行緊密銜接，同時致力于科技和藝術(shù)的深度結(jié)合。

談及成立認知實驗室的契機，王曉博表示，在他轉(zhuǎn)入優(yōu)酷算法中心之初，這里的搜索引擎主要還是文字單模態(tài)的檢索。隨著用戶群體持續(xù)增長，優(yōu)酷的視頻量以指數(shù)趨勢增加，有些 UPGC 上傳的視頻，標題和描述無法反映相關(guān)信息，甚至出現(xiàn)不少標題黨，進而導致視頻檢索結(jié)果的不相關(guān)。他們希望能把單個文字模態(tài)變成支持文字、圖像、語音、視頻等多個模態(tài)，基于這一考慮，他們設(shè)置了多媒體內(nèi)容分析理解、多模態(tài)搜索推薦這樣一些方向。隨著方向的增多，以及在工程和可落地性上的考量，他們從優(yōu)酷算法中心挑選了一部分在方向相關(guān)且能力突出的算法工程師，同時又吸納了一些業(yè)界大牛，進而組建了這樣一支高水平的多媒體認知算法團隊。

基于這樣的信條，實驗室目前有以下研究方向：

第一，計算機視覺。

第二，內(nèi)容智能評估。

第三，視頻結(jié)構(gòu)分析與內(nèi)容智能生成。

第四，視頻質(zhì)量。

第五，交互式視頻，例如 AR、VR 等。

毋庸置疑，幾乎所有跟視頻相關(guān)的實驗室都會涉及到計算機視覺研究，這也是最基礎(chǔ)性的研究。內(nèi)容智能評估在優(yōu)酷則承擔守門員角色，把不合適的內(nèi)容擋在門外，并對影劇綜的采買提供大數(shù)據(jù)視角專業(yè)化的分析。內(nèi)容生成立足研究、致力于產(chǎn)業(yè)，觀影質(zhì)量和視頻內(nèi)容質(zhì)量把控旨在為用戶帶來更好的體驗，交互式視頻則是未來的發(fā)展方向。

內(nèi)容評估與內(nèi)容生成

「舉個例子，很多時候，一部電影上映了，你覺得很好看的內(nèi)容，卻只是叫好不叫座；有的內(nèi)容你覺得拍的一般，但是它卻賣出了很高的票房；有些視頻，從質(zhì)量上評級，也許只是 B 級劇，但內(nèi)容有很強的運營屬性，可能把一個 B 級劇、A 級劇運營到 S 級、甚至是 S+級別。在這一過程中，會出現(xiàn)哪些不確定性，這些不確定性該如何去建模，包括大家認為比較好的電影或電視劇，主要是由哪些要素構(gòu)成的，如何從劇本期，甚至是更早的時期，就發(fā)掘出更好的內(nèi)容，這些都是內(nèi)容智能評估所需要做的事情?！雇鯐圆┤缡敲枋?。

至于視頻結(jié)構(gòu)分析和內(nèi)容智能生成，王曉博對雷鋒網(wǎng)表示，這項工作意義重大。他舉了這樣一個例子，如果想制作一條過去百年來航母的合集視頻，工作量巨大，你需要去找原始的視頻素材，去制作。如果把現(xiàn)有的視頻資源拆解到元素集，這將會大大降低工作難度。

他同時提到電視臺的視頻，「電視臺擁有大量傳統(tǒng)視頻資源，但直到現(xiàn)在，很多視頻資源其實只是『躺』在那里，被理解和使用的單位只是視頻本身，將這些視頻理解得更加深入，精確到元素集具有重大的價值。」

他進一步提到，過去大家在搜索的時候，很多時候只是搜節(jié)目名，搜電視劇具體某一集的并不多。但實際上，好的電影、電視劇，能夠激起人內(nèi)心的情感共鳴，產(chǎn)生情感共鳴之后，大家自然而然會想要分享。其實單純?nèi)シ窒砟且欢我曨l還不足以表達情感，這個時候，就涉及到視頻的拆解，將內(nèi)容精確到細節(jié)。

揭秘優(yōu)酷認知實驗室

而談到內(nèi)容智能生成，他拿美國視頻網(wǎng)站巨頭 Netflix 舉例。在 Netflix 上，一部電影，他們會找專業(yè)的制作公司制作 30 張到 40 張海報，在分發(fā)這部劇的時候，由于同一部劇對不同人的吸引點不一樣，有人可能是因為喜歡這部劇里的某一個明星，也有的人是因為劇里的某一個情節(jié)，也有人可能是因為服飾。在這里，通過這樣個性化地將海報分發(fā)到不同的受眾群體，能夠提升播放轉(zhuǎn)化率。

實際上，優(yōu)酷的現(xiàn)狀更難?！负芏鄷r候，雖然花錢買了一部劇，但是也通常只能拿到 4-6 張海報，而且各家視頻網(wǎng)站都有大量的存量劇，競爭激烈。這時候如果為了一些存量劇、電影等去生產(chǎn)海報，設(shè)計資源也較為昂貴，性價比較低。」他強調(diào)，內(nèi)容智能生產(chǎn)中的個性化生成海報就可以改變這種情況。

此外，有些年輕人非常喜歡看一些用原音加上快慢變速的鬼畜類視頻，在這里最大的問題也還是產(chǎn)量低，因為生成這類視頻需要有很高的剪輯制作技術(shù)。這里也是內(nèi)容智能生成技術(shù)可以大展身手的空間。

體驗進一步提升

在內(nèi)容評估與內(nèi)容生成的基礎(chǔ)之上，又延伸出對視頻質(zhì)量，以及利用 AR、VR 等技術(shù)提升用戶體驗的研究。

優(yōu)酷認知實驗室將視頻質(zhì)量分成兩部分。第一部分是視頻的內(nèi)容質(zhì)量，視頻內(nèi)容質(zhì)量還可以再分為兩部分，一是指涉黃、涉恐、涉暴等紅線以下的視頻，這種視頻是絕對不能在平臺上傳播的。在內(nèi)容質(zhì)量審查階段，除了篩選出紅線視頻，還要將視頻進行分級，諸如什么樣的視頻能夠在頻道推薦，什么樣的視頻能夠在首頁推薦。

第二部分是視頻的觀看體驗。觀看視頻時，有許多不同的屏幕，例如電視、手機、iPad，這些設(shè)備型號各異，屏幕尺寸各不相同，顯示技術(shù)也不一樣，觀看環(huán)境存在差異。在這些不同場景下，同一部視頻應該表現(xiàn)出什么樣的觀影質(zhì)量，這一領(lǐng)域也是認知實驗室的一個新興研究領(lǐng)域。王曉博表示，包括 YouTube、Facebook，Netflix、HBO 在內(nèi)，近年來也都成立了關(guān)于視頻質(zhì)量的相關(guān)實驗室，究其目的，都是為了在不同設(shè)備和場景環(huán)境下提供最佳的觀影體驗。

Nexflix 最近推出了交互式視頻觀影體驗，雖然觀眾反饋一般，但在王曉博看來，這是一次非常有意義的探索?！附Y(jié)合 AR 和 VR，交互式視頻是實驗室重點探索的一個方向，也是行業(yè)內(nèi)比較看好的方向。視頻的創(chuàng)新能創(chuàng)造未來新的體驗?！?/p>

在體育賽事中，這種技術(shù)可以帶來非常好的交互式體驗。目前，優(yōu)酷在手機上可以做到六自由度的視頻觀影體驗，當在手機上點擊暫停，這時可以旋轉(zhuǎn)畫面角度，還可以增加輔助標簽，進行進一步說明?！改壳?VR 視頻的觀影體驗，就像是坐在某 VIP 座位上的一個高位截癱觀眾，而六自由度的視頻，則可以讓你滿場隨便溜達，就像有翅膀一樣，能夠瞬移?！?/p>

揭秘優(yōu)酷認知實驗室

王曉博進一步對雷鋒網(wǎng)舉例，例如在看足球比賽的時候，作為偽球迷，很多時候?qū)χ鞒秩酥v解的專業(yè)術(shù)語一知半解。這時候，如果機器能夠通過一些增強現(xiàn)實的交互方式自動標注和解釋，例如越位，通過產(chǎn)生一些輔助標線，把場景顯示出來，這時候會顯著增強絕大多數(shù)偽球迷的看球體驗。

揭秘優(yōu)酷認知實驗室

總結(jié)

從視頻內(nèi)容制作到分發(fā)的每一個階段，技術(shù)都有著非常大的發(fā)揮空間，這也是認知實驗室發(fā)力的方向?？梢钥吹剑J知實驗室希望能夠打造一套視頻全生命周期一站式解決方案，以技術(shù)賦能視頻行業(yè)上下游，同時積極探索行業(yè)新賽道，實現(xiàn)技術(shù)與藝術(shù)的結(jié)合。

而在王曉博看來，技術(shù)也并不是全部，科技與藝術(shù)結(jié)合，分享智慧快樂與感動，這點更為重要?！肝膴拾鍓K旨在傳播和分享更多的快樂，而來做這件事情的同學，自己快樂了，才能在做技術(shù)的同時，將快樂更好地分享給更多的同學?！蛊诖J知實驗室接下來帶來更多有意思的工作，為觀眾傳遞更多的快樂。

號外：優(yōu)酷視頻增強和超分辨率挑戰(zhàn)賽正式上線，初賽報名將于6月18日截止，歡迎大家踴躍報名參賽。

大賽官網(wǎng)如下：https://vsre2019.youku.com

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學術(shù)，例如論文

發(fā)私信

當月熱門文章