0
慧川智能CEO:康洪文
在今日由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦,雷鋒網(wǎng)和香港中文大學(xué)(深圳)承辦第二屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì)的AI+專場(chǎng)上,慧川智能CEO康洪文在給大家?guī)?lái)“AI(愛(ài))讓視頻更簡(jiǎn)單”的主題演講的同時(shí),也重磅首發(fā)了一款新的視頻內(nèi)容理解的API產(chǎn)品:智影·視頻理解API。
據(jù)康洪文介紹,這款A(yù)PI可利用深度學(xué)習(xí)技術(shù),對(duì)一段完整輸入的視頻中所涵蓋的圖像和視頻流進(jìn)行模式識(shí)別、拆解和結(jié)構(gòu)化,從而對(duì)視頻內(nèi)容實(shí)現(xiàn)精確到每一幀的處理。
康洪文向雷鋒網(wǎng)表示,智影·視頻理解API目前已向第三方開(kāi)發(fā)者、媒體、內(nèi)容制造者等群體開(kāi)放使用。值得注意的是,該款A(yù)PI還有一個(gè)重要意義在于,可實(shí)現(xiàn)視頻內(nèi)容的結(jié)構(gòu)化。所以,這款A(yù)PI的開(kāi)放在當(dāng)前視頻內(nèi)容理解相對(duì)處于空白狀態(tài)下來(lái)看,頗具意義。
又一個(gè)從學(xué)術(shù)界走向產(chǎn)業(yè)界
左:慧川智能創(chuàng)始人康洪文 右:CMU大學(xué)計(jì)算機(jī)科學(xué)和機(jī)器人研究所教授金出武雄
說(shuō)起慧川智能的初創(chuàng)團(tuán)隊(duì),其實(shí)也有點(diǎn)意思:創(chuàng)始人康洪文,CMU博士,曾在微軟研究院工作,研究方向主要為AI及視頻理解;CTO黃健,賓州州立大學(xué)博士,曾與康洪文同為微軟研究院同事,此前曾在Google工作,研究方向?yàn)镹LP和機(jī)器學(xué)習(xí);首席架構(gòu)師劉曦,與康洪文同為CMU博士,曾在Conviva工作,研究方向主要為云計(jì)算和視頻大數(shù)據(jù)。
CMU作為計(jì)算機(jī)排名世界第一的學(xué)府,已經(jīng)給學(xué)術(shù)界和產(chǎn)業(yè)界輸送了非常多優(yōu)秀的人才。像計(jì)算機(jī)視覺(jué)鼻祖金出武雄,現(xiàn)任微軟全球執(zhí)行副總裁的沈向洋等,皆來(lái)自于此。巧合的在于,康洪文在CMU和微軟都有分別“師從”金出武雄和沈向洋的經(jīng)歷。
除去這些光彩的“緣分”,還得一提的是,2015年,三位初創(chuàng)成員就已有過(guò)一段與視頻AI處理相關(guān)的創(chuàng)業(yè)經(jīng)歷。兩年過(guò)后,康洪文、黃健和劉曦又因?yàn)橐恍┬袠I(yè)態(tài)勢(shì)走在了一起,開(kāi)啟了二次創(chuàng)業(yè)。
“目前短視頻非?;稹?/span>
“就視頻而言,90%的功勞歸屬于創(chuàng)意,只有5%有賴于'體力'。很多人就是被這些5%的體力給牽制住了?!笨岛槲南蚶卒h網(wǎng)如此說(shuō)道。
了解到這一行業(yè)現(xiàn)象,一與康洪文研究方向和從業(yè)經(jīng)歷有關(guān),二則是與湖南衛(wèi)視的合作讓其對(duì)此深有體會(huì)。往往一檔大型綜藝節(jié)目,一個(gè)小時(shí)的視頻,背后往往需要上千個(gè)小時(shí)的幕后剪輯工作。康洪文發(fā)現(xiàn),在這里邊,其實(shí)有很多繁瑣的工作是完全可以依賴機(jī)器來(lái)完成的,并且機(jī)器的速度和效果會(huì)更快更好。
于是,康洪文開(kāi)始和湖南衛(wèi)視、浙江衛(wèi)視等有了合作,幫他們做了一些簡(jiǎn)化工作流程的系統(tǒng)和產(chǎn)品。而智影正是在這些系統(tǒng)之上衍生出來(lái)的一款A(yù)I產(chǎn)品。
不過(guò),這還不夠。
“目前短視頻非?;稹?,康洪文有點(diǎn)興奮。
暫不提月活用戶已超20億的Facebook,單就國(guó)內(nèi)而言,網(wǎng)絡(luò)視頻活躍用戶已達(dá)5.5億。微信每天產(chǎn)出100萬(wàn)篇以上的公號(hào)文章,其中就有67%的內(nèi)容適合生成視頻。而隨著機(jī)器學(xué)習(xí)、CV和NLP應(yīng)用的不斷拓展,用戶正慢慢從圖像、文字轉(zhuǎn)向視頻和短視頻使用,大家越來(lái)越依賴大信息量的視頻內(nèi)容。
從這一行業(yè)大趨上來(lái)看,短視頻終將爆發(fā)不是沒(méi)有道理。然而,AI業(yè)界對(duì)文本、圖像的處理技術(shù)和算法已漸趨成熟,但對(duì)視頻信息的理解卻暫時(shí)處于空白狀態(tài)。業(yè)內(nèi)甚至有人認(rèn)為“視頻是一種暗物質(zhì)”,機(jī)器無(wú)法知道視頻里究竟有哪些內(nèi)容,或者視頻之間有哪些聯(lián)系?!八鼈冋剂巳W(wǎng)90%的存儲(chǔ)空間,然而這種結(jié)構(gòu)化的數(shù)據(jù)卻完全沒(méi)有?!?/p>
市場(chǎng)的痛點(diǎn)就此形成。這一切都讓一直深耕在CV領(lǐng)域的康洪文感覺(jué)到,既是挑戰(zhàn),也是機(jī)遇。
2分鐘視頻,人力4小時(shí)剪輯、機(jī)器只要30s,效果一樣,如何做到?
康洪文給雷鋒網(wǎng)列了這樣一項(xiàng)數(shù)值,2分鐘的視頻,人類需要花費(fèi)4小時(shí)在素材的收集、剪輯和渲染上,直至整個(gè)視頻出爐,而智影可在30s內(nèi)自動(dòng)生成這段視頻并達(dá)到相同的效果。
如何實(shí)現(xiàn)?
智能視頻技術(shù)的學(xué)術(shù)積累
在1990年以前,學(xué)術(shù)業(yè)界開(kāi)始有了一些關(guān)于視頻合成技術(shù)和物體檢測(cè)識(shí)別的討論和研究。2000年以后,特別是2005年左右,整個(gè)學(xué)術(shù)業(yè)界開(kāi)始泛起了對(duì)視頻合成,視頻內(nèi)容理解的研究。據(jù)Google學(xué)術(shù)查閱的資料表明,在2005年以前,關(guān)于視頻內(nèi)容理解這一項(xiàng)就有4530條結(jié)果的收錄。近十年來(lái),這一學(xué)術(shù)搜索結(jié)果已增至17000條。同理,視頻合成、物體檢測(cè)識(shí)別、機(jī)器學(xué)習(xí)和NLP的理論研究也正如大家感受到的一樣呈井噴態(tài)勢(shì)。
這些學(xué)術(shù)研究成果確實(shí)給AI業(yè)界的創(chuàng)業(yè)者們搭起了架子。
視頻數(shù)據(jù)結(jié)構(gòu)化的優(yōu)勢(shì)
此外,托賴初創(chuàng)團(tuán)隊(duì)在CMU的學(xué)術(shù)研究成果,以及在Facebook、微軟、Google等科技巨擘的從業(yè)經(jīng)歷,慧川智能可以從各個(gè)公開(kāi)的數(shù)據(jù)源里獲得全網(wǎng)的數(shù)據(jù),并借助自身AI算法的積累對(duì)其進(jìn)行內(nèi)容結(jié)構(gòu)化的處理。
據(jù)康洪文介紹,慧川智能在此其中還實(shí)現(xiàn)了一項(xiàng)新的Research成果,也是今日康洪文在CCF-GAIR 2017會(huì)場(chǎng)上發(fā)布的重頭戲:根據(jù)輸入的一段完整視頻,機(jī)器能夠利用深度學(xué)習(xí)對(duì)其涵蓋的圖像和視頻流進(jìn)行模式識(shí)別,拆解和結(jié)構(gòu)化,從而對(duì)視頻內(nèi)容實(shí)現(xiàn)精確到每一幀的處理。比如,在20-40幀出現(xiàn)了一輛蘭博基尼汽車,在60-95幀出現(xiàn)了一段兩個(gè)人在對(duì)話。之后,從100-120幀,是一輛商務(wù)客機(jī)滑行出來(lái)直至結(jié)束......
這種算法可幫助機(jī)器很好的理解視頻內(nèi)容,從而實(shí)現(xiàn)更高精確度的視頻的智能化處理。
所以,在數(shù)據(jù)結(jié)構(gòu)化相對(duì)空白的行業(yè)態(tài)勢(shì)下,相較其他公司而言,這點(diǎn)算是慧川智能的一大優(yōu)勢(shì)。
背后的CV、NLP、機(jī)器學(xué)習(xí)
不過(guò),視頻數(shù)據(jù)結(jié)構(gòu)化只能算是關(guān)鍵助力劑的一種,讓智影做到如上小標(biāo)題的成績(jī)依然離不開(kāi)架構(gòu)在智影背后的機(jī)器學(xué)習(xí)、CV、NLP和信息檢索貢獻(xiàn)。
具體的運(yùn)行原理可看這張圖:
據(jù)康洪文介紹,智影的運(yùn)行流程有以下4步:
· 文本分析
· 素材匹配
· 在線剪輯、預(yù)覽
· 云端視頻渲染
其中關(guān)鍵的基礎(chǔ)步驟在前面2個(gè)。在一個(gè)擁有足量信息和內(nèi)容的數(shù)據(jù)庫(kù)里,當(dāng)一篇文章被上傳到機(jī)器里,在NLP和機(jī)器學(xué)習(xí)的幫助下,機(jī)器會(huì)先對(duì)其進(jìn)行文本分析,抓取文本中的如時(shí)間、地點(diǎn)、人物、事件等關(guān)鍵要素,并予以理解。接續(xù),機(jī)器會(huì)進(jìn)入“素材匹配”階段。因?yàn)檫@些素材本身是不帶標(biāo)簽信息的,所以系統(tǒng)需要進(jìn)入其中找到這些相關(guān)信息。比如,在全網(wǎng)所有的圖片、社交媒體、視頻片段和原聲廣告中,將某個(gè)特定的人出現(xiàn)的場(chǎng)景都截取出來(lái),這其中就需要CV的助力。完成了兩項(xiàng)最基礎(chǔ)也最難的工作之外,機(jī)器就能接續(xù)實(shí)現(xiàn)在線剪輯、預(yù)覽和渲染,直至生成整個(gè)視頻。當(dāng)然,整個(gè)過(guò)程都免不了機(jī)器學(xué)習(xí)的支持。
“相對(duì)其他公司來(lái)說(shuō),智影這款A(yù)PI產(chǎn)品在物體識(shí)別的范圍、種類、精度和穩(wěn)健性上都算是最領(lǐng)先的。”康洪文頗有底氣的如此表述。
內(nèi)容視頻化會(huì)給未來(lái)產(chǎn)業(yè)結(jié)構(gòu)帶來(lái)哪些影響?
當(dāng)問(wèn)及這個(gè)問(wèn)題時(shí),康洪文向雷鋒網(wǎng)表示,這是一個(gè)很大的問(wèn)題。
“它應(yīng)該會(huì)帶來(lái)整個(gè)產(chǎn)業(yè)結(jié)構(gòu)的改變?!笨岛槲哪肎oogle舉了個(gè)例子。
Google之所以能成為Google,一大原因在于其對(duì)文本的結(jié)構(gòu)化處理的能力。以Google Search為核心,在其周圍還有Index技術(shù)、Adwords業(yè)務(wù)等,所有這些都建立在對(duì)文本的深度理解之上。
然而,隨著用戶越來(lái)越依賴大信息量的視頻內(nèi)容,并逐漸習(xí)慣短視頻對(duì)文本和圖像的取代,在目前視頻內(nèi)容暫時(shí)還缺失結(jié)構(gòu)化方案的過(guò)渡階段,在行業(yè)發(fā)展到一定程度之后,必然會(huì)產(chǎn)生一類對(duì)視頻內(nèi)容提供結(jié)構(gòu)化或標(biāo)準(zhǔn)化處理的方案商公司。
而這個(gè)過(guò)程有趣的地方在于,提供AI技術(shù)方案商的公司不會(huì)“閉門造車”或“自個(gè)玩自個(gè)”,他們會(huì)逐漸將自己的應(yīng)用開(kāi)放給第三方開(kāi)發(fā)者,媒體甚至所有人(慧川智能已經(jīng)將智影開(kāi)放出去了)。當(dāng)“信息視頻化”發(fā)展到一定規(guī)模之后,必將有更多的人參與進(jìn)來(lái)并使用這些產(chǎn)品,這一過(guò)程又將產(chǎn)生足量的數(shù)據(jù),反過(guò)來(lái)即會(huì)刺激整個(gè)行業(yè)的爆發(fā)性增長(zhǎng),直至巨頭的出現(xiàn)。
康洪文說(shuō),“如果我們是賦能的一方的話,肯定會(huì)創(chuàng)造更大的價(jià)值?!?/p>
結(jié)語(yǔ)
談及未來(lái)可能會(huì)遭遇的競(jìng)爭(zhēng),康洪文表現(xiàn)的非常自信,“因?yàn)槿魏我患褹I公司,同一種算法是不可能立馬被應(yīng)用在其他領(lǐng)域之上的。每個(gè)應(yīng)用領(lǐng)域都能催生很多的技術(shù)細(xì)節(jié),所有公司都需要持續(xù)不斷的去解決技術(shù)上出現(xiàn)的挑戰(zhàn)和困難。它跟產(chǎn)品經(jīng)理時(shí)代,或者運(yùn)營(yíng)驅(qū)動(dòng)產(chǎn)品的公司不一樣,不是看了它的產(chǎn)品模式就能學(xué)會(huì)的?!?/p>
事實(shí)上,目前國(guó)內(nèi)也有一些創(chuàng)業(yè)公司在做一些消費(fèi)級(jí)視頻的AI應(yīng)用,如給視頻信息做標(biāo)簽化從而達(dá)到精準(zhǔn)廣告投放的效果。在康洪文看來(lái),這些技術(shù)應(yīng)用更多的是一種“任務(wù)驅(qū)動(dòng)”。機(jī)器可能會(huì)對(duì)命令型任務(wù)完成的很好,但仍然不會(huì)增加對(duì)視頻內(nèi)容的理解。
隨著機(jī)器學(xué)習(xí)能力的增強(qiáng),AI在一些專項(xiàng)任務(wù)上已經(jīng)表現(xiàn)出超越人類的特質(zhì),如AlphaGo對(duì)弈,CT圖像的識(shí)別,圖片情景的分類等。一直以來(lái),人類對(duì)AI的理解是僅限于做一些機(jī)械化的工作,但在康洪文看來(lái),隨著機(jī)器人對(duì)專項(xiàng)任務(wù)的本質(zhì)的理解加深之后,就能獲得創(chuàng)造力的延伸,如譜曲機(jī)器人可達(dá)到以假亂真的程度,機(jī)器人寫詩(shī)超過(guò)人類等等。AI在其“可做事情”和“不可做事情”之間,界限正變得慢慢模糊。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。