慧川智能康洪文：AI讓視頻更簡單| CCF-GAIR 2017

本文作者：呂倩

2017-07-24 23:33

專題：GAIR 2017

導(dǎo)語：智影的技術(shù)主要運(yùn)用在計(jì)算機(jī)視覺、信息檢索&NLP以及大規(guī)模云計(jì)算這三方面。

在AI 與各行各業(yè)相融合的行業(yè)大背景下，AI+視頻可以碰撞出什么樣的火花？

7月8日，在由中國計(jì)算機(jī)學(xué)會(huì)（CCF）主辦、雷鋒網(wǎng)與香港中文大學(xué)（深圳）承辦的第二屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì)AI+專場(chǎng)上，慧川智能CEO康洪文重點(diǎn)介紹了AI在視頻的創(chuàng)作以及內(nèi)容理解兩方面的技術(shù)，希望能讓視頻創(chuàng)作者、以及其他視頻領(lǐng)域從業(yè)人員的工作更加簡單。

杭州慧川智能科技有限公司旗下的產(chǎn)品名為智影。智影基于在計(jì)算機(jī)視覺、自然語言處理及大規(guī)模云計(jì)算三方面的技術(shù)，目前提供兩個(gè)功能：一個(gè)能將輸入視頻進(jìn)行結(jié)構(gòu)化理解，并提供細(xì)化到幀級(jí)精確度標(biāo)簽（時(shí)間、地點(diǎn)、人物、事物、事件）的視頻內(nèi)容理解API；以及一個(gè)基于此技術(shù)，能夠?qū)⒛_本文字快速轉(zhuǎn)化為短視頻的云平臺(tái)。在用戶輸入一篇文章、一個(gè)鏈接或者一個(gè)關(guān)鍵詞后，它將基于人工智能技術(shù)，自動(dòng)搜索合適的圖片及視頻素材，并配以人工智能合成的語音，最后融合成一條短視頻，當(dāng)然，用戶還可對(duì)產(chǎn)出的短視頻在線進(jìn)行調(diào)整。

團(tuán)隊(duì)方面，CEO康洪文為美國卡耐基梅隆大學(xué)計(jì)算機(jī)、人工智能專業(yè)博士畢業(yè)，曾在微軟研究院，Intel研究院工作，其視頻方面的工作應(yīng)用于微軟的Windows操作系統(tǒng)，并取得了視頻分析合成的美國專利。聯(lián)合創(chuàng)始人劉曦為美國卡耐基梅隆大學(xué)計(jì)算機(jī)專業(yè)博士畢業(yè)，曾在美國視頻大數(shù)據(jù)公司Conviva工作任首席架構(gòu)師。聯(lián)合創(chuàng)始人Sean Huang是美國賓州州立大學(xué)計(jì)算機(jī)博士，曾就職于谷歌購物，任技術(shù)帶頭人。

慧川智能已獲得數(shù)千萬人民幣融資，由清流資本投資。

現(xiàn)場(chǎng)，康洪文向雷鋒網(wǎng)解釋了慧川智能如何使得全網(wǎng)視頻結(jié)構(gòu)化，雷鋒網(wǎng)進(jìn)行了不更改原意的整理：

雷鋒網(wǎng)：我們目前的主要盈利方式是怎樣的？

康洪文：目前慧川智能主要通過付費(fèi)的方式、將API提供出來給第三方，比如媒體平臺(tái)、個(gè)人需求者等。讓他們直接對(duì)接素材庫，我們負(fù)責(zé)提供視頻理解這個(gè)服務(wù)。

雷鋒網(wǎng)：慧川領(lǐng)導(dǎo)團(tuán)隊(duì)是如何搭建起來的？

康洪文：我們團(tuán)隊(duì)成員很早就一起工作了，相互認(rèn)識(shí)并合作了10年以上。目前智影底層的系統(tǒng)得益于團(tuán)隊(duì)近3年來的技術(shù)積累。

雷鋒網(wǎng)：黃健博士的NLP技能是具體怎樣落地到AI+視頻的呢？

康洪文：比如當(dāng)對(duì)一篇文章進(jìn)行自然語言處理時(shí)，去具體理解分析其存在的包括人物、時(shí)間、地點(diǎn)等關(guān)鍵元素，之后再與素材庫進(jìn)行匹配對(duì)接。類似的NLP技術(shù)和核心思想也已經(jīng)用到我們的視頻結(jié)構(gòu)化工作里面，因?yàn)槲覀冏⒁獾揭曨l無外乎就是另一種信息的呈現(xiàn)方式。

雷鋒網(wǎng)：可以聊聊資金的具體使用方向嗎？

康洪文：我們由清流資本投資。方向主要投入在人員與技術(shù)上，技術(shù)方面，目前主要用于基礎(chǔ)框架的搭建，比如視頻理解、數(shù)據(jù)結(jié)構(gòu)化與收集等。

雷鋒網(wǎng)：智影最核心的支撐技術(shù)是什么？

康洪文：我們有三大核心技術(shù)支柱——計(jì)算機(jī)視覺、自然語言處理，以及大數(shù)據(jù)云計(jì)算平臺(tái)。

雷鋒網(wǎng)：通過上傳文章或圖片的形式，來制作視頻，會(huì)不會(huì)產(chǎn)生由于資料源短缺而使視頻質(zhì)量不達(dá)標(biāo)的情況？

康洪文：資料稀少的問題，正是我們可以解決的。比如我說斯里蘭卡人頭攢動(dòng)的機(jī)場(chǎng)、熱帶海洋氣候的景象、當(dāng)?shù)仵r艷服裝，你在腦海里就能想象出具體場(chǎng)景。你能做到這樣，是因?yàn)槟阒坝邢嚓P(guān)類似經(jīng)歷。而我們推出的AI也能達(dá)到如此，甚至更好。因?yàn)闄C(jī)器是有大數(shù)據(jù)的，它可以從龐大的素材庫里搜索對(duì)方的各類特質(zhì)。

雷鋒網(wǎng)：當(dāng)AI可以從大數(shù)據(jù)上獲得情景再現(xiàn)，如果希望在視頻中加入主觀情緒色彩呢？

康洪文：細(xì)微情緒這方面在目前是稍難的，但在一定程度上也可以做到，即情感分析。比如說我們講到特朗普，可能85%對(duì)他的言論都是否定的，15%是正面的，這種情感的識(shí)別和分析對(duì)于自然語言處理現(xiàn)在來說已經(jīng)是非常成熟了。

雷鋒網(wǎng)：當(dāng)視頻生成后，有沒有具體的評(píng)測(cè)機(jī)制對(duì)其判斷優(yōu)劣？

康洪文：我們有一個(gè)類似谷歌的標(biāo)準(zhǔn)，去定義視頻的合成質(zhì)量—— 一是我們匹配素材的相關(guān)度，一是整個(gè)視頻制作出來后的質(zhì)量。我們希望的目標(biāo)是能夠在未來的幾個(gè)月，做到相當(dāng)大部分自動(dòng)生成視頻是高質(zhì)量的、用戶可以直接拿來用的一個(gè)質(zhì)量水準(zhǔn)。

同時(shí)，我們目前的系統(tǒng)是交互系統(tǒng)，用戶是可以在視頻自動(dòng)生成基礎(chǔ)之上再進(jìn)行修改的。而作為一個(gè)客觀度量方式，就是觀測(cè)用戶有多少次修改，我們會(huì)有針對(duì)性地降低這個(gè)修改數(shù)量。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

1人收藏

相關(guān)文章

專題

GAIR 2017

本專題其他文章

呂倩

編輯

發(fā)私信

當(dāng)月熱門文章