0
本文作者: 呂倩 | 2017-07-24 23:33 | 專(zhuān)題:GAIR 2017 |
在AI 與各行各業(yè)相融合的行業(yè)大背景下,AI+視頻可以碰撞出什么樣的火花?
7月8日,在由中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)主辦、雷鋒網(wǎng)與香港中文大學(xué)(深圳)承辦的第二屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì)AI+專(zhuān)場(chǎng)上,慧川智能CEO康洪文重點(diǎn)介紹了AI在視頻的創(chuàng)作以及內(nèi)容理解兩方面的技術(shù),希望能讓視頻創(chuàng)作者、以及其他視頻領(lǐng)域從業(yè)人員的工作更加簡(jiǎn)單。
杭州慧川智能科技有限公司旗下的產(chǎn)品名為智影。智影基于在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理及大規(guī)模云計(jì)算三方面的技術(shù),目前提供兩個(gè)功能:一個(gè)能將輸入視頻進(jìn)行結(jié)構(gòu)化理解,并提供細(xì)化到幀級(jí)精確度標(biāo)簽(時(shí)間、地點(diǎn)、人物、事物、事件)的視頻內(nèi)容理解API;以及一個(gè)基于此技術(shù),能夠?qū)⒛_本文字快速轉(zhuǎn)化為短視頻的云平臺(tái)。在用戶(hù)輸入一篇文章、一個(gè)鏈接或者一個(gè)關(guān)鍵詞后,它將基于人工智能技術(shù),自動(dòng)搜索合適的圖片及視頻素材,并配以人工智能合成的語(yǔ)音,最后融合成一條短視頻,當(dāng)然,用戶(hù)還可對(duì)產(chǎn)出的短視頻在線進(jìn)行調(diào)整。
團(tuán)隊(duì)方面,CEO康洪文為美國(guó)卡耐基梅隆大學(xué)計(jì)算機(jī)、人工智能專(zhuān)業(yè)博士畢業(yè),曾在微軟研究院,Intel研究院工作,其視頻方面的工作應(yīng)用于微軟的Windows操作系統(tǒng),并取得了視頻分析合成的美國(guó)專(zhuān)利。聯(lián)合創(chuàng)始人劉曦為美國(guó)卡耐基梅隆大學(xué)計(jì)算機(jī)專(zhuān)業(yè)博士畢業(yè),曾在美國(guó)視頻大數(shù)據(jù)公司Conviva工作任首席架構(gòu)師。聯(lián)合創(chuàng)始人Sean Huang是美國(guó)賓州州立大學(xué)計(jì)算機(jī)博士,曾就職于谷歌購(gòu)物,任技術(shù)帶頭人。
慧川智能已獲得數(shù)千萬(wàn)人民幣融資,由清流資本投資。
現(xiàn)場(chǎng),康洪文向雷鋒網(wǎng)解釋了慧川智能如何使得全網(wǎng)視頻結(jié)構(gòu)化,雷鋒網(wǎng)進(jìn)行了不更改原意的整理:
雷鋒網(wǎng):我們目前的主要盈利方式是怎樣的?
康洪文:目前慧川智能主要通過(guò)付費(fèi)的方式、將API提供出來(lái)給第三方,比如媒體平臺(tái)、個(gè)人需求者等。讓他們直接對(duì)接素材庫(kù),我們負(fù)責(zé)提供視頻理解這個(gè)服務(wù)。
雷鋒網(wǎng):慧川領(lǐng)導(dǎo)團(tuán)隊(duì)是如何搭建起來(lái)的?
康洪文:我們團(tuán)隊(duì)成員很早就一起工作了,相互認(rèn)識(shí)并合作了10年以上 。目前智影底層的系統(tǒng)得益于團(tuán)隊(duì)近3年來(lái)的技術(shù)積累。
雷鋒網(wǎng):黃健博士的NLP技能是具體怎樣落地到AI+視頻的呢?
康洪文:比如當(dāng)對(duì)一篇文章進(jìn)行自然語(yǔ)言處理時(shí),去具體理解分析其存在的包括人物、時(shí)間、地點(diǎn)等關(guān)鍵元素,之后再與素材庫(kù)進(jìn)行匹配對(duì)接。類(lèi)似的NLP技術(shù)和核心思想也已經(jīng)用到我們的視頻結(jié)構(gòu)化工作里面,因?yàn)槲覀冏⒁獾揭曨l無(wú)外乎就是另一種信息的呈現(xiàn)方式。
雷鋒網(wǎng):可以聊聊資金的具體使用方向嗎?
康洪文:我們由清流資本投資。方向主要投入在人員與技術(shù)上,技術(shù)方面,目前主要用于基礎(chǔ)框架的搭建,比如視頻理解、數(shù)據(jù)結(jié)構(gòu)化與收集等。
雷鋒網(wǎng):智影最核心的支撐技術(shù)是什么 ?
康洪文:我們有三大核心技術(shù)支柱——計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理,以及大數(shù)據(jù)云計(jì)算平臺(tái)。
雷鋒網(wǎng):通過(guò)上傳文章或圖片的形式,來(lái)制作視頻,會(huì)不會(huì)產(chǎn)生由于資料源短缺而使視頻質(zhì)量不達(dá)標(biāo)的情況?
康洪文:資料稀少的問(wèn)題,正是我們可以解決的。比如我說(shuō)斯里蘭卡人頭攢動(dòng)的機(jī)場(chǎng)、熱帶海洋氣候的景象、當(dāng)?shù)仵r艷服裝,你在腦海里就能想象出具體場(chǎng)景。你能做到這樣,是因?yàn)槟阒坝邢嚓P(guān)類(lèi)似經(jīng)歷。而我們推出的AI也能達(dá)到如此,甚至更好。因?yàn)闄C(jī)器是有大數(shù)據(jù)的,它可以從龐大的素材庫(kù)里搜索對(duì)方的各類(lèi)特質(zhì)。
雷鋒網(wǎng):當(dāng)AI可以從大數(shù)據(jù)上獲得情景再現(xiàn),如果希望在視頻中加入主觀情緒色彩呢?
康洪文:細(xì)微情緒這方面在目前是稍難的,但在一定程度上也可以做到,即情感分析。比如說(shuō)我們講到特朗普,可能85%對(duì)他的言論都是否定的,15%是正面的,這種情感的識(shí)別和分析對(duì)于自然語(yǔ)言處理現(xiàn)在來(lái)說(shuō)已經(jīng)是非常成熟了。
雷鋒網(wǎng):當(dāng)視頻生成后,有沒(méi)有具體的評(píng)測(cè)機(jī)制對(duì)其判斷優(yōu)劣?
康洪文:我們有一個(gè)類(lèi)似谷歌的標(biāo)準(zhǔn),去定義視頻的合成質(zhì)量—— 一是我們匹配素材的相關(guān)度,一是整個(gè)視頻制作出來(lái)后的質(zhì)量。我們希望的目標(biāo)是能夠在未來(lái)的幾個(gè)月,做到相當(dāng)大部分自動(dòng)生成視頻是高質(zhì)量的、用戶(hù)可以直接拿來(lái)用的一個(gè)質(zhì)量水準(zhǔn)。
同時(shí),我們目前的系統(tǒng)是交互系統(tǒng),用戶(hù)是可以在視頻自動(dòng)生成基礎(chǔ)之上再進(jìn)行修改的。而作為一個(gè)客觀度量方式,就是觀測(cè)用戶(hù)有多少次修改,我們會(huì)有針對(duì)性地降低這個(gè)修改數(shù)量。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。
本專(zhuān)題其他文章