丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
AI+ 正文
發(fā)私信給李秀琴
發(fā)送

0

獨家丨慧川智能發(fā)布首款視頻理解API,要讓AI真正取代“剪片子”的人類?

本文作者: 李秀琴 編輯:溫曉樺 2017-07-08 17:34
導語:2分鐘視頻,人類需要花費4小時,而機器可以在30s內(nèi)自動生成并達到相同的效果。內(nèi)容視頻化時代終將來臨?

獨家丨慧川智能發(fā)布首款視頻理解API,要讓AI真正取代“剪片子”的人類?

慧川智能CEO:康洪文

在今日由中國計算機學會(CCF)主辦,雷鋒網(wǎng)和香港中文大學(深圳)承辦第二屆CCF-GAIR全球人工智能與機器人峰會的AI+專場上,慧川智能CEO康洪文在給大家?guī)?a href="http://www.ozgbdpf.cn/news/201707/n3SowpW9YofqtOeL.html" target="_self">“AI(愛)讓視頻更簡單”的主題演講的同時,也重磅首發(fā)了一款新的視頻內(nèi)容理解的API產(chǎn)品:智影·視頻理解API。

據(jù)康洪文介紹,這款API可利用深度學習技術(shù),對一段完整輸入的視頻中所涵蓋的圖像和視頻流進行模式識別、拆解和結(jié)構(gòu)化,從而對視頻內(nèi)容實現(xiàn)精確到每一幀的處理。

康洪文向雷鋒網(wǎng)表示,智影·視頻理解API目前已向第三方開發(fā)者、媒體、內(nèi)容制造者等群體開放使用。值得注意的是,該款API還有一個重要意義在于,可實現(xiàn)視頻內(nèi)容的結(jié)構(gòu)化。所以,這款API的開放在當前視頻內(nèi)容理解相對處于空白狀態(tài)下來看,頗具意義。

又一個從學術(shù)界走向產(chǎn)業(yè)界

獨家丨慧川智能發(fā)布首款視頻理解API,要讓AI真正取代“剪片子”的人類?

左:慧川智能創(chuàng)始人康洪文   右:CMU大學計算機科學和機器人研究所教授金出武雄

說起慧川智能的初創(chuàng)團隊,其實也有點意思:創(chuàng)始人康洪文,CMU博士,曾在微軟研究院工作,研究方向主要為AI及視頻理解;CTO黃健,賓州州立大學博士,曾與康洪文同為微軟研究院同事,此前曾在Google工作,研究方向為NLP和機器學習;首席架構(gòu)師劉曦,與康洪文同為CMU博士,曾在Conviva工作,研究方向主要為云計算和視頻大數(shù)據(jù)。

CMU作為計算機排名世界第一的學府,已經(jīng)給學術(shù)界和產(chǎn)業(yè)界輸送了非常多優(yōu)秀的人才。像計算機視覺鼻祖金出武雄,現(xiàn)任微軟全球執(zhí)行副總裁的沈向洋等,皆來自于此。巧合的在于,康洪文在CMU和微軟都有分別“師從”金出武雄和沈向洋的經(jīng)歷。

除去這些光彩的“緣分”,還得一提的是,2015年,三位初創(chuàng)成員就已有過一段與視頻AI處理相關(guān)的創(chuàng)業(yè)經(jīng)歷。兩年過后,康洪文、黃健和劉曦又因為一些行業(yè)態(tài)勢走在了一起,開啟了二次創(chuàng)業(yè)。

“目前短視頻非?;稹?/span>

“就視頻而言,90%的功勞歸屬于創(chuàng)意,只有5%有賴于'體力'。很多人就是被這些5%的體力給牽制住了?!笨岛槲南蚶卒h網(wǎng)如此說道。

了解到這一行業(yè)現(xiàn)象,一與康洪文研究方向和從業(yè)經(jīng)歷有關(guān),二則是與湖南衛(wèi)視的合作讓其對此深有體會。往往一檔大型綜藝節(jié)目,一個小時的視頻,背后往往需要上千個小時的幕后剪輯工作??岛槲陌l(fā)現(xiàn),在這里邊,其實有很多繁瑣的工作是完全可以依賴機器來完成的,并且機器的速度和效果會更快更好。

于是,康洪文開始和湖南衛(wèi)視、浙江衛(wèi)視等有了合作,幫他們做了一些簡化工作流程的系統(tǒng)和產(chǎn)品。而智影正是在這些系統(tǒng)之上衍生出來的一款AI產(chǎn)品。

不過,這還不夠。

“目前短視頻非常火”,康洪文有點興奮。

暫不提月活用戶已超20億的Facebook,單就國內(nèi)而言,網(wǎng)絡(luò)視頻活躍用戶已達5.5億。微信每天產(chǎn)出100萬篇以上的公號文章,其中就有67%的內(nèi)容適合生成視頻。而隨著機器學習、CV和NLP應(yīng)用的不斷拓展,用戶正慢慢從圖像、文字轉(zhuǎn)向視頻和短視頻使用,大家越來越依賴大信息量的視頻內(nèi)容。

從這一行業(yè)大趨上來看,短視頻終將爆發(fā)不是沒有道理。然而,AI業(yè)界對文本、圖像的處理技術(shù)和算法已漸趨成熟,但對視頻信息的理解卻暫時處于空白狀態(tài)。業(yè)內(nèi)甚至有人認為“視頻是一種暗物質(zhì)”,機器無法知道視頻里究竟有哪些內(nèi)容,或者視頻之間有哪些聯(lián)系?!八鼈冋剂巳W(wǎng)90%的存儲空間,然而這種結(jié)構(gòu)化的數(shù)據(jù)卻完全沒有。”

市場的痛點就此形成。這一切都讓一直深耕在CV領(lǐng)域的康洪文感覺到,既是挑戰(zhàn),也是機遇。

2分鐘視頻,人力4小時剪輯、機器只要30s,效果一樣,如何做到?

康洪文給雷鋒網(wǎng)列了這樣一項數(shù)值,2分鐘的視頻,人類需要花費4小時在素材的收集、剪輯和渲染上,直至整個視頻出爐,而智影可在30s內(nèi)自動生成這段視頻并達到相同的效果。

如何實現(xiàn)?

智能視頻技術(shù)的學術(shù)積累

獨家丨慧川智能發(fā)布首款視頻理解API,要讓AI真正取代“剪片子”的人類?

在1990年以前,學術(shù)業(yè)界開始有了一些關(guān)于視頻合成技術(shù)和物體檢測識別的討論和研究。2000年以后,特別是2005年左右,整個學術(shù)業(yè)界開始泛起了對視頻合成,視頻內(nèi)容理解的研究。據(jù)Google學術(shù)查閱的資料表明,在2005年以前,關(guān)于視頻內(nèi)容理解這一項就有4530條結(jié)果的收錄。近十年來,這一學術(shù)搜索結(jié)果已增至17000條。同理,視頻合成、物體檢測識別、機器學習和NLP的理論研究也正如大家感受到的一樣呈井噴態(tài)勢。

這些學術(shù)研究成果確實給AI業(yè)界的創(chuàng)業(yè)者們搭起了架子。

視頻數(shù)據(jù)結(jié)構(gòu)化的優(yōu)勢

此外,托賴初創(chuàng)團隊在CMU的學術(shù)研究成果,以及在Facebook、微軟、Google等科技巨擘的從業(yè)經(jīng)歷,慧川智能可以從各個公開的數(shù)據(jù)源里獲得全網(wǎng)的數(shù)據(jù),并借助自身AI算法的積累對其進行內(nèi)容結(jié)構(gòu)化的處理。

獨家丨慧川智能發(fā)布首款視頻理解API,要讓AI真正取代“剪片子”的人類?

據(jù)康洪文介紹,慧川智能在此其中還實現(xiàn)了一項新的Research成果,也是今日康洪文在CCF-GAIR 2017會場上發(fā)布的重頭戲:根據(jù)輸入的一段完整視頻,機器能夠利用深度學習對其涵蓋的圖像和視頻流進行模式識別,拆解和結(jié)構(gòu)化,從而對視頻內(nèi)容實現(xiàn)精確到每一幀的處理。比如,在20-40幀出現(xiàn)了一輛蘭博基尼汽車,在60-95幀出現(xiàn)了一段兩個人在對話。之后,從100-120幀,是一輛商務(wù)客機滑行出來直至結(jié)束......

這種算法可幫助機器很好的理解視頻內(nèi)容,從而實現(xiàn)更高精確度的視頻的智能化處理。

所以,在數(shù)據(jù)結(jié)構(gòu)化相對空白的行業(yè)態(tài)勢下,相較其他公司而言,這點算是慧川智能的一大優(yōu)勢。

背后的CV、NLP、機器學習

不過,視頻數(shù)據(jù)結(jié)構(gòu)化只能算是關(guān)鍵助力劑的一種,讓智影做到如上小標題的成績依然離不開架構(gòu)在智影背后的機器學習、CV、NLP和信息檢索貢獻。

具體的運行原理可看這張圖:

獨家丨慧川智能發(fā)布首款視頻理解API,要讓AI真正取代“剪片子”的人類?

據(jù)康洪文介紹,智影的運行流程有以下4步:

·  文本分析

·  素材匹配

·  在線剪輯、預覽

·  云端視頻渲染

其中關(guān)鍵的基礎(chǔ)步驟在前面2個。在一個擁有足量信息和內(nèi)容的數(shù)據(jù)庫里,當一篇文章被上傳到機器里,在NLP和機器學習的幫助下,機器會先對其進行文本分析,抓取文本中的如時間、地點、人物、事件等關(guān)鍵要素,并予以理解。接續(xù),機器會進入“素材匹配”階段。因為這些素材本身是不帶標簽信息的,所以系統(tǒng)需要進入其中找到這些相關(guān)信息。比如,在全網(wǎng)所有的圖片、社交媒體、視頻片段和原聲廣告中,將某個特定的人出現(xiàn)的場景都截取出來,這其中就需要CV的助力。完成了兩項最基礎(chǔ)也最難的工作之外,機器就能接續(xù)實現(xiàn)在線剪輯、預覽和渲染,直至生成整個視頻。當然,整個過程都免不了機器學習的支持。

“相對其他公司來說,智影這款API產(chǎn)品在物體識別的范圍、種類、精度和穩(wěn)健性上都算是最領(lǐng)先的?!笨岛槲念H有底氣的如此表述。

內(nèi)容視頻化會給未來產(chǎn)業(yè)結(jié)構(gòu)帶來哪些影響?

當問及這個問題時,康洪文向雷鋒網(wǎng)表示,這是一個很大的問題。

“它應(yīng)該會帶來整個產(chǎn)業(yè)結(jié)構(gòu)的改變?!笨岛槲哪肎oogle舉了個例子。

Google之所以能成為Google,一大原因在于其對文本的結(jié)構(gòu)化處理的能力。以Google Search為核心,在其周圍還有Index技術(shù)、Adwords業(yè)務(wù)等,所有這些都建立在對文本的深度理解之上。

然而,隨著用戶越來越依賴大信息量的視頻內(nèi)容,并逐漸習慣短視頻對文本和圖像的取代,在目前視頻內(nèi)容暫時還缺失結(jié)構(gòu)化方案的過渡階段,在行業(yè)發(fā)展到一定程度之后,必然會產(chǎn)生一類對視頻內(nèi)容提供結(jié)構(gòu)化或標準化處理的方案商公司。

而這個過程有趣的地方在于,提供AI技術(shù)方案商的公司不會“閉門造車”或“自個玩自個”,他們會逐漸將自己的應(yīng)用開放給第三方開發(fā)者,媒體甚至所有人(慧川智能已經(jīng)將智影開放出去了)。當“信息視頻化”發(fā)展到一定規(guī)模之后,必將有更多的人參與進來并使用這些產(chǎn)品,這一過程又將產(chǎn)生足量的數(shù)據(jù),反過來即會刺激整個行業(yè)的爆發(fā)性增長,直至巨頭的出現(xiàn)。

康洪文說,“如果我們是賦能的一方的話,肯定會創(chuàng)造更大的價值?!?/p>

結(jié)語

談及未來可能會遭遇的競爭,康洪文表現(xiàn)的非常自信,“因為任何一家AI公司,同一種算法是不可能立馬被應(yīng)用在其他領(lǐng)域之上的。每個應(yīng)用領(lǐng)域都能催生很多的技術(shù)細節(jié),所有公司都需要持續(xù)不斷的去解決技術(shù)上出現(xiàn)的挑戰(zhàn)和困難。它跟產(chǎn)品經(jīng)理時代,或者運營驅(qū)動產(chǎn)品的公司不一樣,不是看了它的產(chǎn)品模式就能學會的?!?/p>

事實上,目前國內(nèi)也有一些創(chuàng)業(yè)公司在做一些消費級視頻的AI應(yīng)用,如給視頻信息做標簽化從而達到精準廣告投放的效果。在康洪文看來,這些技術(shù)應(yīng)用更多的是一種“任務(wù)驅(qū)動”。機器可能會對命令型任務(wù)完成的很好,但仍然不會增加對視頻內(nèi)容的理解。

隨著機器學習能力的增強,AI在一些專項任務(wù)上已經(jīng)表現(xiàn)出超越人類的特質(zhì),如AlphaGo對弈,CT圖像的識別,圖片情景的分類等。一直以來,人類對AI的理解是僅限于做一些機械化的工作,但在康洪文看來,隨著機器人對專項任務(wù)的本質(zhì)的理解加深之后,就能獲得創(chuàng)造力的延伸,如譜曲機器人可達到以假亂真的程度,機器人寫詩超過人類等等。AI在其“可做事情”和“不可做事情”之間,界限正變得慢慢模糊。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

記者

跟蹤Fintech和區(qū)塊鏈(微信:cqmm16,備注身份姓名來意,thx)
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說