丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

<label id="qtdnu"></label>

<li id="qtdnu"><legend id="qtdnu"></legend></li>

<span id="qtdnu"></span>

<bdo id="q5ecq"><tbody id="q5ecq"></tbody></bdo>

<li id="q5ecq"></li>

<span id="q5ecq"></span>

您正在使用IE低版瀏覽器，為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗(yàn)，強(qiáng)烈建議使用更快更安全的瀏覽器

此為臨時(shí)鏈接，僅用于文章預(yù)覽，將在時(shí)失效

AI+ 正文

發(fā)私信給李秀琴

發(fā)送

0

獨(dú)家丨慧川智能發(fā)布首款視頻理解API，要讓AI真正取代“剪片子”的人類？

本文作者：李秀琴

編輯：溫曉樺

2017-07-08 17:34

導(dǎo)語：2分鐘視頻，人類需要花費(fèi)4小時(shí)，而機(jī)器可以在30s內(nèi)自動(dòng)生成并達(dá)到相同的效果。內(nèi)容視頻化時(shí)代終將來臨？

獨(dú)家丨慧川智能發(fā)布首款視頻理解API，要讓AI真正取代“剪片子”的人類？

慧川智能CEO：康洪文

在今日由中國計(jì)算機(jī)學(xué)會(huì)（CCF）主辦，雷鋒網(wǎng)和香港中文大學(xué)（深圳）承辦第二屆CCF-GAIR全球人工智能與機(jī)器人峰會(huì)的AI+專場上，慧川智能CEO康洪文在給大家?guī)?a href="http://www.ozgbdpf.cn/news/201707/n3SowpW9YofqtOeL.html" target="_self">“AI(愛）讓視頻更簡單”的主題演講的同時(shí)，也重磅首發(fā)了一款新的視頻內(nèi)容理解的API產(chǎn)品：智影·視頻理解API。

據(jù)康洪文介紹，這款A(yù)PI可利用深度學(xué)習(xí)技術(shù)，對一段完整輸入的視頻中所涵蓋的圖像和視頻流進(jìn)行模式識別、拆解和結(jié)構(gòu)化，從而對視頻內(nèi)容實(shí)現(xiàn)精確到每一幀的處理。

康洪文向雷鋒網(wǎng)表示，智影·視頻理解API目前已向第三方開發(fā)者、媒體、內(nèi)容制造者等群體開放使用。值得注意的是，該款A(yù)PI還有一個(gè)重要意義在于，可實(shí)現(xiàn)視頻內(nèi)容的結(jié)構(gòu)化。所以，這款A(yù)PI的開放在當(dāng)前視頻內(nèi)容理解相對處于空白狀態(tài)下來看，頗具意義。

又一個(gè)從學(xué)術(shù)界走向產(chǎn)業(yè)界

獨(dú)家丨慧川智能發(fā)布首款視頻理解API，要讓AI真正取代“剪片子”的人類？

左：慧川智能創(chuàng)始人康洪文右：CMU大學(xué)計(jì)算機(jī)科學(xué)和機(jī)器人研究所教授金出武雄

說起慧川智能的初創(chuàng)團(tuán)隊(duì)，其實(shí)也有點(diǎn)意思：創(chuàng)始人康洪文，CMU博士，曾在微軟研究院工作，研究方向主要為AI及視頻理解；CTO黃健，賓州州立大學(xué)博士，曾與康洪文同為微軟研究院同事，此前曾在Google工作，研究方向?yàn)镹LP和機(jī)器學(xué)習(xí)；首席架構(gòu)師劉曦，與康洪文同為CMU博士，曾在Conviva工作，研究方向主要為云計(jì)算和視頻大數(shù)據(jù)。

CMU作為計(jì)算機(jī)排名世界第一的學(xué)府，已經(jīng)給學(xué)術(shù)界和產(chǎn)業(yè)界輸送了非常多優(yōu)秀的人才。像計(jì)算機(jī)視覺鼻祖金出武雄，現(xiàn)任微軟全球執(zhí)行副總裁的沈向洋等，皆來自于此。巧合的在于，康洪文在CMU和微軟都有分別“師從”金出武雄和沈向洋的經(jīng)歷。

除去這些光彩的“緣分”，還得一提的是，2015年，三位初創(chuàng)成員就已有過一段與視頻AI處理相關(guān)的創(chuàng)業(yè)經(jīng)歷。兩年過后，康洪文、黃健和劉曦又因?yàn)橐恍┬袠I(yè)態(tài)勢走在了一起，開啟了二次創(chuàng)業(yè)。

“目前短視頻非常火”

“就視頻而言，90%的功勞歸屬于創(chuàng)意，只有5%有賴于'體力'。很多人就是被這些5%的體力給牽制住了?！笨岛槲南蚶卒h網(wǎng)如此說道。

了解到這一行業(yè)現(xiàn)象，一與康洪文研究方向和從業(yè)經(jīng)歷有關(guān)，二則是與湖南衛(wèi)視的合作讓其對此深有體會(huì)。往往一檔大型綜藝節(jié)目，一個(gè)小時(shí)的視頻，背后往往需要上千個(gè)小時(shí)的幕后剪輯工作?？岛槲陌l(fā)現(xiàn)，在這里邊，其實(shí)有很多繁瑣的工作是完全可以依賴機(jī)器來完成的，并且機(jī)器的速度和效果會(huì)更快更好。

于是，康洪文開始和湖南衛(wèi)視、浙江衛(wèi)視等有了合作，幫他們做了一些簡化工作流程的系統(tǒng)和產(chǎn)品。而智影正是在這些系統(tǒng)之上衍生出來的一款A(yù)I產(chǎn)品。

不過，這還不夠。

“目前短視頻非?；稹?，康洪文有點(diǎn)興奮。

暫不提月活用戶已超20億的Facebook，單就國內(nèi)而言，網(wǎng)絡(luò)視頻活躍用戶已達(dá)5.5億。微信每天產(chǎn)出100萬篇以上的公號文章，其中就有67%的內(nèi)容適合生成視頻。而隨著機(jī)器學(xué)習(xí)、CV和NLP應(yīng)用的不斷拓展，用戶正慢慢從圖像、文字轉(zhuǎn)向視頻和短視頻使用，大家越來越依賴大信息量的視頻內(nèi)容。

從這一行業(yè)大趨上來看，短視頻終將爆發(fā)不是沒有道理。然而，AI業(yè)界對文本、圖像的處理技術(shù)和算法已漸趨成熟，但對視頻信息的理解卻暫時(shí)處于空白狀態(tài)。業(yè)內(nèi)甚至有人認(rèn)為“視頻是一種暗物質(zhì)”，機(jī)器無法知道視頻里究竟有哪些內(nèi)容，或者視頻之間有哪些聯(lián)系?！八鼈冋剂巳W(wǎng)90%的存儲空間，然而這種結(jié)構(gòu)化的數(shù)據(jù)卻完全沒有?！?/p>

市場的痛點(diǎn)就此形成。這一切都讓一直深耕在CV領(lǐng)域的康洪文感覺到，既是挑戰(zhàn)，也是機(jī)遇。

2分鐘視頻，人力4小時(shí)剪輯、機(jī)器只要30s，效果一樣，如何做到？

康洪文給雷鋒網(wǎng)列了這樣一項(xiàng)數(shù)值，2分鐘的視頻，人類需要花費(fèi)4小時(shí)在素材的收集、剪輯和渲染上，直至整個(gè)視頻出爐，而智影可在30s內(nèi)自動(dòng)生成這段視頻并達(dá)到相同的效果。

如何實(shí)現(xiàn)？

智能視頻技術(shù)的學(xué)術(shù)積累

獨(dú)家丨慧川智能發(fā)布首款視頻理解API，要讓AI真正取代“剪片子”的人類？

在1990年以前，學(xué)術(shù)業(yè)界開始有了一些關(guān)于視頻合成技術(shù)和物體檢測識別的討論和研究。2000年以后，特別是2005年左右，整個(gè)學(xué)術(shù)業(yè)界開始泛起了對視頻合成，視頻內(nèi)容理解的研究。據(jù)Google學(xué)術(shù)查閱的資料表明，在2005年以前，關(guān)于視頻內(nèi)容理解這一項(xiàng)就有4530條結(jié)果的收錄。近十年來，這一學(xué)術(shù)搜索結(jié)果已增至17000條。同理，視頻合成、物體檢測識別、機(jī)器學(xué)習(xí)和NLP的理論研究也正如大家感受到的一樣呈井噴態(tài)勢。

這些學(xué)術(shù)研究成果確實(shí)給AI業(yè)界的創(chuàng)業(yè)者們搭起了架子。

視頻數(shù)據(jù)結(jié)構(gòu)化的優(yōu)勢

此外，托賴初創(chuàng)團(tuán)隊(duì)在CMU的學(xué)術(shù)研究成果，以及在Facebook、微軟、Google等科技巨擘的從業(yè)經(jīng)歷，慧川智能可以從各個(gè)公開的數(shù)據(jù)源里獲得全網(wǎng)的數(shù)據(jù)，并借助自身AI算法的積累對其進(jìn)行內(nèi)容結(jié)構(gòu)化的處理。

獨(dú)家丨慧川智能發(fā)布首款視頻理解API，要讓AI真正取代“剪片子”的人類？

據(jù)康洪文介紹，慧川智能在此其中還實(shí)現(xiàn)了一項(xiàng)新的Research成果，也是今日康洪文在CCF-GAIR 2017會(huì)場上發(fā)布的重頭戲：根據(jù)輸入的一段完整視頻，機(jī)器能夠利用深度學(xué)習(xí)對其涵蓋的圖像和視頻流進(jìn)行模式識別，拆解和結(jié)構(gòu)化，從而對視頻內(nèi)容實(shí)現(xiàn)精確到每一幀的處理。比如，在20-40幀出現(xiàn)了一輛蘭博基尼汽車，在60-95幀出現(xiàn)了一段兩個(gè)人在對話。之后，從100-120幀，是一輛商務(wù)客機(jī)滑行出來直至結(jié)束......

這種算法可幫助機(jī)器很好的理解視頻內(nèi)容，從而實(shí)現(xiàn)更高精確度的視頻的智能化處理。

所以，在數(shù)據(jù)結(jié)構(gòu)化相對空白的行業(yè)態(tài)勢下，相較其他公司而言，這點(diǎn)算是慧川智能的一大優(yōu)勢。

背后的CV、NLP、機(jī)器學(xué)習(xí)

不過，視頻數(shù)據(jù)結(jié)構(gòu)化只能算是關(guān)鍵助力劑的一種，讓智影做到如上小標(biāo)題的成績依然離不開架構(gòu)在智影背后的機(jī)器學(xué)習(xí)、CV、NLP和信息檢索貢獻(xiàn)。

具體的運(yùn)行原理可看這張圖：

獨(dú)家丨慧川智能發(fā)布首款視頻理解API，要讓AI真正取代“剪片子”的人類？

據(jù)康洪文介紹，智影的運(yùn)行流程有以下4步：

· 文本分析
· 素材匹配
· 在線剪輯、預(yù)覽
· 云端視頻渲染

其中關(guān)鍵的基礎(chǔ)步驟在前面2個(gè)。在一個(gè)擁有足量信息和內(nèi)容的數(shù)據(jù)庫里，當(dāng)一篇文章被上傳到機(jī)器里，在NLP和機(jī)器學(xué)習(xí)的幫助下，機(jī)器會(huì)先對其進(jìn)行文本分析，抓取文本中的如時(shí)間、地點(diǎn)、人物、事件等關(guān)鍵要素，并予以理解。接續(xù)，機(jī)器會(huì)進(jìn)入“素材匹配”階段。因?yàn)檫@些素材本身是不帶標(biāo)簽信息的，所以系統(tǒng)需要進(jìn)入其中找到這些相關(guān)信息。比如，在全網(wǎng)所有的圖片、社交媒體、視頻片段和原聲廣告中，將某個(gè)特定的人出現(xiàn)的場景都截取出來，這其中就需要CV的助力。完成了兩項(xiàng)最基礎(chǔ)也最難的工作之外，機(jī)器就能接續(xù)實(shí)現(xiàn)在線剪輯、預(yù)覽和渲染，直至生成整個(gè)視頻。當(dāng)然，整個(gè)過程都免不了機(jī)器學(xué)習(xí)的支持。

“相對其他公司來說，智影這款A(yù)PI產(chǎn)品在物體識別的范圍、種類、精度和穩(wěn)健性上都算是最領(lǐng)先的?！笨岛槲念H有底氣的如此表述。

內(nèi)容視頻化會(huì)給未來產(chǎn)業(yè)結(jié)構(gòu)帶來哪些影響？

當(dāng)問及這個(gè)問題時(shí)，康洪文向雷鋒網(wǎng)表示，這是一個(gè)很大的問題。

“它應(yīng)該會(huì)帶來整個(gè)產(chǎn)業(yè)結(jié)構(gòu)的改變?！笨岛槲哪肎oogle舉了個(gè)例子。

Google之所以能成為Google，一大原因在于其對文本的結(jié)構(gòu)化處理的能力。以Google Search為核心，在其周圍還有Index技術(shù)、Adwords業(yè)務(wù)等，所有這些都建立在對文本的深度理解之上。

然而，隨著用戶越來越依賴大信息量的視頻內(nèi)容，并逐漸習(xí)慣短視頻對文本和圖像的取代，在目前視頻內(nèi)容暫時(shí)還缺失結(jié)構(gòu)化方案的過渡階段，在行業(yè)發(fā)展到一定程度之后，必然會(huì)產(chǎn)生一類對視頻內(nèi)容提供結(jié)構(gòu)化或標(biāo)準(zhǔn)化處理的方案商公司。

而這個(gè)過程有趣的地方在于，提供AI技術(shù)方案商的公司不會(huì)“閉門造車”或“自個(gè)玩自個(gè)”，他們會(huì)逐漸將自己的應(yīng)用開放給第三方開發(fā)者，媒體甚至所有人（慧川智能已經(jīng)將智影開放出去了）。當(dāng)“信息視頻化”發(fā)展到一定規(guī)模之后，必將有更多的人參與進(jìn)來并使用這些產(chǎn)品，這一過程又將產(chǎn)生足量的數(shù)據(jù)，反過來即會(huì)刺激整個(gè)行業(yè)的爆發(fā)性增長，直至巨頭的出現(xiàn)。

康洪文說，“如果我們是賦能的一方的話，肯定會(huì)創(chuàng)造更大的價(jià)值?！?/p>

結(jié)語

談及未來可能會(huì)遭遇的競爭，康洪文表現(xiàn)的非常自信，“因?yàn)槿魏我患褹I公司，同一種算法是不可能立馬被應(yīng)用在其他領(lǐng)域之上的。每個(gè)應(yīng)用領(lǐng)域都能催生很多的技術(shù)細(xì)節(jié)，所有公司都需要持續(xù)不斷的去解決技術(shù)上出現(xiàn)的挑戰(zhàn)和困難。它跟產(chǎn)品經(jīng)理時(shí)代，或者運(yùn)營驅(qū)動(dòng)產(chǎn)品的公司不一樣，不是看了它的產(chǎn)品模式就能學(xué)會(huì)的?！?/p>

事實(shí)上，目前國內(nèi)也有一些創(chuàng)業(yè)公司在做一些消費(fèi)級視頻的AI應(yīng)用，如給視頻信息做標(biāo)簽化從而達(dá)到精準(zhǔn)廣告投放的效果。在康洪文看來，這些技術(shù)應(yīng)用更多的是一種“任務(wù)驅(qū)動(dòng)”。機(jī)器可能會(huì)對命令型任務(wù)完成的很好，但仍然不會(huì)增加對視頻內(nèi)容的理解。

隨著機(jī)器學(xué)習(xí)能力的增強(qiáng)，AI在一些專項(xiàng)任務(wù)上已經(jīng)表現(xiàn)出超越人類的特質(zhì)，如AlphaGo對弈，CT圖像的識別，圖片情景的分類等。一直以來，人類對AI的理解是僅限于做一些機(jī)械化的工作，但在康洪文看來，隨著機(jī)器人對專項(xiàng)任務(wù)的本質(zhì)的理解加深之后，就能獲得創(chuàng)造力的延伸，如譜曲機(jī)器人可達(dá)到以假亂真的程度，機(jī)器人寫詩超過人類等等。AI在其“可做事情”和“不可做事情”之間，界限正變得慢慢模糊。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

3人收藏

分享：

相關(guān)文章

李秀琴

記者

跟蹤Fintech和區(qū)塊鏈（微信：cqmm16，備注身份姓名來意，thx）

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章

最新文章

熱門搜索

智能駕駛數(shù)據(jù) 硅谷 Groupon 網(wǎng)易 Square 酷派具身智能 Model S CPU Netflix

為了您的賬戶安全，請驗(yàn)證郵箱

您的郵箱還未驗(yàn)證,完成可獲20積分喲！

重發(fā)郵箱修改郵箱

請驗(yàn)證您的郵箱

立即驗(yàn)證

完善賬號信息

您的賬號已經(jīng)綁定，現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄

立即設(shè)置 以后再說

<bdo id="dcb4h"></bdo><span id="dcb4h"><noframes id="dcb4h"><bdo id="dcb4h"></bdo>