0
本文作者: 郭思 | 2023-12-07 14:55 |
作者丨郭思
編輯丨陳彩嫻
大模型的創(chuàng)業(yè)進(jìn)入2.0階段,除了此前如雨后春筍出現(xiàn)的自然語言公司之外,瞄準(zhǔn)視覺大模型應(yīng)用的創(chuàng)業(yè)公司也陸續(xù)成立。
近日,AI 科技評論獨(dú)家獲悉:IEEE Fellow、香港大學(xué)教授徐東成立了一家 AI 公司——徐圖智能,定位是基于視覺大模型技術(shù),提供文生視頻等服務(wù)。
企查查信息顯示,該公司于今年6月成立,仍處于注冊狀態(tài)。
團(tuán)隊成員方面,徐東擔(dān)任徐圖智能 CEO,他于2001年和2005年在中國科學(xué)技術(shù)大學(xué)取得學(xué)士和博士學(xué)位,目前擔(dān)任香港大學(xué)計算機(jī)系教授。
他曾在微軟亞洲研究院、香港中文大學(xué)和哥倫比亞大學(xué)從事研究工作,并在南洋理工大學(xué)和悉尼大學(xué)任教。徐東教授在計算機(jī)視覺、多媒體信號處理以及機(jī)器學(xué)習(xí)等領(lǐng)域做出了重要貢獻(xiàn),在IEEE Transactions和國際頂級會議上發(fā)表了150余篇論文,其中兩篇論文分別獲得T-MM 2014最佳論文獎和CVPR 2010最佳學(xué)生論文獎。徐東教授是IEEE和IAPR Fellow,于2018和2021年兩次入選科睿唯安 (Clarivate Analytics)高被引學(xué)者,同時也擔(dān)任ACM Computing Surveys (CSUR)資深副主編。
在徐東加碼之下,徐圖智能在文生視頻領(lǐng)域有強(qiáng)大的技術(shù)基礎(chǔ),其團(tuán)隊或也絕大多數(shù)來自香港大學(xué)、商湯等名?;蛎?。
長久以來,相對于文本、代碼和圖片生成,視頻生成(Text-to-Video)也一直被認(rèn)為是 AIGC 的“高地”,面臨龐大的計算需求、高質(zhì)量數(shù)據(jù)集短缺、可控性等挑戰(zhàn)。所以對于視頻的GPT時代,人們一直抱有期待但遲遲沒見其到來的跡象。
但近期,視頻領(lǐng)域似乎迎來了新的春風(fēng)。Runway 先后發(fā)布了 Gen1、Gen2, Motion Brush 則近期朝視頻可靠性向前了一步,Stability AI 也發(fā)布了自己的首個 Text-to-Video 模型 Stable Video Diffusion。今年 7 月,Pika Labs 在 Discord 推出服務(wù)器,并在幾個月時間內(nèi)收獲了 50 萬用戶。
不過相比起文本和圖像領(lǐng)域,視頻創(chuàng)業(yè)要想取得突破一段還有漫長的路程。行業(yè)一致認(rèn)為,視頻生成的主要難題在于時長,跟時長相關(guān)的是動作的意義,不僅要延長視頻制作的時長,還要關(guān)注動作的意義,看它到底能做多復(fù)雜的動作。
其次,視頻的清晰度也需要進(jìn)一步提高。盡管清晰度方面已經(jīng)有突破,但還沒有提高到電影級的水平,現(xiàn)在生成的視頻一般是720p分辨率,視頻的流暢性也不夠理想,特別是一些細(xì)節(jié)的texture。
而對于Pika Labs創(chuàng)始人提出的視頻生成處于類似GPT-2的時期,徐東則在2023年新一代人工智能創(chuàng)業(yè)大賽的主題演講中提出,視頻生成暫時還無法直接定義為來到了GPT時代,但可以肯定的是已經(jīng)初現(xiàn)曙光,這或許也和徐東此次創(chuàng)立文生視頻創(chuàng)業(yè)公司息息相關(guān)。
大模型創(chuàng)業(yè)公司的機(jī)會在哪里?文生視頻領(lǐng)域能否迎來GPT時刻的?歡迎添加作者微信(lionceau2046)交流,互通有無。
雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)(公眾號:雷峰網(wǎng))
雷峰網(wǎng) 雷峰網(wǎng) 雷峰網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。