丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
業(yè)界 正文
發(fā)私信給王悅
發(fā)送

0

對(duì)話程斌、劉洛麒:大模型未必是坦途,但一定是方向

本文作者: 王悅 2023-10-31 21:13
導(dǎo)語:這一波生成式 AI 技術(shù)的爆發(fā),讓我們 AI 從業(yè)者看到了 AGI(通用人工智能)的曙光。

對(duì)話程斌、劉洛麒:大模型未必是坦途,但一定是方向

“這一波生成式 AI 技術(shù)的爆發(fā),讓我們 AI 從業(yè)者看到了 AGI(通用人工智能)的曙光?!痹诹牡浇衲晟墒?AI 的行業(yè)大勢(shì)時(shí),F(xiàn)asion.AI 創(chuàng)始人程斌如此對(duì) AI 科技評(píng)論說到。

坐在他旁邊的,是美圖影像研究院(MT Lab)負(fù)責(zé)人劉洛麒。在北京海淀的量子銀座大廈,這兩位在人工智能行業(yè)深耕十?dāng)?shù)載、目前均在生成式AI領(lǐng)域開拓的一線從業(yè)者,與 AI 科技評(píng)論一起,展開了一場(chǎng)別開生面的對(duì)談。

按輩分來算,程斌是劉洛麒的師兄,兩人博士均畢業(yè)于新加坡國立大學(xué),師從人工智能領(lǐng)域國際頂級(jí)專家顏水成教授。師徒三人也曾與其他同伴一起加入 360,創(chuàng)立 360 人工智能研究院,將人工智能技術(shù)廣泛落地于智能硬件、金融風(fēng)控、直播和短視頻等業(yè)務(wù)場(chǎng)景中。

2019 年,隨著顏水成離開 360,已經(jīng)有過一次創(chuàng)業(yè)經(jīng)歷的程斌,也離職開啟了自己的二次創(chuàng)業(yè)之路。其創(chuàng)立的 Fasion.AI,是國內(nèi)較早利用生成式 AI 技術(shù)進(jìn)行圖片和視頻內(nèi)容生產(chǎn)的初創(chuàng)公司,尤其是在基于超寫實(shí) 2D 數(shù)字人的視頻內(nèi)容合成領(lǐng)域頗有建樹,其產(chǎn)品已經(jīng)在教育、營銷、直播、客服等領(lǐng)域廣泛應(yīng)用。

兩年后,曾在博士期間主攻人臉、以“美顏”為主題拿到過 ACM Multimedia Best Paper Award 的劉洛麒,加入了國內(nèi)最懂“美學(xué)” 、以“美”為內(nèi)核的美圖公司,負(fù)責(zé)核心算法研發(fā)工作,帶領(lǐng)團(tuán)隊(duì)不斷打造“ AI 時(shí)代的影像生產(chǎn)力工具”,并于今年推出國內(nèi)首個(gè)懂美學(xué)的AI視覺大模型 MiracleVision,助力美圖近期業(yè)績和股價(jià)的雙重突破。

本次,針對(duì)時(shí)下大火的 AIGC 和數(shù)字人賽道,AI 科技評(píng)論請(qǐng)到了這兩位業(yè)界人士分享他們對(duì)于今天人工智能賽道的理解和洞見。

以下是 AI 科技評(píng)論與程斌、劉洛麒二人的對(duì)話實(shí)錄,AI 科技評(píng)論在不改變?cè)獾那疤嵯?,做了編輯和調(diào)整。


大模型未必是坦途,但一定是方向

AI 科技評(píng)論:大模型會(huì)是人工智能走向 AGI 的坦途嗎?

劉洛麒:目前來看,大模型應(yīng)該是走在正確的方向上。我們可以進(jìn)行一種生物學(xué)的類比,人類是基于碳基的生物,機(jī)器是由硅基制造,雖然兩者的底層是非常不一樣的,但最終硅基結(jié)構(gòu)是否也有可能像碳基構(gòu)造一樣,產(chǎn)生出一定的智能性?就像人類的大腦中大約有數(shù)百億個(gè)神經(jīng)元,每個(gè)神經(jīng)元都與其它數(shù)千個(gè)神經(jīng)元相連,可以想象連接路徑的龐大與復(fù)雜程度。

大模型的參數(shù)量雖然能夠達(dá)到百億的量級(jí),但是它連接的拓?fù)浣Y(jié)構(gòu)都是規(guī)整的,相對(duì)比較簡單,連接數(shù)也不夠多。如果有一天,大模型的參數(shù)量和連接數(shù)也達(dá)到或者超過人腦的規(guī)模,計(jì)算能力相比現(xiàn)在也有了極大的提高,那是否有可能實(shí)現(xiàn)跟人類大腦接近的智能,我們是可以憧憬下的。

所以,當(dāng)大模型的理解、推理、學(xué)習(xí)等多種能力達(dá)到一定程度之后,也許就能實(shí)現(xiàn) AGI 了。人工智能的通用性在不斷提高,但要實(shí)現(xiàn)真正的 AGI 還需要時(shí)間。大模型也是我們邁向通用人工智能的重要一步,為未來的 AI 研究和發(fā)展開辟了新的道路。

程斌:回顧歷史,人工智能行業(yè)其實(shí)一直在追求AGI的道路上孜孜不倦,歷經(jīng)了幾十年的研究和實(shí)踐才走到了今天。對(duì)于AI從業(yè)者來講,上一波深度學(xué)習(xí) AI1.0 的時(shí)代,大多數(shù)人還是會(huì)用比較理智謹(jǐn)慎的態(tài)度去看待 AGI。

那個(gè)時(shí)候,我們能實(shí)現(xiàn)的更多還是在限定場(chǎng)景下的淺層智能,但是距離真正的通用人工智能還是挺遠(yuǎn)的。然而這一波生成式AI技術(shù)的爆發(fā),真正讓我們AI從業(yè)者感覺到 AGI 的曙光。

有個(gè)很典型的例子, NLP 在上一波深度學(xué)習(xí)時(shí)代并不是一個(gè)被解決得很好的問題,大家認(rèn)為這個(gè)是極具挑戰(zhàn)的問題,因?yàn)闋砍兜秸J(rèn)知、理解、邏輯推理和生成這些復(fù)雜能力。但是大模型上來就在這個(gè)原以為最難的問題上取得了巨大的突破,甚至有一點(diǎn)降維打擊的感覺,這個(gè)給 AI 從業(yè)者們帶來非常大的震撼。

當(dāng)然,目前我們距離真正的 AGI 還有明顯的難題等待解決,例如大模型還需要面對(duì)可解釋性不明確、輸出結(jié)果不可控、泛化能力不足、多模態(tài)能力局限等一系列問題,進(jìn)而會(huì)帶來一些倫理和規(guī)范上的約束。

從現(xiàn)階段的發(fā)展來看,大模型雖然在提高自然語言處理、計(jì)算機(jī)視覺和其他任務(wù)的性能方面取得了顯著進(jìn)展,但要實(shí)現(xiàn) AGI 仍有許多挑戰(zhàn)。它一定不是一帆風(fēng)順的坦途,Transformer 架構(gòu)也未必是最終形態(tài),也可能會(huì)有新的技術(shù)和方向出來,再顛覆它。但是大模型確實(shí)是目前最有希望的方向,激發(fā)了大家對(duì) AGI 的信心。

AI 科技評(píng)論:在大模型迭代的過程中,數(shù)據(jù)是天花板般的存在。當(dāng)下大模型消耗數(shù)據(jù)的速度非常驚人,數(shù)據(jù)是否在短時(shí)間內(nèi)被消耗完,大模型是否看到了天花板?

劉洛麒:我覺得當(dāng)下社會(huì)中的數(shù)據(jù)量沒有窮盡。首先,生產(chǎn)者依然在源源不斷地產(chǎn)生新數(shù)據(jù),包括文本、圖像、視頻、音頻等等多種模態(tài),比如短視頻平臺(tái)每時(shí)每刻仍然在生產(chǎn)新的視頻內(nèi)容。

客觀物理世界的數(shù)據(jù)描述可以是多層次,多模態(tài)的,交互式的。對(duì)于同一個(gè)物理事件,我們可以在不同精度下的時(shí)間、空間等坐標(biāo)系下去對(duì)應(yīng)描述,也可以通過多種感知手段下去記錄(視覺、聽覺、觸覺等),不同物理事物和事件的交互行為又幾乎是無窮的。而這些都是通向 AGI 所需要的數(shù)據(jù)記錄,

事實(shí)上,大規(guī)模的優(yōu)質(zhì)數(shù)據(jù)才是實(shí)現(xiàn)算法突破的關(guān)鍵因素,而優(yōu)質(zhì)數(shù)據(jù)目前其實(shí)還處于挖掘初期。我們還需要思考,已有的數(shù)據(jù)資源是不是真的挖掘到位,數(shù)據(jù)是否已經(jīng)物盡其用?

如現(xiàn)在大多數(shù) LLM 是基于純文本進(jìn)行訓(xùn)練,而人類所感知的外界信息70%以上來自視覺,如何更好的實(shí)現(xiàn)語言、圖像、視頻、聲音等多模態(tài)間的結(jié)合也將是大模型未來的探索方向。

目前大模型使用的數(shù)據(jù)還是更多是單一孤立的,缺少更豐富的數(shù)據(jù)表述,近期 OpenAI 新推出的多模態(tài)模型 GPT-4v 已經(jīng)能聽語音,理解圖片,但我們?cè)谶@個(gè)方向上也仍有很長的路要走。

程斌:當(dāng)下人工智能消耗數(shù)據(jù)的速度是非??膳碌?。我個(gè)人覺得,如果設(shè)想的道路可以被打通,有可能有一天物理世界數(shù)據(jù)的生產(chǎn)速度真的會(huì)跟不上人工智能學(xué)習(xí)的速度。

當(dāng)然,我很認(rèn)同洛麒說的點(diǎn),現(xiàn)在很多數(shù)據(jù)可能真的還沒有更好地去應(yīng)用它。當(dāng)下數(shù)據(jù)采集和存儲(chǔ)的范圍、力度都還沒有達(dá)到邊界,數(shù)據(jù)處理的質(zhì)量也有待提高,尤其是數(shù)據(jù)的使用還牽扯到隱私性和安全性,這些都是需要去逐步解決的問題。

最近也有不少公司去利用 AI 生產(chǎn)數(shù)據(jù),對(duì)這個(gè)我還是比較謹(jǐn)慎地去看待的,因?yàn)閾?dān)心會(huì)不會(huì)陷入到數(shù)據(jù)繭房中。這里面有一個(gè)很重要的前提,AI 的邏輯是不是代表了整個(gè)客觀物理世界的邏輯?

如果 AI 僅僅代表了物理世界的一部分的邏輯,那 AI 合成的數(shù)據(jù)最后都將陷入一個(gè)局部最優(yōu)解,而喪失了全局的判斷,這可能導(dǎo)致 AI 系統(tǒng)在不同環(huán)境下的泛化能力受限。

這里正好引出一個(gè)非常有意思的問題,就是這次人工智能浪潮為什么會(huì)從語言大模型先突破?

有一個(gè)很重要的原因就是,文本和語言已經(jīng)經(jīng)過了人類幾千年的積累,是被精煉和壓縮過的知識(shí)性數(shù)據(jù)。這些文本數(shù)據(jù)具有非常高的信息密度、豐富性和完整性,大模型在學(xué)習(xí)的時(shí)候直接邁過了信息提煉這第一步過程,其學(xué)習(xí)效率大大提升。

相比之下,圖像跟視頻是從物理世界直接獲取的數(shù)據(jù),沒有經(jīng)過類似的精煉過程,它們與文本和語言的信息密度是完全不一樣的。所以,現(xiàn)在我們還沒有真正能夠挖掘到現(xiàn)實(shí)世界中海量圖像和視頻中所蘊(yùn)含的更豐富的知識(shí)。如果這一步能夠突破,那距離實(shí)現(xiàn) AGI 會(huì)更近一步。


AIGC 創(chuàng)業(yè),充滿了挑戰(zhàn)和新的機(jī)遇

AI 科技評(píng)論:如何看待當(dāng)下的這波 AIGC 創(chuàng)業(yè)潮?

程斌:這波 AIGC 的創(chuàng)業(yè)潮發(fā)展還是非常迅猛的,從今年二三月份的時(shí)候底層大模型公司被追捧,到五六月份大家逐漸關(guān)注應(yīng)用層面,在營銷等最直接落地的領(lǐng)域開始嘗試,再到七八月份涌現(xiàn)出不少傳統(tǒng)行業(yè)結(jié)合大模型進(jìn)行自我升級(jí)的典型案例,比如在旅游、教育、醫(yī)療、跨國人力資源等領(lǐng)域,已經(jīng)有一些敏銳的傳統(tǒng)行業(yè)創(chuàng)業(yè)者開始擁抱大模型。未來五年內(nèi),AIGC 領(lǐng)域的創(chuàng)業(yè)公司一定會(huì)如當(dāng)年互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)創(chuàng)業(yè)潮那樣涌現(xiàn)。

不過,相比較上一波 AI 創(chuàng)業(yè)潮,最近這一波技術(shù)爆發(fā)有一個(gè)很有意思的點(diǎn),大模型把原來很多我們認(rèn)為不可解或者解不好的問題變得可解了,但同時(shí),解決問題的技術(shù)門檻也被大大拉低。

我以前一直說,AI 這樣的應(yīng)用科學(xué)領(lǐng)域很難去構(gòu)建所謂的技術(shù)壁壘。但是,以前我們還能多多少少通過一些差異化的技術(shù)點(diǎn),在一些細(xì)分領(lǐng)域形成一定的技術(shù)門檻,現(xiàn)在這一門檻被大大削弱,這更加考驗(yàn)創(chuàng)業(yè)團(tuán)隊(duì)對(duì)業(yè)務(wù)的理解能力、運(yùn)營能力和商業(yè)化能力。

從某種意義上講,這一波 AIGC 的真正受益者其實(shí)是原來已經(jīng)形成商業(yè)閉環(huán)的企業(yè),比如美圖,即原來的業(yè)務(wù)有流量、有場(chǎng)景、有商業(yè)化邏輯,然后用 AIGC 來更好地降本增效,提升和改善原有的產(chǎn)品體驗(yàn),甚至進(jìn)一步拓展更加豐富的商業(yè)化產(chǎn)品。

劉洛麒:是的。美圖擁有影像行業(yè)第一的用戶心智,用戶規(guī)模強(qiáng)大,大模型冷啟動(dòng)的獲客成本低,基于大模型的 AI 技術(shù)也讓我們可以很快地將構(gòu)想落地驗(yàn)證,也帶來非常正向的用戶反饋,還能在短時(shí)間去驗(yàn)證產(chǎn)品成功與否,減少了大量的時(shí)間和人力成本投入,更重要的是減少了很多的不確定性。

而對(duì)于用戶來說,AIGC 是前所未有的,這對(duì)于用戶群體的吸引力是非常強(qiáng)的,用戶也有足夠的動(dòng)力去嘗試,這也提高了付費(fèi)訂閱意愿。

目前業(yè)界雖然有許多開源的大模型,但具體業(yè)務(wù)場(chǎng)景下的大模型的開發(fā)依然存在一定的門檻。數(shù)據(jù)、算力、算法是決定大模型質(zhì)量的“三駕馬車”,大模型依賴成熟的算力基建,訓(xùn)練和推理則需要強(qiáng)大的算法和計(jì)算能力,還需要龐大的數(shù)據(jù)量和優(yōu)質(zhì)的數(shù)據(jù)質(zhì)量,數(shù)據(jù)質(zhì)量的高低很大程度上決定了模型能力的上限,而這些正是美圖的優(yōu)勢(shì)所在。

另外,大模型的布局需要找到合適的切入場(chǎng)景,對(duì)業(yè)務(wù)賦能,也能夠?qū)ν廨敵瞿芰?。比如美圖通過 AIGC 推動(dòng)了 AI 繪畫、AI 動(dòng)漫、AI 商品圖、AI 模特試衣等等功能應(yīng)用落地,同時(shí)基于大模型重構(gòu)了美圖過去 15 年的產(chǎn)品,從生活場(chǎng)景延伸至生產(chǎn)力場(chǎng)景。

依托美圖 AI 開放平臺(tái),以 API 和 SDK 的方式,為行業(yè)客戶提供提供大模型的商業(yè)使用模式。2023 上半年,在 AIGC 推動(dòng)下,美圖在 AI 圖片、AI 視頻、AI 設(shè)計(jì)等領(lǐng)域持續(xù)創(chuàng)新,推動(dòng) VIP 訂閱收入大幅增長,VIP 會(huì)員數(shù)超 720 萬,同比增長 44%,創(chuàng)下歷史新高。

AI 科技評(píng)論:以 AIGC 為主攻方向的創(chuàng)業(yè)公司要想突出重圍,有哪些關(guān)鍵要素是必須具備的?

劉洛麒:其實(shí) AIGC 領(lǐng)域的公司要想突出重圍的話,不僅僅是技術(shù)問題,更關(guān)鍵的是需要把技術(shù)和應(yīng)用場(chǎng)景相結(jié)合起來。

但是當(dāng)下存在的一個(gè)現(xiàn)象是部分公司對(duì)大模型實(shí)際的應(yīng)用場(chǎng)景考慮得不夠深入,技術(shù)的落地有一定難度。做好大模型很重要,但如何用好大模型其實(shí)更加重要。

我們不能只關(guān)注大模型的數(shù)據(jù)量、參數(shù)量這些技術(shù)指標(biāo),更要抓住應(yīng)用場(chǎng)景的核心需求,并且在商業(yè)模式上得到驗(yàn)證。預(yù)訓(xùn)練大模型是基礎(chǔ)設(shè)施,大模型的下一步是走向多模態(tài)。

如何實(shí)現(xiàn)在不同行業(yè)、垂直領(lǐng)域、功能場(chǎng)景的部署與應(yīng)用,讓大模型真正走向產(chǎn)業(yè)、走進(jìn)實(shí)體,解決企業(yè)與行業(yè)面臨的現(xiàn)實(shí)問題,是更值得關(guān)注的領(lǐng)域。

程斌:創(chuàng)業(yè)公司在技術(shù)層面再去卷基礎(chǔ)大模型的意義已經(jīng)不大了,現(xiàn)在市面上已經(jīng)有很多開源的大模型做得很好,直接調(diào)用就可以,而且做基礎(chǔ)大模型還是有一定的門檻的,這讓后來者很難再入局并取得優(yōu)勢(shì)。

現(xiàn)階段,如果要打出差異化,一定是將生成式 AI 技術(shù)與具體業(yè)務(wù)做深度融合,而不是浮于表面的做一些簡單的應(yīng)用。剛才我也說了,有一些敏銳的傳統(tǒng)行業(yè)創(chuàng)業(yè)者已經(jīng)開始擁抱大模型。他們熟悉行業(yè),了解需求,一旦利用好大模型這樣的先進(jìn)生產(chǎn)工具,發(fā)展會(huì)非常迅猛。

不過,正如我以前說國內(nèi) SaaS 行業(yè)存在的一個(gè)問題,大模型應(yīng)用領(lǐng)域也有可能同樣存在,那就是生產(chǎn)工具的變革能否真正帶來生產(chǎn)關(guān)系的改變,進(jìn)而真正提高生產(chǎn)力。

打個(gè)比方說,如果傳統(tǒng)行業(yè)應(yīng)用是馬拉車,那么結(jié)合先進(jìn)生產(chǎn)工具,很多時(shí)候貌似我們打造出來一輛小汽車,但是并沒有真正改變商業(yè)模式當(dāng)中的某些痛點(diǎn)環(huán)節(jié),還是在沿用傳統(tǒng)方式在運(yùn)營,那無非就是從馬拉車變成馬拉小汽車,并沒有能夠讓它靠先進(jìn)發(fā)動(dòng)機(jī)和燃料跑起來,沒有真正形成商業(yè)模式和生產(chǎn)力的變革。

所以,在大模型這樣顛覆級(jí)的技術(shù)突破下,我們也希望看到更多行業(yè)能夠真正從馬車升級(jí)到小汽車,靠著先進(jìn)發(fā)動(dòng)機(jī)和燃料實(shí)現(xiàn)突破。這需要更多的創(chuàng)新和深度融合,以確保技術(shù)不僅僅停留在表面,而是真正為企業(yè)和社會(huì)帶來持續(xù)的價(jià)值和進(jìn)步。

當(dāng)然,對(duì)于技術(shù)型初創(chuàng)公司來說,AIGC 也不只是大模型這一條路。大模型更多是以數(shù)據(jù)為支撐,能產(chǎn)生豐富多樣的內(nèi)容。但在一些樣本量小、功耗資源少、對(duì)實(shí)時(shí)性有一定要求的場(chǎng)景中,其他技術(shù)路徑,比如生成對(duì)抗網(wǎng)絡(luò)(GAN),仍然存在差異化的優(yōu)勢(shì)。

雖然在 Diffusion 和 Transformer 出來之后,GAN 有點(diǎn)被冷落了,但在一些小而美的應(yīng)用場(chǎng)景中,它仍然具有一定優(yōu)勢(shì)的。此外,自監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、元學(xué)習(xí)等方法也可能在特定領(lǐng)域或任務(wù)中提供了新的機(jī)會(huì)和優(yōu)勢(shì)。

因此,AIGC 領(lǐng)域的技術(shù)創(chuàng)新是多樣化的,創(chuàng)業(yè)公司應(yīng)根據(jù)其業(yè)務(wù)定位、市場(chǎng)需求和資源狀況,選擇適合其需求的技術(shù)路徑。

AI 科技評(píng)論:美圖做 AIGC 和大模型有什么獨(dú)到之處?

劉洛麒:美圖的大模型確實(shí)是不同于其他廠商的。絕大部分 AI 公司做大模型大多更強(qiáng)調(diào)數(shù)據(jù)量和參數(shù)規(guī)模,而美圖做大模型的創(chuàng)新點(diǎn)在于“懂美學(xué)”。

通過融合多年來積累的美學(xué)認(rèn)知,美圖為大模型搭建了基于機(jī)器學(xué)習(xí)的美學(xué)評(píng)估系統(tǒng),為模型的生成效果打上“美學(xué)分?jǐn)?shù)“,從而不斷地提升模型對(duì)美學(xué)的理解。

美圖視覺大模型的三大優(yōu)勢(shì):第一,擅長亞洲人像攝影,二是將中國傳統(tǒng)文化元素融入現(xiàn)代設(shè)計(jì)中,為創(chuàng)作賦予獨(dú)特的東方韻味;三是在商業(yè)設(shè)計(jì)領(lǐng)域的應(yīng)用價(jià)值,設(shè)計(jì)師可以在美圖視覺大模型等幫助下,快速地創(chuàng)作出具有創(chuàng)意和美感的作品。

現(xiàn)在,美圖視覺大模型 MiracleVision 作為美圖 AI 產(chǎn)品生態(tài)的底層支撐,在為美圖全系產(chǎn)品提供 AI 模型能力。


數(shù)字人是AGI最自然的展現(xiàn)形式和交互方式

AI 科技評(píng)論:數(shù)字人和大模型之間的關(guān)系是什么?

程斌:目前在很多場(chǎng)景中,語言大模型生產(chǎn)的文本內(nèi)容在和外界的交互過程中,單純的文本呈現(xiàn)形式相對(duì)比較單一,經(jīng)常需要多樣性和形象化展現(xiàn)形式,可視化呈現(xiàn)變得尤為重要,而數(shù)字人則是最優(yōu)的解決方案。

數(shù)字人結(jié)合語言大模型,不僅可以理解和生成語言和文本,還可以具備虛擬的外觀、聲音和行為,使交互更加生動(dòng)和自然,為用戶提供了更富有情感、更具個(gè)性化的交互體驗(yàn)。而在未來,當(dāng) AGI 真正實(shí)現(xiàn)的時(shí)候,數(shù)字人是 AGI 最自然的展現(xiàn)形式和交互方式。

AI 科技評(píng)論:當(dāng)下數(shù)字人市場(chǎng)中有 2D 和 3D 兩種技術(shù)路線,實(shí)踐的過程中,面對(duì)這兩種路線要如何抉擇?

程斌:2D 和 3D 數(shù)字人應(yīng)該說各具特色,各有其適用的場(chǎng)景。

3D 數(shù)字人走的高端精品路線,通過設(shè)計(jì)或拍攝、建模、渲染、面部、骨骼綁定、動(dòng)捕驅(qū)動(dòng)等一系列流程完成資產(chǎn)制作及內(nèi)容生產(chǎn)。

要?jiǎng)?chuàng)建一個(gè)超寫實(shí)、高精度的 3D 虛擬數(shù)字人,需要專業(yè)的工程師使用專業(yè)的設(shè)備和軟件進(jìn)行精細(xì)化制作,其生產(chǎn)成本較高、周期較長?,F(xiàn)階段,很多公司利用AI技術(shù)進(jìn)行 3D 數(shù)字人的輔助創(chuàng)作,大大提高了其生產(chǎn)效率,但是依然造價(jià)不菲。此外,3D 數(shù)字人資產(chǎn)制作僅僅是初期的一次性投入,后期的運(yùn)營成本也不低,其內(nèi)容制作也需要專業(yè)團(tuán)隊(duì)持續(xù)跟進(jìn)。

過去 3D 數(shù)字人更多被影視和游戲行業(yè)所使用,這幾年因?yàn)樵钪娴雀拍畹呐d起,很多品牌也開始推出自己的數(shù)字代言人,但是行業(yè)中也出現(xiàn)過 3D 數(shù)字人在制作完成之后品牌方缺乏持續(xù)運(yùn)營能力的狀況,造成大量 3D 資產(chǎn)的閑置和浪費(fèi)。

另外,3D 數(shù)字人更強(qiáng)調(diào)其 IP 屬性,IP 和內(nèi)容是 3D 數(shù)字人的核心。某種意義上說,人們并不太關(guān)心 3D 數(shù)字人是哪家技術(shù)公司做的,更關(guān)心其 IP 和運(yùn)營權(quán)在誰手里。因此,IP 和內(nèi)容是 3D 數(shù)字人的核心,決定了它們的吸引力和商業(yè)潛力。

而 2D 數(shù)字人相比較 3D 數(shù)字人來說,有它固有的一些劣勢(shì)。比如,2D 數(shù)字人本身并不像 3D 數(shù)字人那樣是一個(gè)完整的資產(chǎn)。它只采集了人的正面信息用于訓(xùn)練合成,無法像 3D 數(shù)字人那樣可以從任意角度去生成各種復(fù)雜動(dòng)作,僅僅只能完成正面口播和一些簡單預(yù)置動(dòng)作的交互,其生成的內(nèi)容相對(duì)于 3D 數(shù)字人來說會(huì)比較單一,其應(yīng)用場(chǎng)景也會(huì)相對(duì)受限。

但是,正所謂“尺有所短,寸有所長”,與3D數(shù)字人相比,2D 數(shù)字人也有其天然的優(yōu)勢(shì)。

首先,2D 數(shù)字人的制作和內(nèi)容生產(chǎn)完全是由AI算法合成的,其生產(chǎn)效率和生產(chǎn)成本比 3D 數(shù)字人有極大的優(yōu)勢(shì)。我們 Fasion.AI 目前打造的 2D 數(shù)字人可以做到實(shí)時(shí)驅(qū)動(dòng)和交互,整體的生產(chǎn)成本不到 3D 數(shù)字人的十分之一。

其次,2D 數(shù)字人的模型制作以及后續(xù)內(nèi)容生產(chǎn),都是基于真人拍攝的視頻訓(xùn)練而成,其呈現(xiàn)效果幾乎與真人一模一樣。而 3D 數(shù)字人目前因?yàn)榧夹g(shù)所限,其渲染結(jié)果始終距離真人還有一些差距 。在一些對(duì)人物真實(shí)性要求比較高的場(chǎng)景下,2D 數(shù)字人還是有其先天的優(yōu)勢(shì)。

因此,2D 數(shù)字人特別適用于高頻次、低成本、批量化進(jìn)行增量內(nèi)容合成的場(chǎng)景,比如教育、營銷、客服、直播等領(lǐng)域。某種意義上說,相比較 3D 數(shù)字人較強(qiáng)的 IP 屬性, 2D 數(shù)字人在很多場(chǎng)景下其實(shí)是在去 IP 化,并不特別強(qiáng)調(diào)其IP屬性,而是更強(qiáng)調(diào)它快速進(jìn)行內(nèi)容生成的能力。

我們 Fasion.AI 目前已經(jīng)完成了整套自主知識(shí)產(chǎn)權(quán)的 2D 數(shù)字人的能力搭建,包括基于 2D 數(shù)字人的短視頻離線合成、互動(dòng)直播、實(shí)時(shí)交互、私有化部署等,口型合成的準(zhǔn)確率超過 98%,可實(shí)現(xiàn)幾十種語言的實(shí)時(shí)驅(qū)動(dòng)和無縫切換,實(shí)時(shí)交互的延遲最低可達(dá)到 500 毫秒以內(nèi),在業(yè)內(nèi)均處于領(lǐng)先地位。

特別是我們推出的“云影”小樣本數(shù)字人,僅需要 3 到 5 分鐘的訓(xùn)練視頻,就可以快速為客戶打造專屬數(shù)字人,極大的降低了數(shù)字人的生產(chǎn)和使用門檻。

目前,我們已經(jīng)為客戶打造專屬 2D 數(shù)字人數(shù)百例,客戶行業(yè)涵蓋教育、營銷、金融、保險(xiǎn)、客服、直播、黨建、主持等領(lǐng)域,并與華為、360、昆侖萬維、智譜華章、高途、標(biāo)貝、云知聲等大模型和行業(yè)公司都展開了深度合作。

劉洛麒:美圖的 AI 數(shù)字人走的是另一條路徑。我們主要服務(wù)于視頻內(nèi)容創(chuàng)作、影視處理與剪輯等生產(chǎn)力場(chǎng)景,主要側(cè)重在 3D 數(shù)字人領(lǐng)域。我們的 3D 數(shù)字人跟傳統(tǒng)的數(shù)字人不太一樣,是更加偏向特效場(chǎng)景的 3D 數(shù)字人,對(duì)于一些短視頻的制作非常有幫助。

美圖在今年8月正式上線的AI數(shù)字人生成工具——DreamAvatar。首期推出“AI 演員”功能,數(shù)字人的生成不需要專業(yè)設(shè)備,一臺(tái)手機(jī)就能輕松搞定。

用戶只需要將拍攝好的視頻素材導(dǎo)入,并指定視頻里的人物,就能夠進(jìn)行人體檢測(cè)、跟蹤、擦除、替換、背景修復(fù),自動(dòng)把真人替換成數(shù)字人,做到動(dòng)作于真人完美同步。通過相機(jī)姿態(tài)估計(jì)和跟蹤,以及光照估計(jì)算法,數(shù)字人和環(huán)境的融合變得更加自然,而且更具真實(shí)感。

目前我們共推出了機(jī)器人、獸人、類人三大題材,共計(jì) 11 個(gè)不同風(fēng)格的數(shù)字人形象,每個(gè)題材從造型風(fēng)格、渲染風(fēng)格都做了不同方向的細(xì)化。未來我們也會(huì)提供更多的數(shù)字人形象,并考慮與用戶輸入的形象進(jìn)行結(jié)合,為用戶提供多樣性的體驗(yàn)和選擇。

此外,我們也在探索 3D 大模型的實(shí)現(xiàn)路徑,將人物、物品的 3D 形象自動(dòng)建模出來,從文生圖,到文生視頻,再到文生 3D,這也是美圖在多模態(tài)領(lǐng)域努力的一個(gè)方向。

雷峰網(wǎng)雷峰網(wǎng)雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))


雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說