0
本文作者: 董子博 | 2023-10-08 13:20 |
從畫(huà)圖到寫詩(shī),從文案到制表,從PPT到寫代碼,十幾個(gè)月以前,如果有人說(shuō),這些工作都可以用 AI 代勞,相信的人恐怕寥寥無(wú)幾。
然而科技發(fā)展的起速卻總是爆炸性的,2023年還遠(yuǎn)未結(jié)束,生成式 AI 的風(fēng)潮就席卷了整個(gè)科技圈,讓人無(wú)不心馳神往,趨之若鶩。
在由 GAIR 研究院、雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))、世界科技出版社、科特勒咨詢集團(tuán)聯(lián)合主辦的第七屆 GAIR 全球人工智能與機(jī)器人大會(huì)上,AIGC 領(lǐng)域的各路大牛齊聚在新加坡烏節(jié)大酒店,向世界分享他們?cè)谏墒?AI 領(lǐng)域的一手信息和最新認(rèn)知。
此次參與 GAIR AIGC 和生成式內(nèi)容分論壇的發(fā)言嘉賓有:
南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院助理教授,潘新鋼
joinrealm.ai 創(chuàng)始人,蔡叢興
新加坡 Help&Grow 社群發(fā)起人,王桐
荔枝集團(tuán) CTO,丁寧
南洋理工大學(xué)高級(jí)研究科學(xué)家;Deepir Inc. 創(chuàng)始人,吳鵬程
騰訊海外游戲發(fā)行算法中心主任,郎君
在當(dāng)下炙手可熱的 AI 賽道,如何保持清醒的頭腦,在技術(shù)、產(chǎn)品和商業(yè)模式上精研革新?與會(huì)嘉賓們又有哪些真知灼見(jiàn),讓他們能夠在生成式 AI 的熱潮中長(zhǎng)風(fēng)破浪?
提到 AIGC,在當(dāng)下的賽道,所有人第一個(gè)總會(huì)想起在海外評(píng)價(jià)頗高的 MidJourney,和它背后的技術(shù)支持——擴(kuò)散模型。
而來(lái)自南洋理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院的助理教授,曾在港中文師從湯曉鷗教授的潘新鋼,卻在他最新的“視覺(jué)內(nèi)容關(guān)鍵點(diǎn)拖拽式編輯”中,果斷放棄了擴(kuò)散模型,而是使用了一項(xiàng)更“老”的技術(shù)——生成對(duì)抗網(wǎng)絡(luò)(GAN)。
不少人看到了 AI 生成圖像的強(qiáng)大能力,就認(rèn)為 AIGC 的時(shí)代已經(jīng)來(lái)臨;而潘新鋼卻發(fā)現(xiàn),“生成圖像”往往不是用戶創(chuàng)作過(guò)程的最后一步。
后續(xù)對(duì)圖片的調(diào)整——尤其是對(duì) AI 生成的畫(huà)面元素往往充滿不確定性,要滿足用戶的需求,就必須得讓畫(huà)面中的各個(gè)元素可以在后期被用戶微調(diào)。
比如 AI 生成了一只很逼真的獅子,用戶如果想要獅子的頭轉(zhuǎn)一轉(zhuǎn)、移動(dòng)它的位置、甚至改變獅子的表情,以當(dāng)下的產(chǎn)品形態(tài)就很難完成。
這些操作聽(tīng)起來(lái)簡(jiǎn)單,但都是關(guān)于物體空間屬性的精細(xì)控制,在技術(shù)上還面臨著巨大的挑戰(zhàn)。
過(guò)去曾有方式是沿襲文生圖的思璐,去根據(jù)文字的指引編輯圖片——比如“讓獅子的鼻子向右移動(dòng)30像素”。
但這個(gè)解決思路也存在問(wèn)題:
一方面,是文字模型對(duì)于物體空間屬性的理解必須足夠強(qiáng)大,才能滿足用戶不一而足的編輯需求和方式,讓交互更直觀;
另一方面,對(duì)于語(yǔ)言模型來(lái)說(shuō),它很難精確理解圖像中的長(zhǎng)度和尺寸,這也給視覺(jué)內(nèi)容編輯帶來(lái)了不小的麻煩。
交互層面,對(duì)于用戶來(lái)說(shuō),最直覺(jué)、最易用的,無(wú)疑是拖拽式的交互;而從技術(shù)實(shí)現(xiàn)層面,用戶只需要指定一個(gè)紅色的抓取點(diǎn)和藍(lán)色的目標(biāo)點(diǎn),由 AI 把紅點(diǎn)所對(duì)應(yīng)的圖像的語(yǔ)義的部分,移到藍(lán)點(diǎn)的位置,就能達(dá)到對(duì)圖像空間屬性的編輯的效果。
在過(guò)去,也有人開(kāi)發(fā)過(guò)類似的功能,但通常需要對(duì)所要編輯的圖像進(jìn)行網(wǎng)格化,并且對(duì)物體的高度有一定的假設(shè)——對(duì)圖像的編輯不過(guò)是對(duì)原圖2D的扭曲變形,沒(méi)法生成新的內(nèi)容。
既要精細(xì),又要有生成內(nèi)容,潘新鋼在做技術(shù)研判時(shí)并未采用當(dāng)下最熱的擴(kuò)散模型,而是選用了生成對(duì)抗網(wǎng)絡(luò)的技術(shù)。首先,是 GAN 所描述的圖像空間非常連續(xù),比擴(kuò)散模型連續(xù)很多;其次 GAN 的 comtact 的隱空間非常適合編輯的屬性。
而隨著潘新鋼團(tuán)隊(duì)研究的進(jìn)一步發(fā)展,他們又在原有基礎(chǔ)上支持了多點(diǎn)編輯,可以讓圖像內(nèi)的物品姿態(tài)改變,重新設(shè)計(jì)一款車的外形、或改變車的視角,讓一只小貓睜一只眼閉一只眼,改變?nèi)讼竦陌l(fā)型或表情、姿態(tài)或衣服長(zhǎng)短,讓使用者能更方便地對(duì)圖像進(jìn)行編輯,甚至可以以這個(gè)方式,來(lái)完成視頻內(nèi)容的生成。
當(dāng)下這個(gè)工作已在 GitHub 上開(kāi)源,并且獲得了32000個(gè) Star。
而未來(lái),把 GAN 和擴(kuò)散模型結(jié)合,是潘新鋼對(duì)于正在完成工作的一個(gè)愿景——既有擴(kuò)散模型的生成能力,又有 GAN 在圖像編輯上的優(yōu)勢(shì),同時(shí)也或許可以將這些能力運(yùn)用到視頻和 3D、4D 內(nèi)容中,讓未來(lái)的AIGC 更智能、也更易用。
從美國(guó)加州南灣硅谷的山景城而來(lái),joinrealm.ai 的蔡叢興有一個(gè)做AIGC社交網(wǎng)絡(luò)的夢(mèng)想。
2016年左右就加入 Snapchat,在公司負(fù)責(zé)短視頻的產(chǎn)品開(kāi)發(fā),蔡叢興經(jīng)歷過(guò)短視頻行業(yè)的超高速發(fā)展期。而在 TikTok 無(wú)有爭(zhēng)議地在海外成為了現(xiàn)象級(jí)產(chǎn)品之后,蔡叢興又動(dòng)了別的心思:
“我們覺(jué)得,在生產(chǎn)式短視頻內(nèi)容的賽道上,大家已經(jīng)朝著某一個(gè)方向發(fā)展;而未來(lái),在生成式視頻上,產(chǎn)業(yè)一定會(huì)有一個(gè)新的突破?!?/p>
于是,蔡叢興和朋友一起,創(chuàng)辦了 joinrealm.ai,
蔡叢興認(rèn)為,AIGC是一個(gè)特別寬泛且抽象的概念,而 joinrealm.ai 的方向,主要是介于“直接提供API”和“完成人機(jī)交互革新”的中間地帶——對(duì)于內(nèi)容創(chuàng)作商業(yè)模式的探索上。
“為什么內(nèi)容創(chuàng)作這個(gè)模式很重要?基于我們對(duì)于短視頻的這個(gè)過(guò)去十年的觀察,很大的一個(gè)變革,實(shí)際上是因?yàn)橹悄芟鄼C(jī)的出現(xiàn)。智能相機(jī)的普及,很大的程度上它不僅僅是給了每個(gè)人一個(gè)手機(jī),而是給世界提供了幾十億個(gè)移動(dòng)的基礎(chǔ)設(shè)備?!?/p>
從“word”到“story”,是 joinrealm.ai 創(chuàng)業(yè)的一個(gè)核心關(guān)鍵——借由AI,用戶能把自己腦海中的內(nèi)容呈現(xiàn)成圖像,就如同一個(gè)“思維的相機(jī)”。
而要想達(dá)到這個(gè)效果,蔡叢興在 joinrealm.ai 的探索中發(fā)現(xiàn),還有許多問(wèn)題亟待解決:
首先,是 Prompt 和自然語(yǔ)言的差異仍然存在——Prompt 歸根結(jié)底還是一種大眾難以直覺(jué)理解的程序語(yǔ)言,用戶仍然要經(jīng)歷大量的“嘗試-失敗-嘗試”的步驟,才能生成出他們想要的內(nèi)容;
其次,就是基礎(chǔ)模型在今天仍然并不能完全滿足 AIGC 用戶的需求,以 Stable Diffusion 為例,新用戶愿意分享生成內(nèi)容的比例,在今天大概還低于20%;
缺少可以由用戶精調(diào)的概念,也是 AIGC 當(dāng)下面臨第一個(gè)重大的問(wèn)題,用戶很難借由一套被定義了的概念,去控制 AI 的生成,也就很難控制自己“故事的講述”;
最后,就是圖像生成結(jié)果和成本之間的效率平衡,如何在更低的價(jià)格區(qū)間里,生成更高質(zhì)量的內(nèi)容,也是 AIGC 在當(dāng)下一個(gè)難以忽略的問(wèn)題。
為了迎接這些挑戰(zhàn),蔡叢興和團(tuán)隊(duì)見(jiàn)了將近一百位有影響力的AI創(chuàng)作者,發(fā)現(xiàn)他們的制作方法大多獨(dú)特,很少雷同,并且都會(huì)使用大量的工具,不斷地調(diào)試、調(diào)節(jié)。
最終,joinrealm.ai 在研判后,決定在三個(gè)關(guān)鍵點(diǎn)完成升級(jí):
首先是工具鏈,通過(guò)完成用戶交互界面的優(yōu)化,讓使用體驗(yàn)更優(yōu);
其次是讓用戶可以自建自己的 fine-tune,比如使用“我”的描述,產(chǎn)品就可以以用戶自己的圖像為基礎(chǔ),來(lái)更精準(zhǔn)地生成自己想要的圖像。
第三就是自建社區(qū),讓用戶能夠在社區(qū)里獲得更多的使用教學(xué)和靈感啟發(fā)。
新加坡 Help&Grow 社群發(fā)起人王桐作為主持人,與 joinrealm.ai 創(chuàng)始人蔡叢興、荔枝集團(tuán)的 CTO 丁寧、南洋理工大學(xué)高級(jí)研究科學(xué)家&Deepir Inc. 創(chuàng)始人 吳鵬程、騰訊海外游戲發(fā)行算法中心主任郎君共同探討了當(dāng)下 AIGC 與生成式內(nèi)容的熱點(diǎn)話題。
AIGC 的商業(yè)化模式更容易在 To B 領(lǐng)域落地還是在 To C 領(lǐng)域落地 ?各位嘉賓從各自經(jīng)驗(yàn)出發(fā)設(shè)想了未來(lái)的落腳點(diǎn)。
郎君認(rèn)為,To B 并不好做,因?yàn)樾枰鶕?jù)多個(gè)不同的實(shí)際案例抽象提煉出一種解決方案去應(yīng)對(duì),To C 方面,在做游戲的運(yùn)營(yíng)的時(shí)候可以幫助很多游戲玩家快速地融入進(jìn)游戲。內(nèi)部在做算法的時(shí)候,郎君和團(tuán)隊(duì)也會(huì)不停地判斷什么樣的模式能更好地去深化 AIGC 落地的場(chǎng)景。
吳鵬程表示,To B 和 To C 都很有機(jī)會(huì),但偉大的公司一定是 To C 。他結(jié)合妙鴨相機(jī)、蘋果 VR 眼鏡、數(shù)字人直播帶貨等今年在 ToC 層面做出成績(jī)的公司,強(qiáng)調(diào) AIGC To C 會(huì)誕生很多有趣的應(yīng)用。
丁寧認(rèn)為,AIGC 的商業(yè)化仍然處于偏早期的階段,雖然有一些率先做出成績(jī)的公司,但大部分還在路上。他特別強(qiáng)調(diào),對(duì)于技術(shù)創(chuàng)業(yè)者來(lái)說(shuō),不能僅僅沉浸于對(duì)技術(shù)的感動(dòng)之中,還應(yīng)更多的考慮用戶的需求和痛點(diǎn)。關(guān)于To B 和 To C 的落地,他表示To B 的市場(chǎng)很大,需要能力和資源,而To C 的競(jìng)爭(zhēng)大,需要有對(duì)市場(chǎng)的敏銳察覺(jué)力、社區(qū)的運(yùn)營(yíng)能力等,兩者未來(lái)都很廣闊。
關(guān)于 AIGC 的出海和全球化,幾位嘉賓分享了他們總結(jié)的經(jīng)驗(yàn)。
郎君觀察到,國(guó)內(nèi)的團(tuán)隊(duì)有非常密集的人才優(yōu)勢(shì),高效的知識(shí)分享途徑以及對(duì)互聯(lián)網(wǎng)行業(yè)的強(qiáng)大興趣,這種配置的資源在海外其實(shí)并不多。他強(qiáng)調(diào),當(dāng)下 AIGC 還沒(méi)有一個(gè)特別成熟的商業(yè)模式,所以誰(shuí)有更好的資源組合的能力,誰(shuí)就更容易“跑出來(lái)”。
丁寧認(rèn)為,AIGC 出海首先要走出去,把身段放低,不一定非要把產(chǎn)品做到什么程度,意識(shí)到兩年到三年的時(shí)間內(nèi)是很難一下子在市場(chǎng)中獲得成功。他補(bǔ)充到,尊重海外市場(chǎng)是很重要的,文化、語(yǔ)言、法律法規(guī)的差異都是這個(gè)非常大,需對(duì)當(dāng)?shù)厥袌?chǎng)有清晰的認(rèn)知。
吳鵬程認(rèn)為,AIGC 出海是很有機(jī)會(huì)的,一方面,可以把中國(guó)的技術(shù)用到國(guó)外;另一方面,國(guó)外也有本地需求,兩者可以做深度融合,會(huì)產(chǎn)生巨大價(jià)值。同時(shí)也需要考慮到,出海只是第一步,也需要考慮如何才能在海外更好地遨游。
8月15日上午,GAIR大會(huì)的 AIGC 與生成式內(nèi)容分論壇順利告一段落。會(huì)場(chǎng)的氛圍相當(dāng)活躍,與會(huì)嘉賓也不吝傾囊相授,回答場(chǎng)內(nèi)觀眾的問(wèn)題,分享見(jiàn)解。
生成式 AI,在今天仍然是一個(gè)年輕的賽道,充滿著非共識(shí)和未知的挑戰(zhàn)。
而在 AIGC 的賽道上,從來(lái)不乏有勇氣、有認(rèn)知、敢實(shí)干的創(chuàng)新者,在這片未知的大陸,就算趟,也要趟出一條路來(lái),引領(lǐng)這一場(chǎng)硅基世界的內(nèi)容革命。
在后續(xù),雷峰網(wǎng)也將持續(xù)輸出與 AIGC 相關(guān)的其他內(nèi)容,以落地、踏實(shí)的方式探討生成式 AI 賦能現(xiàn)實(shí)世界、影響產(chǎn)業(yè)格局的可能性。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。