AIGC：熱潮之下，前沿在哪？丨GAIR 2023

本文作者：董子博

2023-10-08 13:20

導語：在 GAIR 上，看到生成式AI的過去、現在和未來。

從畫圖到寫詩，從文案到制表，從PPT到寫代碼，十幾個月以前，如果有人說，這些工作都可以用 AI 代勞，相信的人恐怕寥寥無幾。

然而科技發(fā)展的起速卻總是爆炸性的，2023年還遠未結束，生成式 AI 的風潮就席卷了整個科技圈，讓人無不心馳神往，趨之若鶩。

在由 GAIR 研究院、雷峰網(公眾號：雷峰網)、世界科技出版社、科特勒咨詢集團聯合主辦的第七屆 GAIR 全球人工智能與機器人大會上，AIGC 領域的各路大牛齊聚在新加坡烏節(jié)大酒店，向世界分享他們在生成式 AI 領域的一手信息和最新認知。

此次參與 GAIR AIGC 和生成式內容分論壇的發(fā)言嘉賓有：

南洋理工大學計算機科學與工程學院助理教授，潘新鋼

joinrealm.ai 創(chuàng)始人，蔡叢興

新加坡 Help&Grow 社群發(fā)起人，王桐

荔枝集團 CTO，丁寧

南洋理工大學高級研究科學家；Deepir Inc. 創(chuàng)始人，吳鵬程

騰訊海外游戲發(fā)行算法中心主任，郎君

在當下炙手可熱的 AI 賽道，如何保持清醒的頭腦，在技術、產品和商業(yè)模式上精研革新？與會嘉賓們又有哪些真知灼見，讓他們能夠在生成式 AI 的熱潮中長風破浪？

南洋理工大學潘新鋼：視覺內容關鍵點拖拽，我們沒有選用擴散模型

提到 AIGC，在當下的賽道，所有人第一個總會想起在海外評價頗高的 MidJourney，和它背后的技術支持——擴散模型。

而來自南洋理工大學計算機科學與工程學院的助理教授，曾在港中文師從湯曉鷗教授的潘新鋼，卻在他最新的“視覺內容關鍵點拖拽式編輯”中，果斷放棄了擴散模型，而是使用了一項更“老”的技術——生成對抗網絡（GAN）。

不少人看到了 AI 生成圖像的強大能力，就認為 AIGC 的時代已經來臨；而潘新鋼卻發(fā)現，“生成圖像”往往不是用戶創(chuàng)作過程的最后一步。

后續(xù)對圖片的調整——尤其是對 AI 生成的畫面元素往往充滿不確定性，要滿足用戶的需求，就必須得讓畫面中的各個元素可以在后期被用戶微調。

比如 AI 生成了一只很逼真的獅子，用戶如果想要獅子的頭轉一轉、移動它的位置、甚至改變獅子的表情，以當下的產品形態(tài)就很難完成。

這些操作聽起來簡單，但都是關于物體空間屬性的精細控制，在技術上還面臨著巨大的挑戰(zhàn)。

過去曾有方式是沿襲文生圖的思璐，去根據文字的指引編輯圖片——比如“讓獅子的鼻子向右移動30像素”。

但這個解決思路也存在問題：

一方面，是文字模型對于物體空間屬性的理解必須足夠強大，才能滿足用戶不一而足的編輯需求和方式，讓交互更直觀；

另一方面，對于語言模型來說，它很難精確理解圖像中的長度和尺寸，這也給視覺內容編輯帶來了不小的麻煩。

交互層面，對于用戶來說，最直覺、最易用的，無疑是拖拽式的交互；而從技術實現層面，用戶只需要指定一個紅色的抓取點和藍色的目標點，由 AI 把紅點所對應的圖像的語義的部分，移到藍點的位置，就能達到對圖像空間屬性的編輯的效果。

在過去，也有人開發(fā)過類似的功能，但通常需要對所要編輯的圖像進行網格化，并且對物體的高度有一定的假設——對圖像的編輯不過是對原圖2D的扭曲變形，沒法生成新的內容。

既要精細，又要有生成內容，潘新鋼在做技術研判時并未采用當下最熱的擴散模型，而是選用了生成對抗網絡的技術。首先，是 GAN 所描述的圖像空間非常連續(xù)，比擴散模型連續(xù)很多；其次 GAN 的 comtact 的隱空間非常適合編輯的屬性。

而隨著潘新鋼團隊研究的進一步發(fā)展，他們又在原有基礎上支持了多點編輯，可以讓圖像內的物品姿態(tài)改變，重新設計一款車的外形、或改變車的視角，讓一只小貓睜一只眼閉一只眼，改變人像的發(fā)型或表情、姿態(tài)或衣服長短，讓使用者能更方便地對圖像進行編輯，甚至可以以這個方式，來完成視頻內容的生成。

當下這個工作已在 GitHub 上開源，并且獲得了32000個 Star。

而未來，把 GAN 和擴散模型結合，是潘新鋼對于正在完成工作的一個愿景——既有擴散模型的生成能力，又有 GAN 在圖像編輯上的優(yōu)勢，同時也或許可以將這些能力運用到視頻和 3D、4D 內容中，讓未來的AIGC 更智能、也更易用。

joinrealm.ai 蔡叢興：做基于 AIGC 的社交網絡

從美國加州南灣硅谷的山景城而來，joinrealm.ai 的蔡叢興有一個做AIGC社交網絡的夢想。

2016年左右就加入 Snapchat，在公司負責短視頻的產品開發(fā)，蔡叢興經歷過短視頻行業(yè)的超高速發(fā)展期。而在 TikTok 無有爭議地在海外成為了現象級產品之后，蔡叢興又動了別的心思：

“我們覺得，在生產式短視頻內容的賽道上，大家已經朝著某一個方向發(fā)展；而未來，在生成式視頻上，產業(yè)一定會有一個新的突破?！?/p>

于是，蔡叢興和朋友一起，創(chuàng)辦了 joinrealm.ai，

蔡叢興認為，AIGC是一個特別寬泛且抽象的概念，而 joinrealm.ai 的方向，主要是介于“直接提供API”和“完成人機交互革新”的中間地帶——對于內容創(chuàng)作商業(yè)模式的探索上。

“為什么內容創(chuàng)作這個模式很重要？基于我們對于短視頻的這個過去十年的觀察，很大的一個變革，實際上是因為智能相機的出現。智能相機的普及，很大的程度上它不僅僅是給了每個人一個手機，而是給世界提供了幾十億個移動的基礎設備。”

從“word”到“story”，是 joinrealm.ai 創(chuàng)業(yè)的一個核心關鍵——借由AI，用戶能把自己腦海中的內容呈現成圖像，就如同一個“思維的相機”。

而要想達到這個效果，蔡叢興在 joinrealm.ai 的探索中發(fā)現，還有許多問題亟待解決：

首先，是 Prompt 和自然語言的差異仍然存在——Prompt 歸根結底還是一種大眾難以直覺理解的程序語言，用戶仍然要經歷大量的“嘗試-失敗-嘗試”的步驟，才能生成出他們想要的內容；

其次，就是基礎模型在今天仍然并不能完全滿足 AIGC 用戶的需求，以 Stable Diffusion 為例，新用戶愿意分享生成內容的比例，在今天大概還低于20%；

缺少可以由用戶精調的概念，也是 AIGC 當下面臨第一個重大的問題，用戶很難借由一套被定義了的概念，去控制 AI 的生成，也就很難控制自己“故事的講述”；

最后，就是圖像生成結果和成本之間的效率平衡，如何在更低的價格區(qū)間里，生成更高質量的內容，也是 AIGC 在當下一個難以忽略的問題。

為了迎接這些挑戰(zhàn)，蔡叢興和團隊見了將近一百位有影響力的AI創(chuàng)作者，發(fā)現他們的制作方法大多獨特，很少雷同，并且都會使用大量的工具，不斷地調試、調節(jié)。

最終，joinrealm.ai 在研判后，決定在三個關鍵點完成升級：

首先是工具鏈，通過完成用戶交互界面的優(yōu)化，讓使用體驗更優(yōu)；

其次是讓用戶可以自建自己的 fine-tune，比如使用“我”的描述，產品就可以以用戶自己的圖像為基礎，來更精準地生成自己想要的圖像。

第三就是自建社區(qū)，讓用戶能夠在社區(qū)里獲得更多的使用教學和靈感啟發(fā)。

圓桌討論：AIGC“走出去”

新加坡 Help&Grow 社群發(fā)起人王桐作為主持人，與 joinrealm.ai 創(chuàng)始人蔡叢興、荔枝集團的 CTO 丁寧、南洋理工大學高級研究科學家&Deepir Inc. 創(chuàng)始人吳鵬程、騰訊海外游戲發(fā)行算法中心主任郎君共同探討了當下 AIGC 與生成式內容的熱點話題。

AIGC 的商業(yè)化模式更容易在 To B 領域落地還是在 To C 領域落地？各位嘉賓從各自經驗出發(fā)設想了未來的落腳點。

郎君認為，To B 并不好做，因為需要根據多個不同的實際案例抽象提煉出一種解決方案去應對，To C 方面，在做游戲的運營的時候可以幫助很多游戲玩家快速地融入進游戲。內部在做算法的時候，郎君和團隊也會不停地判斷什么樣的模式能更好地去深化 AIGC 落地的場景。

吳鵬程表示，To B 和 To C 都很有機會，但偉大的公司一定是 To C 。他結合妙鴨相機、蘋果 VR 眼鏡、數字人直播帶貨等今年在 ToC 層面做出成績的公司，強調 AIGC To C 會誕生很多有趣的應用。

丁寧認為，AIGC 的商業(yè)化仍然處于偏早期的階段，雖然有一些率先做出成績的公司，但大部分還在路上。他特別強調，對于技術創(chuàng)業(yè)者來說，不能僅僅沉浸于對技術的感動之中，還應更多的考慮用戶的需求和痛點。關于To B 和 To C 的落地，他表示To B 的市場很大，需要能力和資源，而To C 的競爭大，需要有對市場的敏銳察覺力、社區(qū)的運營能力等，兩者未來都很廣闊。

關于 AIGC 的出海和全球化，幾位嘉賓分享了他們總結的經驗。

郎君觀察到，國內的團隊有非常密集的人才優(yōu)勢，高效的知識分享途徑以及對互聯網行業(yè)的強大興趣，這種配置的資源在海外其實并不多。他強調，當下 AIGC 還沒有一個特別成熟的商業(yè)模式，所以誰有更好的資源組合的能力，誰就更容易“跑出來”。

丁寧認為，AIGC 出海首先要走出去，把身段放低，不一定非要把產品做到什么程度，意識到兩年到三年的時間內是很難一下子在市場中獲得成功。他補充到，尊重海外市場是很重要的，文化、語言、法律法規(guī)的差異都是這個非常大，需對當地市場有清晰的認知。

吳鵬程認為，AIGC 出海是很有機會的，一方面，可以把中國的技術用到國外；另一方面，國外也有本地需求，兩者可以做深度融合，會產生巨大價值。同時也需要考慮到，出海只是第一步，也需要考慮如何才能在海外更好地遨游。