0
從畫圖到寫詩,從文案到制表,從PPT到寫代碼,十幾個月以前,如果有人說,這些工作都可以用 AI 代勞,相信的人恐怕寥寥無幾。
然而科技發(fā)展的起速卻總是爆炸性的,2023年還遠未結束,生成式 AI 的風潮就席卷了整個科技圈,讓人無不心馳神往,趨之若鶩。
在由 GAIR 研究院、雷峰網(wǎng)(公眾號:雷峰網(wǎng))、世界科技出版社、科特勒咨詢集團聯(lián)合主辦的第七屆 GAIR 全球人工智能與機器人大會上,AIGC 領域的各路大牛齊聚在新加坡烏節(jié)大酒店,向世界分享他們在生成式 AI 領域的一手信息和最新認知。
此次參與 GAIR AIGC 和生成式內容分論壇的發(fā)言嘉賓有:
南洋理工大學計算機科學與工程學院助理教授,潘新鋼
joinrealm.ai 創(chuàng)始人,蔡叢興
新加坡 Help&Grow 社群發(fā)起人,王桐
荔枝集團 CTO,丁寧
南洋理工大學高級研究科學家;Deepir Inc. 創(chuàng)始人,吳鵬程
騰訊海外游戲發(fā)行算法中心主任,郎君
在當下炙手可熱的 AI 賽道,如何保持清醒的頭腦,在技術、產品和商業(yè)模式上精研革新?與會嘉賓們又有哪些真知灼見,讓他們能夠在生成式 AI 的熱潮中長風破浪?
提到 AIGC,在當下的賽道,所有人第一個總會想起在海外評價頗高的 MidJourney,和它背后的技術支持——擴散模型。
而來自南洋理工大學計算機科學與工程學院的助理教授,曾在港中文師從湯曉鷗教授的潘新鋼,卻在他最新的“視覺內容關鍵點拖拽式編輯”中,果斷放棄了擴散模型,而是使用了一項更“老”的技術——生成對抗網(wǎng)絡(GAN)。
不少人看到了 AI 生成圖像的強大能力,就認為 AIGC 的時代已經來臨;而潘新鋼卻發(fā)現(xiàn),“生成圖像”往往不是用戶創(chuàng)作過程的最后一步。
后續(xù)對圖片的調整——尤其是對 AI 生成的畫面元素往往充滿不確定性,要滿足用戶的需求,就必須得讓畫面中的各個元素可以在后期被用戶微調。
比如 AI 生成了一只很逼真的獅子,用戶如果想要獅子的頭轉一轉、移動它的位置、甚至改變獅子的表情,以當下的產品形態(tài)就很難完成。
這些操作聽起來簡單,但都是關于物體空間屬性的精細控制,在技術上還面臨著巨大的挑戰(zhàn)。
過去曾有方式是沿襲文生圖的思璐,去根據(jù)文字的指引編輯圖片——比如“讓獅子的鼻子向右移動30像素”。
但這個解決思路也存在問題:
一方面,是文字模型對于物體空間屬性的理解必須足夠強大,才能滿足用戶不一而足的編輯需求和方式,讓交互更直觀;
另一方面,對于語言模型來說,它很難精確理解圖像中的長度和尺寸,這也給視覺內容編輯帶來了不小的麻煩。
交互層面,對于用戶來說,最直覺、最易用的,無疑是拖拽式的交互;而從技術實現(xiàn)層面,用戶只需要指定一個紅色的抓取點和藍色的目標點,由 AI 把紅點所對應的圖像的語義的部分,移到藍點的位置,就能達到對圖像空間屬性的編輯的效果。
在過去,也有人開發(fā)過類似的功能,但通常需要對所要編輯的圖像進行網(wǎng)格化,并且對物體的高度有一定的假設——對圖像的編輯不過是對原圖2D的扭曲變形,沒法生成新的內容。
既要精細,又要有生成內容,潘新鋼在做技術研判時并未采用當下最熱的擴散模型,而是選用了生成對抗網(wǎng)絡的技術。首先,是 GAN 所描述的圖像空間非常連續(xù),比擴散模型連續(xù)很多;其次 GAN 的 comtact 的隱空間非常適合編輯的屬性。
而隨著潘新鋼團隊研究的進一步發(fā)展,他們又在原有基礎上支持了多點編輯,可以讓圖像內的物品姿態(tài)改變,重新設計一款車的外形、或改變車的視角,讓一只小貓睜一只眼閉一只眼,改變人像的發(fā)型或表情、姿態(tài)或衣服長短,讓使用者能更方便地對圖像進行編輯,甚至可以以這個方式,來完成視頻內容的生成。
當下這個工作已在 GitHub 上開源,并且獲得了32000個 Star。
而未來,把 GAN 和擴散模型結合,是潘新鋼對于正在完成工作的一個愿景——既有擴散模型的生成能力,又有 GAN 在圖像編輯上的優(yōu)勢,同時也或許可以將這些能力運用到視頻和 3D、4D 內容中,讓未來的AIGC 更智能、也更易用。
從美國加州南灣硅谷的山景城而來,joinrealm.ai 的蔡叢興有一個做AIGC社交網(wǎng)絡的夢想。
2016年左右就加入 Snapchat,在公司負責短視頻的產品開發(fā),蔡叢興經歷過短視頻行業(yè)的超高速發(fā)展期。而在 TikTok 無有爭議地在海外成為了現(xiàn)象級產品之后,蔡叢興又動了別的心思:
“我們覺得,在生產式短視頻內容的賽道上,大家已經朝著某一個方向發(fā)展;而未來,在生成式視頻上,產業(yè)一定會有一個新的突破。”
于是,蔡叢興和朋友一起,創(chuàng)辦了 joinrealm.ai,
蔡叢興認為,AIGC是一個特別寬泛且抽象的概念,而 joinrealm.ai 的方向,主要是介于“直接提供API”和“完成人機交互革新”的中間地帶——對于內容創(chuàng)作商業(yè)模式的探索上。
“為什么內容創(chuàng)作這個模式很重要?基于我們對于短視頻的這個過去十年的觀察,很大的一個變革,實際上是因為智能相機的出現(xiàn)。智能相機的普及,很大的程度上它不僅僅是給了每個人一個手機,而是給世界提供了幾十億個移動的基礎設備。”
從“word”到“story”,是 joinrealm.ai 創(chuàng)業(yè)的一個核心關鍵——借由AI,用戶能把自己腦海中的內容呈現(xiàn)成圖像,就如同一個“思維的相機”。
而要想達到這個效果,蔡叢興在 joinrealm.ai 的探索中發(fā)現(xiàn),還有許多問題亟待解決:
首先,是 Prompt 和自然語言的差異仍然存在——Prompt 歸根結底還是一種大眾難以直覺理解的程序語言,用戶仍然要經歷大量的“嘗試-失敗-嘗試”的步驟,才能生成出他們想要的內容;
其次,就是基礎模型在今天仍然并不能完全滿足 AIGC 用戶的需求,以 Stable Diffusion 為例,新用戶愿意分享生成內容的比例,在今天大概還低于20%;
缺少可以由用戶精調的概念,也是 AIGC 當下面臨第一個重大的問題,用戶很難借由一套被定義了的概念,去控制 AI 的生成,也就很難控制自己“故事的講述”;
最后,就是圖像生成結果和成本之間的效率平衡,如何在更低的價格區(qū)間里,生成更高質量的內容,也是 AIGC 在當下一個難以忽略的問題。
為了迎接這些挑戰(zhàn),蔡叢興和團隊見了將近一百位有影響力的AI創(chuàng)作者,發(fā)現(xiàn)他們的制作方法大多獨特,很少雷同,并且都會使用大量的工具,不斷地調試、調節(jié)。
最終,joinrealm.ai 在研判后,決定在三個關鍵點完成升級:
首先是工具鏈,通過完成用戶交互界面的優(yōu)化,讓使用體驗更優(yōu);
其次是讓用戶可以自建自己的 fine-tune,比如使用“我”的描述,產品就可以以用戶自己的圖像為基礎,來更精準地生成自己想要的圖像。
第三就是自建社區(qū),讓用戶能夠在社區(qū)里獲得更多的使用教學和靈感啟發(fā)。
新加坡 Help&Grow 社群發(fā)起人王桐作為主持人,與 joinrealm.ai 創(chuàng)始人蔡叢興、荔枝集團的 CTO 丁寧、南洋理工大學高級研究科學家&Deepir Inc. 創(chuàng)始人 吳鵬程、騰訊海外游戲發(fā)行算法中心主任郎君共同探討了當下 AIGC 與生成式內容的熱點話題。
AIGC 的商業(yè)化模式更容易在 To B 領域落地還是在 To C 領域落地 ?各位嘉賓從各自經驗出發(fā)設想了未來的落腳點。
郎君認為,To B 并不好做,因為需要根據(jù)多個不同的實際案例抽象提煉出一種解決方案去應對,To C 方面,在做游戲的運營的時候可以幫助很多游戲玩家快速地融入進游戲。內部在做算法的時候,郎君和團隊也會不停地判斷什么樣的模式能更好地去深化 AIGC 落地的場景。
吳鵬程表示,To B 和 To C 都很有機會,但偉大的公司一定是 To C 。他結合妙鴨相機、蘋果 VR 眼鏡、數(shù)字人直播帶貨等今年在 ToC 層面做出成績的公司,強調 AIGC To C 會誕生很多有趣的應用。
丁寧認為,AIGC 的商業(yè)化仍然處于偏早期的階段,雖然有一些率先做出成績的公司,但大部分還在路上。他特別強調,對于技術創(chuàng)業(yè)者來說,不能僅僅沉浸于對技術的感動之中,還應更多的考慮用戶的需求和痛點。關于To B 和 To C 的落地,他表示To B 的市場很大,需要能力和資源,而To C 的競爭大,需要有對市場的敏銳察覺力、社區(qū)的運營能力等,兩者未來都很廣闊。
關于 AIGC 的出海和全球化,幾位嘉賓分享了他們總結的經驗。
郎君觀察到,國內的團隊有非常密集的人才優(yōu)勢,高效的知識分享途徑以及對互聯(lián)網(wǎng)行業(yè)的強大興趣,這種配置的資源在海外其實并不多。他強調,當下 AIGC 還沒有一個特別成熟的商業(yè)模式,所以誰有更好的資源組合的能力,誰就更容易“跑出來”。
丁寧認為,AIGC 出海首先要走出去,把身段放低,不一定非要把產品做到什么程度,意識到兩年到三年的時間內是很難一下子在市場中獲得成功。他補充到,尊重海外市場是很重要的,文化、語言、法律法規(guī)的差異都是這個非常大,需對當?shù)厥袌鲇星逦恼J知。
吳鵬程認為,AIGC 出海是很有機會的,一方面,可以把中國的技術用到國外;另一方面,國外也有本地需求,兩者可以做深度融合,會產生巨大價值。同時也需要考慮到,出海只是第一步,也需要考慮如何才能在海外更好地遨游。
8月15日上午,GAIR大會的 AIGC 與生成式內容分論壇順利告一段落。會場的氛圍相當活躍,與會嘉賓也不吝傾囊相授,回答場內觀眾的問題,分享見解。
生成式 AI,在今天仍然是一個年輕的賽道,充滿著非共識和未知的挑戰(zhàn)。
而在 AIGC 的賽道上,從來不乏有勇氣、有認知、敢實干的創(chuàng)新者,在這片未知的大陸,就算趟,也要趟出一條路來,引領這一場硅基世界的內容革命。
在后續(xù),雷峰網(wǎng)也將持續(xù)輸出與 AIGC 相關的其他內容,以落地、踏實的方式探討生成式 AI 賦能現(xiàn)實世界、影響產業(yè)格局的可能性。
雷峰網(wǎng)原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。