蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

本文作者：王悅

2023-08-31 19:29

導(dǎo)語：“ AIGC 技術(shù)的爆點遠(yuǎn)未達(dá)到”

編者按：2023年8月14日-15日，第七屆GAIR全球人工智能與機器人大會在新加坡烏節(jié)大酒店成功舉辦。

論壇由GAIR研究院、雷峰網(wǎng)、世界科技出版社、科特勒咨詢集團聯(lián)合主辦。大會共開設(shè)10個主題論壇，聚焦大模型時代下的AIGC、Infra、生命科學(xué)、教育，SaaS、web3、跨境電商等領(lǐng)域的變革創(chuàng)新。這是國內(nèi)首個出海的AI頂級論壇，也是中國人工智能影響力的一次跨境溢出。

在「AIGC 和生成式內(nèi)容」分論壇上，joinrealm.ai 創(chuàng)始人蔡叢興以《 AI Generation Challenges 》為主題分享了AIGC 的歷史與發(fā)展、機遇和挑戰(zhàn)。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

蔡叢興在演講開始即指出，當(dāng)下生成式 AI 產(chǎn)品落地的基礎(chǔ)難度在不斷上升，同時對于生成式技術(shù)的邊界認(rèn)知也在逐漸提高。

蔡叢興認(rèn)為，內(nèi)容生成里有三個相互 dependent 的因素，一個是 foundational model，第二個是基于 foundation model 創(chuàng)建出來的 fine tune，第三個是文字上的 prompt 的engineering。因此，這一相互依賴的系統(tǒng)在很大程度上依賴于一個社區(qū)，即在 fine tune 和 foundational model space 內(nèi)找到新的、最適合的 prompt language，也就是特殊的使用語言。

由于 AIGC 技術(shù)還沒像 ChatGPT 一樣達(dá)到一個爆點，所以蔡叢興判斷，當(dāng)下的創(chuàng)業(yè)者需要回歸到對三個問題的思考：其一為是否能夠清晰地為目標(biāo)用戶畫像；其二為是否能夠找到最適合用戶的 unique 的workflow；其三為是否能夠 tap into existing distribution 以實現(xiàn)增長。

以下為蔡叢興的現(xiàn)場演講內(nèi)容，雷峰網(wǎng)(公眾號：雷峰網(wǎng))在不改變原意的前提下進(jìn)行了編輯和整理：

很榮幸今天可以在這里和大家一起交流討論關(guān)于這AIGC 創(chuàng)業(yè)的一些收獲，我來這里的主要目之一也是想認(rèn)識更多的 AIGC 創(chuàng)業(yè)者，然后大家可以更深入地討論這個問題。在接下來二十幾分鐘的時間，我就做一些拋磚引玉，講一講我們的收獲。

在過去的幾年里，生成式 AI 發(fā)展很快，尤其是過去的一年，其中最主要的原因可能是生成式內(nèi)容的用戶接受度很高，所以導(dǎo)致市場的發(fā)展都很迅猛。隨著更多的投入，我們對于生成式技術(shù)的認(rèn)知也發(fā)生了很大的變化。

今天去討論這個問題的時候，最主要的一個感受是我們在這個過程中對于產(chǎn)品落地的基礎(chǔ)難度的認(rèn)識是在不斷的增加的，但同時對于生成式技術(shù)可能產(chǎn)生的邊界也在不斷的成長。所以今天將會聚焦在我們所意識到的真實挑戰(zhàn)上的一些問題，然后從這里開始展開。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

做一個簡單的介紹，Realm 主要是做基于 AIGC 的社交網(wǎng)絡(luò)，待會我會介紹更多我們的工作。

目前團隊主要是在美國加州。就我個人的經(jīng)歷而言，十幾年前開始做語言模型，從研究到工程，再由工程到產(chǎn)品，再由產(chǎn)品到商業(yè)。我早期的研究工作主要是在語言模型，在摘要和 ranking 能力的應(yīng)用。加入 Google 之后，我接觸到的第一個項目實際上是的 YouTube 早期的視頻廣告，當(dāng)時就發(fā)現(xiàn)這樣的一款短視頻廣告能夠產(chǎn)生非常大的效果，就是它很快就成為了 YouTube 的 revenue dominate source。

當(dāng)時我就有一個很簡單的假設(shè)，如果所有的內(nèi)容都是由短視頻代替的話，會產(chǎn)生什么樣的效果？所以2011年左右我就找了很多好朋友去討論，說有沒有一種可能性，短視頻會取代用戶的內(nèi)容。當(dāng)時有一個很大的限制，就是在內(nèi)容的制作工具上達(dá)不到這種實名制的效果。

當(dāng)時有一位同學(xué)分享了國內(nèi)的快手這樣一款 APP，然后那款 APP 當(dāng)時還是以 gif 的制作為主，就是它生成的內(nèi)容已經(jīng)有了一定的故事性，但是還遠(yuǎn)遠(yuǎn)達(dá)不到短視頻的效果和視頻廣告的效果。但過了兩年多之后，隨著蘋果推出了前置相機，包括高清視頻的錄制這些功能都出現(xiàn)，短視頻的這趨勢也就一發(fā)不可阻擋。我在 15 年左右的時候加入了 Snapchat ，是海外最有潛力的短視頻的公司，在過去幾年的時間里一直都是 Snapchat 所有的短視頻的產(chǎn)品開發(fā)。2021 年左右，由于 TikTok 的成功，我發(fā)覺到表達(dá)式的生成式視頻一定會有新突破。

所以我和我的同伴一起出來成立這家創(chuàng)業(yè)公司，專注在做生成式視頻，這是我和我的cofounder的聯(lián)系方式，大家可以加我們的 Linkedin，歡迎之后有更多的討論。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

接下來，我們來講AIGC。我覺得 AIGC 是一個特別寬泛的概念，它實際上非常抽象。從技術(shù)的角度來看，在過去的幾年里，大家已經(jīng)達(dá)到了認(rèn)知的共識，它指代的是由大語言模型引發(fā)的、由文字生成內(nèi)容的一種生產(chǎn)手段。那我們?nèi)ソ庾x它的時候，我覺得有必要來講一講 mental model，因為它會決定我們從哪個角度去看。

從細(xì)到遠(yuǎn)，mental model 大概有三種不同的layer。最新的layer就是直接把它做一個 ATI service，比如微軟、谷歌上線的一些產(chǎn)品會直接拿 AIGC 作為一個service，去加強現(xiàn)有的產(chǎn)品。更遠(yuǎn)一點的話，從整個軟件開發(fā)模式上來看，已經(jīng)從過去 50 年中微軟的這一套以 API 為主的軟件開發(fā)模式過渡到自然語言為界面的軟件開發(fā)模式，這可能會是一個軟件開發(fā)形式的變化，更多的是一些哲學(xué)上、包括產(chǎn)品管理上的一些討論。

在中間地帶，就是我們創(chuàng)業(yè)公司對于新的商業(yè)模式的一個探索。這一探索主要有三個方向，第一是摘要，摘要最主要的應(yīng)用是搜索，包括 QA 都是摘要里面最主要的模式。第二是推理，推理主要集中偏智能助手應(yīng)用之類的應(yīng)用模式；第三是在創(chuàng)作，我們主要專注于內(nèi)容創(chuàng)作這一商業(yè)模式。

為什么內(nèi)容創(chuàng)作模式很重要？根據(jù)我過去十年對短視頻的觀察，很大的一個變革是因為智能相機的出現(xiàn)，智能相機的普及不僅僅是給了每個人一個手機，而是給了幾十億個行走在世界各地的錄制設(shè)備。

如果用智能相機促成成功的創(chuàng)業(yè)公司也有很多，比如TikTok、Instagram、Snapchat，很多很新的 to consumer 產(chǎn)品都是由于智能相機的普及才產(chǎn)生的。

我們一開始出來創(chuàng)業(yè)的時候，對表達(dá)式視頻的腦海中的 mental model是，如果智能相機給了幾十億人一個行走的記錄設(shè)備，去記錄這個真實的世界，那么有沒有一種相機是可以記錄人的腦海中的假象。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

我這有一個博客，起初 AIGC 還沒有那么成功，我們當(dāng)時做了大概 10 款不同的產(chǎn)品，每一款產(chǎn)品用了不一樣的技術(shù)，最后進(jìn)行了聚焦。它的本質(zhì)上從用戶體驗的角度來講其實就是用 word 到story。這是我們最新的 APP 上的效果，你可以說 a girl、一個很恐怖的臥室、然后這個 girl 在恐怖的臥室里面睡覺、這個 girl 在這個恐怖的臥室里面睡覺的同時旁邊站著兩個ghost，但是到第四個的時候就已經(jīng)不work，因為 ghost 的空間關(guān)系，包括它們之間的空間距離感是 lost 的。

這樣一個簡單的example，可以告訴大家兩個點：第一點是我們還沒有辦法很好地做到第三步，但是這個速度發(fā)展很快，因為三個月前我們卡在了第二步，所以現(xiàn)在到了第三步，也有很多人覺得第四步也OK，但如果你讓上百萬的用戶去用那就不 OK 了。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

剛才分享了我們是怎樣去探索這個新的商業(yè)模式的，以什么樣的 mental model 去探索商業(yè)模式。最終我們選擇從 text image 開始出發(fā)，選擇它最主要的原因是我們覺得它是 storytelling 最核心的部分，是最后的 foundation。那這張圖是我上周五在那個倫敦旁邊的那個巴斯的修道院拍的。當(dāng)時有個新一代的畫家，會用自己新的畫具體重新解釋一個故事，非常 impressive，但是它本質(zhì)上是說畫作為人類歷史里面的一個重要的 story telling的這樣的一個工具，它實際上是抓住了這個故事本身最重要的部分。

另外一個原因是生成式內(nèi)容可以很容易地和其他的文字組合去支持其他內(nèi)容形態(tài)，比方說 me 、coffee都很容易。

第三點是由于技術(shù)本身也非常容易去 scale 到，對于音樂生成、語音的生成也都非常的簡單。

如果我們最終的目的是生成視頻的話，視頻的維度非常多。從我們自身的角度來講，內(nèi)容本身的故事性是視頻成功最關(guān)鍵的因素。所以說我們選擇從 text image 作為我們最核心的這種 focus 的點當(dāng)中，我們也做和 ChatGPT 的整合，之后如果有機會也可以一起討論。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

那么它什么地方還不行？第一個最不行的地方在于它還不能是 word to story，它實際上是 prompt to story。prompt 是一個非常 confuse 的一個概念，它實際上是一個就是這樣一個過程，可以通過語言不斷地用文字去描述這個你腦海中的這個細(xì)節(jié)，可以通過加定語去描述 context、加一個形容詞去描述framing、加入 subject、可以加各種各樣的style， vocabulary 越 rich 就越好。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

這個時候你可以去畫想象中的這個女神是什么樣子，但如果只有一個beautiful，那肯定是不行的。你要知道美的 20 種說法，要知道關(guān)于形態(tài)、眼神的無數(shù)個單詞，還有很多單詞可能字典里都找不到，這是最主要的難點。

其實 prompt是一種程序語言，它比程序語言更難的地方在于它沒有 structure ，所以需要很多的 try and error 才能夠真正達(dá)到想要的效果。另外一點是需要對于某種方向有非常密實的詞匯量的掌控，詞匯量越豐富，細(xì)節(jié)就會越多。也包括在 account 里面有更多的markup，有更多的 advance target，可以做非常精確的控制。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

這里也可以通過簡單的文字去進(jìn)行兩個 concept 的mix，比方說你喜歡兩個這個角色，你可以輕松用這兩個詞去把它拼成一個詞，比如劉德華和周潤發(fā)，可以拼成一個人。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

還有很多數(shù)據(jù)上的操作，是 Pixel 上的一些精確的控制，比方說我們隨便做一個簡單的一個端口，上傳一個圖片，把人臉給畫下來，然后換一個詞mix。除了這個 Pixel 上的控制，還能有 sematic 上的控制，可以控制它的形狀、結(jié)構(gòu)、位置，包括后續(xù)的這些post，這些工作都是朝 Prompt 的角度進(jìn)行深入。那我們今天在這個角度上就不再繼續(xù)深入地聊聊，但希望大家能 take back 到的最重要的點就是 Prompt 還不是自然語言，它是非常難掌握的一種編程語言。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

第二個點是 foundation model。目前所有的新聞、research 主要的關(guān)注點實都在 foundation model上。關(guān)于foundational model我想分享幾個觀念：

觀念一是圖像生成的早期 foundation model 的效果不是很好，沒有什么可供參考的針對用戶的數(shù)據(jù)，我們內(nèi)部對數(shù)據(jù)的一個判斷就是對于一個新用戶來說，他愿意分享的用于生成的照片比例是大概是低于20%。

觀念二是 foundation 的 model 進(jìn)步得非常快，在過去六個月的時間里面， SDXL 的效果大概能提高 4 到 5 倍。所以我們內(nèi)部的數(shù)據(jù)還沒有完全出來，因為所有的整合還沒有完全完成，我們會繼續(xù)觀察大概效果是多少。

觀念三是，研究過 SDXL 相關(guān)結(jié)果生成的一些 example ，我個人感覺，open source 的模型已經(jīng)遠(yuǎn)遠(yuǎn)超過 OpenAI 的這些 close source ，也已經(jīng)超過了最新版的 Mid-Journey 。昨天很多人講，做大模型需要很多資源，三駕馬車之類的，但其實大模型還是很多機會的。如果在座的各位是創(chuàng)業(yè)者沒有大量的機器，圖像生成是一個很好的選項，只需要一臺電腦就可以。

第三個點是我們有一個非常大的一個 community contribution，主要是基于 Dreambooth 的 technology 做了很多對房地產(chǎn)模型的優(yōu)化，還有特定場景，包括二次元、人物畫像等，我們對這些模型做了內(nèi)部的evaluation，在特定應(yīng)用場景上的效果是非常好的。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

敘述想象世界的過程中，除了需要有生成的工具和好的 prompt，第三個就是需要有 concept。就是我不僅僅需要一個girl在一個恐怖的房間里，我需要一個 specific girl，我們設(shè)計出來的那個人在我想要的房間里面做一件 specific 的事情，獲得一個 specific 的效果。那么，這需要大量的用戶利用各種已有的 framework 去創(chuàng)建各種各樣的 fine tune 機制。這個機制有很多的 know how、knowledge，我們對這個機制的一些體會，也會隨著實踐過程不斷變化。

但我們可以看到一些非常好的應(yīng)用，比如對人物的設(shè)計，可以設(shè)計出想象中的人物，然后也可以去設(shè)計想象中的場景和風(fēng)格，甚至可以控制拍攝的視角，而且控制的方法都很簡單，那就是創(chuàng)建出屬于你的獨特的單詞，用詞去控制故事的講述。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

講到這里，我們解釋清楚了內(nèi)容生成里三個相互 dependence 的因素，一個是 foundational model，第二個是基于 foundation model 創(chuàng)建出來的各種 fine tune，然后是基于 fine tune 的文字上的 prompt 的engineering。這三個因素之間是相互 dependent 的，也就是當(dāng)你的 foundational model change 的時候， fine tune 實際上是會對特定的 foundation model 產(chǎn)生特定的效果，然后特定的這一套 foundation model 實際上會對 prompt effect 產(chǎn)生效果。

所以這在很大程度上依賴于社區(qū)，在 fine tune 和 foundational model space 內(nèi)找到新的、最適合它 prompt language，也就是特殊的使用語言，這就是他的 depending 思路。

接下來還有幾點分享，由于這樣的 trade off 和你可以 navigate 一個空間，所以如果你心目中有一個特定的application，比如拍寫真照或拍一個二次元的東西，那么就總是可以通過某種 trade off 達(dá)到想要的效果，但同時很 complicit 就是 cost，即你會用多少的代價去實現(xiàn)這件事情。如果希望做出一款非常general的，那么就需要很多的 engineering 的 carefully decision。

同時，如果想做大規(guī)模的 to consumer 場景， GPU 的 cost 是一個很重要的問題。我們團隊的解決方案是對所有的實踐的 influence 做了一套 CPU 的 solution，然后也建立了他們的 quality，可以 compare， cost 會更低，而且效果上也可以重復(fù)。但是我們也見過其他人有別的想法和嘗試，就像通過手機上的應(yīng)用，用 GPU 去做這些事情。不過我們主要的 focus 在 CPU 的解決方案，而且已經(jīng)得到了驗證。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

講完 challenge 之后，最后回歸到“真正的機會在哪”這個問題上？在過去 6 個月的時間里，大概見了上百位美國最 popular 的 AI creator，大家可以在 YouTube 上去看 AI show。我最近特別喜歡它，是用 AI 做的 movie trailer，把各種各樣的角色混到一起，非常有意思。我們對于這個技術(shù)或看到這個結(jié)構(gòu)，會覺得這怎么可能？這怎么做到？所以這給我最大的沖擊就是creativity，大家是非常有想象力的；其次就是他們每個人都是一套獨立的制作方法，沒有相似的途徑；第三就是他們每個人都會使用大量的工具。

而他們唯一的共同點就是 try and error，通過這個過程不斷地去調(diào)試、去調(diào)節(jié)，找到一條屬于自己創(chuàng)新的工具，這也是我們對這件事情最重要的總結(jié)。所以，最后想要達(dá)成這種生產(chǎn)效果，很大程度上依賴于對 workflow 的探索和對 workflow 的實驗。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

我們再來講講 Market Opportunities 。因為技術(shù)可能還沒有達(dá)到像 GPT 那樣的一個 break point，成為一個通用技術(shù)，每個人都覺得OK， i can get it，它實際上還沒有達(dá)到這個moment。所以走到今天，創(chuàng)業(yè)需要回歸到三個問題，第一點是你能不能夠清晰地畫像目標(biāo)用戶；第二個點是你能不能夠去找到最適合用戶的 unique 的workflow；第三點是能夠 tap into existing distribution 去實現(xiàn)一個增長。這也是我這次來一個主要目的，我相信這里有很多的創(chuàng)業(yè)者都是以此作為努力的方向，我們有很多可以交流的地方。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

其實，可以把 Realm 理解成一個 Instagram for a personal imagination。我們在做三件事情：第一件事是，把所有最新的 prompt 的 technology 集成一個非常易用的手機端的 interface ，使用它時就像用一款相機一樣去描述自己的想象。第二件事是，讓每個人都可以在使用、創(chuàng)建自己的 fine tune， share 自己的 fine tune；第三件事是，給大家一個 creator community，因為 prompt 需要很多的 education 和integration，因此可以從別人那里獲得靈感和idea。

對于在做的各位來講，如果你還沒有接觸 AIGC 或者內(nèi)容生成，其實 Realm 是一個特別適合 get start 的地方。其一是因為它為普通用戶設(shè)計，很多非常深的技術(shù)名詞、技術(shù)細(xì)節(jié)都可以像學(xué)自拍管理一樣去把這些東西領(lǐng)會到。其二是因為它很便宜，因為用的是CPU，可以用可控的方式去來 lower 它的 generation cost，大概在 mission 上要比很多 generation 便宜很多，如果是普通用戶的話，基本上可以不花錢。其三是因為可以接觸到最新的technology，所有的 model 都可以隨時更新，也會有一個 community 去 learn from each other。

關(guān)于 startup 我們還可以有機會一起討論，做 workflow 最難的點是發(fā)現(xiàn) tradeoff，另外一個是有一個 community 去幫助探索 prompt attention。

除此之外還可以考慮能不能提供一些 besides APP 的access，讓大家去 leverage 我們做的一些工作。最后一個是research，15 年前我開始做research，其實它最重要的一點是能夠快速地實驗，快速地分享demo， share 我的 demo 或者是 user 的demo，然后能夠快速 get feedback，也就是從數(shù)據(jù)上知道你的模型怎樣和現(xiàn)有的東西去審核，效果是什么樣的。

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

這是我大概 brainstorm 了一下，希望可以和在座的各位有一些交流和合作，以上就是我今天的主要內(nèi)容，謝謝各位。

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

王悅

主筆

發(fā)私信

當(dāng)月熱門文章

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023

蔡叢興：從語詞到「故事」，AIGC 要做思想的「相機」丨GAIR 2023