0
本文作者: 王玥 | 2022-11-28 20:57 |
公元2020年左右,也就是當(dāng)下,對(duì)于經(jīng)典科幻電影來(lái)說(shuō)是一個(gè)科技發(fā)展的重要節(jié)點(diǎn)。
1982年上映的電影《銀翼殺手》,對(duì)2019年的世界進(jìn)行了華麗冰冷的幻想 —— 復(fù)制人、飛行汽車、電子器官、星球殖民……
想象力爆炸的80時(shí)代,讓創(chuàng)造者充滿了對(duì)未來(lái)科技的渴望與信任,他們認(rèn)為40年時(shí)間已足夠科技發(fā)展到幻想水準(zhǔn)。
然而事實(shí)是,如今再品《銀翼殺手》,看著男主角在剛過(guò)去不久的2019年開著飛行汽車追擊復(fù)制人,實(shí)在讓科幻迷們有些笑不出來(lái)——當(dāng)初幻想的步子還是邁得太大了。我們的城市沒(méi)有變成賽博朋克風(fēng)格;機(jī)器人還沒(méi)有做到復(fù)制人以假亂真的水準(zhǔn);汽車無(wú)人駕駛都還沒(méi)研究成,更別提飛了……
圖注:《銀翼殺手》中2019年的賽博朋克城市
當(dāng)人們感嘆如今的科技發(fā)展完全跟不上80年代的想象時(shí),最近卻有一種技術(shù)野蠻生長(zhǎng),一經(jīng)問(wèn)世便引起圈層地震。雖還沒(méi)有完全長(zhǎng)成,但它很有可能取代世界上最有才華的一群人類——?jiǎng)?chuàng)作者。
這就是 AIGC( AI Generated Content)。
AIGC,即 AI 生成內(nèi)容技術(shù),讓 AI 完成原本只有人類才能做到的原創(chuàng)性工作。這個(gè)科幻電影都沒(méi)敢想象能在2022年成真的技術(shù),卻真的提前來(lái)到了我們身邊,并以天為單位不斷進(jìn)化。
就在2個(gè)月前,「文生圖(text-to-image)」還是外網(wǎng)網(wǎng)友和中國(guó)極客才能玩到的小眾黑科技,而2個(gè)月后的現(xiàn)在,直接通過(guò)微信小程序或手機(jī) APP 就能體驗(yàn)到 AI 繪畫。就算是完全不會(huì)畫畫的人,輸入一段文字,AI 便能生成一張像模像樣的圖片,要是文字調(diào)教得好,還能生成頗為驚艷的杰作。
這不由得讓藝術(shù)界警鈴大作:AI 都能帶著不會(huì)畫畫的人飛,我學(xué)藝幾十年圖個(gè)啥!
就當(dāng)文字愛(ài)好者以為文學(xué)置身事外時(shí),早已有作者使用 AI 文本生成產(chǎn)品寫小說(shuō)。有人生成短篇小說(shuō)發(fā)表到知名平臺(tái),有人制作長(zhǎng)篇小說(shuō)成功簽約賺訂閱費(fèi),共同點(diǎn)是都隱瞞了使用 AI 的真相。讀者熬夜看玄幻小說(shuō)看得心潮澎湃,壓根不知道自己看的小說(shuō)根本不是人類寫的。
有人創(chuàng)意強(qiáng)但沒(méi)創(chuàng)作能力,認(rèn)為 AI 是幫助自己產(chǎn)出佳作的利器;有人熱愛(ài)原創(chuàng),認(rèn)為 AI 生成內(nèi)容是對(duì)「原創(chuàng)」二字的褻瀆——無(wú)論事實(shí)更偏向何種情況,不可否認(rèn)的是,AIGC 顛覆了內(nèi)容創(chuàng)作的方式,且永遠(yuǎn)不可逆轉(zhuǎn)。
AIGC 爆火的真相,恰恰蘊(yùn)含在「人類被替代」的恐慌當(dāng)中 —— 內(nèi)容創(chuàng)作方式終于走下了神壇。
在上個(gè)世紀(jì),只有專業(yè)人士能發(fā)表小說(shuō)、拍電影;而近年,已有大量非專業(yè)人士成功發(fā)表了原創(chuàng)網(wǎng)絡(luò)小說(shuō),在抖音等短視頻平臺(tái)上發(fā)布自制短視頻甚至微電影 …… 生機(jī)愈見繁榮,但內(nèi)容創(chuàng)作方式僅僅是從 PGC (專業(yè)生成)轉(zhuǎn)向 UGC(用戶生成),開放的門縫不寬,對(duì)于「才華」的要求也只高不低。
而 AIGC 在今年秋天的問(wèn)世,激起學(xué)藝者慌亂之余,令世人看到一場(chǎng)內(nèi)容創(chuàng)作方式的革命開端 —— 每個(gè)人都能做編劇、作家、漫畫家、分鏡師、動(dòng)畫導(dǎo)演……每個(gè)人都能成為任何一種內(nèi)容創(chuàng)作者。
要知道,一切依靠互聯(lián)網(wǎng)而繁榮的生態(tài)都需要流量,而流量只會(huì)為了內(nèi)容而來(lái)。如果 AI 能將創(chuàng)作的大門開放給所有人,將創(chuàng)作權(quán)下放到每個(gè)人手中,AIGC 在這片藍(lán)海中創(chuàng)造的價(jià)值將突破想象!
然而,AIGC 這個(gè)概念似乎隨著井噴的「文生圖」產(chǎn)品出現(xiàn)并一舉成名??烧覀€(gè)業(yè)內(nèi)人士打聽,會(huì)發(fā)現(xiàn)這個(gè)名詞其實(shí)早在數(shù)年前就出現(xiàn)在了產(chǎn)品經(jīng)理口中,只是沒(méi)什么人關(guān)注而已,但 AIGC 絕對(duì)不是一個(gè)新鮮玩意。
況且,讓 AI 畫圖的工作早已出現(xiàn)不少,其中有開辟之功的莫過(guò)于 2014 年問(wèn)世的對(duì)抗生成網(wǎng)絡(luò) GAN (Generative Adverserial Network)。
GAN 模型利用現(xiàn)成樣本來(lái)生成新圖像,最為人知的是其生成人臉的能力,喂入大量人臉數(shù)據(jù),GAN 便可生成真假難辨的人臉圖片。
GAN 模型的現(xiàn)世激發(fā)了大量研究人員的靈感,紛紛下場(chǎng)打造各種基于 GAN 的生成技術(shù):能夠合成高保真圖片的 BigGAN,能夠?qū)⑿l(wèi)星圖像轉(zhuǎn)化成谷歌地圖的 pix2pix 技術(shù)、能將藝術(shù)畫作和照片互相轉(zhuǎn)化的 CycleGAN …… 除了圖片生成技術(shù),抖音、快手等短視頻平臺(tái)中層出不窮的「變老特效」、「假笑特效」、「讓老照片動(dòng)起來(lái)」等視頻特效的背后,其實(shí)也都是 GAN 在發(fā)揮妙用。
GAN 模型的出現(xiàn)明明推動(dòng)了 AI 繪畫的一大步,卻并沒(méi)有卷起 AIGC 風(fēng)潮。而當(dāng) AIGC 再出現(xiàn),已經(jīng)貴為 2022 年度最熱詞匯……這讓人不由得疑惑:AIGC 到底做對(duì)了什么,才讓自己成功翻紅?
AIGC 概念的爆火,源于其前所未有的技術(shù)成熟度。而 AIGC 擺脫過(guò)去桎梏的圖像生成,走向商業(yè)化的成熟路線,正是由于這幾個(gè)機(jī)緣:
當(dāng)「一句話 AI 繪圖神器」走紅,世人皆以為重點(diǎn)在「AI 繪圖」上,可實(shí)際上,工作重點(diǎn)應(yīng)在于如何理解用戶輸入的那一句話。
理解語(yǔ)言,恰恰是大模型玄學(xué)般的能力之一。當(dāng) DALL·E 2 初推出時(shí),便出了這么一個(gè)驚艷的案例:
當(dāng)用戶要求在人物畫上生成柯基時(shí),DALL·E 2 會(huì)把柯基畫入畫中;
而當(dāng)用戶要求在座位上生成柯基的時(shí)候,它便生成了一只真實(shí)的、三次元的柯基。
這一操作驚呆了當(dāng)時(shí)關(guān)注 DALL·E 2 的網(wǎng)友,這一選擇性的動(dòng)作,說(shuō)明 DALL·E 2 確實(shí)理解了什么!
而這種非人之身理解人言的超強(qiáng)能力,要?dú)w功于 DALLE·2 所基于的 GPT-3 —— 由于喂入的數(shù)據(jù)多,語(yǔ)言大模型 GPT-3 已經(jīng)開始理解一些人類的常識(shí)。無(wú)論是 3D 還是 2D 的圖像,就算畫面再精美,仍然處于像素級(jí)別的較低水平創(chuàng)作;而 GPT-3 表現(xiàn)出對(duì)人類語(yǔ)言這種高水平產(chǎn)物的理解,這是在模型中極其罕見的能力。
不斷涌現(xiàn)的各類例子都證明:模型越大,理解能力越強(qiáng)??墒?GAN 本身的結(jié)構(gòu)設(shè)計(jì)及其生成邏輯,恰恰阻礙了模型不斷變大,這與 AIGC 的發(fā)展需求相悖;反觀 Diffusion 模型,其已經(jīng)具備了大模型的特征:由簡(jiǎn)單元素構(gòu)成,通過(guò)不停重復(fù)造出一個(gè)超大網(wǎng)絡(luò),且可訓(xùn)練穩(wěn)定。這正符合 AIGC 對(duì)于大模型的需求。
同時(shí),在生成方面,AIGC 已不局限于僅僅生成人臉或任何特定的某種圖像。通過(guò)組合概念、元素生成更復(fù)雜的場(chǎng)景,走向「一個(gè)工具生成所有」的通用方向,這才是圖像生成的未來(lái)。
而 GAN 需要一個(gè)特定的數(shù)據(jù)集進(jìn)行學(xué)習(xí)。如要求生成人臉,就需要喂入人臉圖像數(shù)據(jù)集,拓展生成其他圖像的能力就稍弱。這就使得 GAN 不能成為通用的生成工具,想做一個(gè)特定功能的特效,就要為之訓(xùn)練專用的 GAN,而不能實(shí)現(xiàn)泛化使用。
研究人員們發(fā)現(xiàn)了大模型才是 AIGC 的正道, GAN 卻和大模型之路存在多個(gè)相悖之處,這導(dǎo)致 GAN 只預(yù)熱了圖像生成,卻從未敲開 AIGC 的大門。
美國(guó)物理學(xué)家費(fèi)曼說(shuō)過(guò),「凡我不能創(chuàng)造的,我就還沒(méi)有理解」,AIGC 不僅僅是生成,更被定義為建立在認(rèn)知和理解基礎(chǔ)上的創(chuàng)作,這正需要大模型的語(yǔ)言理解能力。
大模型,是 AIGC 的來(lái)處,更是 AIGC 的未來(lái)發(fā)展之方向。
GAN 模型的問(wèn)世刺激了一波圖像生成,自然有人想到在 GAN 上做文章,使之能夠完成「文生圖」的幻想級(jí)任務(wù)。
然而,想通過(guò)文本這樣的抽象語(yǔ)義去控制 GAN 的生成是個(gè)大難題,GAN 難以按照用戶描述去可控地生成畫面。圈內(nèi)先行者嘗試基于 GAN 做文生圖的技術(shù)如 StackGAN、AttnGAN 等,都出現(xiàn)了描述文本細(xì)節(jié)缺失、分辨率低、難以理解高層次語(yǔ)義信息等問(wèn)題,生成質(zhì)量較低。
而讓 AIGC 爆火的兩大功臣:Diffusion + CLIP,卻解決了這個(gè)問(wèn)題。
Diffusion 模型本身是為 DALL·E 2、Imagen等知名繪圖神器所青睞的生成方式,不像 GAN 模型除了需要訓(xùn)練生成器,還需要額外訓(xùn)練判別器,Diffusion 模型只需要訓(xùn)練生成器,訓(xùn)練大大簡(jiǎn)化。同時(shí),Diffusion 模型通過(guò)多步生成圖片,且每一步都是一個(gè)自編碼器,監(jiān)督信息非常強(qiáng),所以訓(xùn)練要穩(wěn)定得多。
圖注:Diffusion 模型生成過(guò)程
在如此強(qiáng)大的生成模型上,研究人員又為其嫁接上負(fù)責(zé)圖文匹配驗(yàn)證的 CLIP 模型。當(dāng) Diffusion 生成圖片后,交由 CLIP 驗(yàn)證圖像特征值是否和輸入文字匹配。如果特征值能通過(guò)匹配驗(yàn)證,就說(shuō)明生成圖像符合文字描述,也就是達(dá)成了「輸入一段文字,輸出符合要求的圖片」的目標(biāo)。
是 Diffusion + CLIP 讓文字可控生成的夢(mèng)想照進(jìn)現(xiàn)實(shí),做到了 GAN 未曾完成的事。
從此,人類終于可以通過(guò)文字與 AI 交流,征服 AI,讓 AI 真正為人所用。
AIGC 爆火的機(jī)緣,還與語(yǔ)言大模型的興起息息相關(guān)。
2020年左右,GPT-3 等語(yǔ)言大模型聲名鵲起,為 AI 系統(tǒng)在處理跨模態(tài)中提供了海量?jī)?yōu)秀的文本-圖像對(duì)的訓(xùn)練數(shù)據(jù)。正是這些高質(zhì)量的訓(xùn)練數(shù)據(jù)為 AIGC 產(chǎn)品打好了基礎(chǔ),既幫助模型變大,又讓模型不斷學(xué)習(xí)并加深文本與圖像匹配的認(rèn)知。而這是在 GAN 初問(wèn)世時(shí)不具備的外部條件。
通過(guò)文字畫出絢爛圖畫,已然突破常人的想象,但仍有先行者思考,跨模態(tài)就是 AIGC 的盡頭了嗎?
想來(lái)不是。目前選擇文本來(lái)生成圖像,是因?yàn)槲谋粳F(xiàn)存數(shù)據(jù)最多,但世上存在如此多的模態(tài),如果只用文本去做生成,那未免太局限了。
用手繪線條生成圖像,用草稿加上文字生成圖像,甚至是走向 3D模態(tài) …… AIGC 的未來(lái)一定能兼容更多模態(tài),而每一種不同的模態(tài)可以作為不同尺度的信息指導(dǎo),便于靈活地生成更多有需求的任務(wù)。
有 AI 圖像生成產(chǎn)品經(jīng)理認(rèn)為,國(guó)內(nèi)的 AI 圖像生成產(chǎn)品離真正走下去有不小差距,其中最本質(zhì)的原因,當(dāng)屬生成細(xì)節(jié)不夠好,達(dá)不到商業(yè)水平。
要知道圖像生成翹楚 Midjourney 正是大量收集用戶反饋的生成缺點(diǎn),如手部奇怪、頭發(fā)生成不佳等問(wèn)題,按照用戶反饋去調(diào)節(jié)訓(xùn)練數(shù)據(jù),進(jìn)行高頻率優(yōu)化,不斷打磨生成效果,才得到了圈內(nèi)幾乎最佳的圖片質(zhì)量。
而 AIGC 產(chǎn)品一開始的定位,就決定了生成模型的結(jié)構(gòu)設(shè)計(jì)和模型的優(yōu)化方向:
國(guó)內(nèi)的盜夢(mèng)師平臺(tái)出于別具匠心的產(chǎn)品設(shè)計(jì),側(cè)重于生成幻想風(fēng)格的畫面。如果選擇生成真實(shí)風(fēng)格圖像,用戶難免會(huì)帶著挑刺的心理去比較生成圖片跟真實(shí)世界的差距、但如果是玄幻、動(dòng)漫等“二次元”風(fēng)格,用戶則會(huì)保持相對(duì)寬容的心態(tài),傾向于欣賞圖片美感。
圖注:盜夢(mèng)師生成作品
而 ZMO 公司從一開始就選擇了真實(shí)圖像的賽道,這是因?yàn)?ZMO 團(tuán)隊(duì)認(rèn)為真實(shí)圖像的生成才能真正影響一個(gè)具體的行業(yè),如建筑繪圖、電商圖片、網(wǎng)頁(yè)設(shè)計(jì)、商品外包裝設(shè)計(jì)等等。如果 AIGC 產(chǎn)品的水平足夠革新這些具體行業(yè)的內(nèi)容生產(chǎn)方式,完全用 AI 代替人力完成這些工作,其產(chǎn)生的行業(yè)效益將不可估量。
提到圖片生成水平, 還少不了提到一個(gè)叫做「組合性」的概念。
組合性首先是指生成模型掌握從生成單個(gè)物體、到生成整個(gè)場(chǎng)景,再到到生成整個(gè)世界的組合能力。
如今,生成一張人臉已很簡(jiǎn)單,但若要生成一個(gè)人在草地上玩耍,甚至是生成一個(gè)街區(qū)里有一群小孩在踢足球的畫面,難度便大大上升。
組合性同時(shí)也指概念的組合能力。如果用戶提出了現(xiàn)實(shí)世界沒(méi)有的、數(shù)據(jù)集中沒(méi)有的要求,比如牛油果椅子,騎在馬上的宇航員等等,模型如何形成畫面上的自洽,也是需要攻克的技術(shù)壁壘。
盜夢(mèng)師創(chuàng)始人藍(lán)振忠也說(shuō),「畫得好看與畫得言之有物之間是有差距的」。如今的 AI 圖像生成產(chǎn)品能畫出夢(mèng)幻絢爛的圖,但僅限于靜態(tài)的表現(xiàn),對(duì)于動(dòng)詞的理解力還較差。難以描述動(dòng)態(tài)畫面,更別提有連續(xù)性的情節(jié),于是便出現(xiàn)了「唯美插圖,言之無(wú)物」的問(wèn)題。
如果 AIGC 能攻破這個(gè)技術(shù)壁壘,生成的不僅是一張單獨(dú)的插圖,而是能夠畫大場(chǎng)面、有動(dòng)作、多人物、有故事情節(jié)的圖,甚至能變成連環(huán)畫中的其中一張、或漫畫中的其中一頁(yè),那么 AI 圖像生成就必然能走向更廣的消費(fèi)場(chǎng)景。
目前的 AIGC ,雖已跨出了文字控制的第一步,但可控性仍不盡如人意。
在圖像生成方面,prompt (輸入文本提示)的探索,已讓用戶們足夠發(fā)愁。小白用戶初次玩,輸入一個(gè)簡(jiǎn)短的“太陽(yáng)”,自以為已經(jīng)很好理解,沒(méi)想到生成出來(lái)的卻是……
小白用戶這才知道,prompt 沒(méi)有那么容易上手,一張好圖的背后,是資深創(chuàng)作者不厭其煩的多次嘗試、加詞、減字、生成……
因此,不乏有人提出,AI 公司得給肝時(shí)間和精力不斷調(diào)試的創(chuàng)作者們分成,才能讓有貢獻(xiàn)的創(chuàng)作者們留存下來(lái)。但有 AI 圖像生成產(chǎn)品的創(chuàng)始人指出,現(xiàn)在的 prompt 機(jī)制的確難以掌握,但這個(gè)技術(shù)問(wèn)題在未來(lái)一定會(huì)被攻克,那時(shí)候資深創(chuàng)作者和小白用戶的差距會(huì)被縮小,玩 AI 繪畫的門檻會(huì)一降再降。
同時(shí),生成平臺(tái)在 prompt 輸入上也有字?jǐn)?shù)限制,這是因?yàn)槟壳澳P吞幚黹L(zhǎng)文本的能力還有限。要在輸入上繼續(xù)放寬條件,便要寄希望于大模型對(duì)人類語(yǔ)言理解能力的發(fā)展。
1個(gè)月前,AI 科技評(píng)論在某文生圖平臺(tái)中輸入「畫一輛自行車并將其在地面上滾動(dòng)的部分標(biāo)黃」,得到的結(jié)果是:
而在現(xiàn)有的文生圖平臺(tái)中輸入同樣的文本提示,得到的結(jié)果如下:
比起1個(gè)月以前輸入這個(gè)問(wèn)題得到的結(jié)果,以上圖片雖然沒(méi)有正確標(biāo)黃,但明顯生成了有條理的畫面,這足以體現(xiàn) AIGC 公司們對(duì)自家模型的快速迭代。但無(wú)法正確標(biāo)出「在地面上滾動(dòng)的部分」,說(shuō)明 AIGC 仍不理解自己筆下的世界,生成圖片不符合三次元邏輯的問(wèn)題,仍然急需改善。
AIGC 不是完全創(chuàng)造出一個(gè)不同的宇宙,AIGC 生成的結(jié)果,需要更貼合現(xiàn)實(shí)生活的物理規(guī)律與邏輯,換句話說(shuō),AIGC 應(yīng)該在可解釋性問(wèn)題上做得更好,這應(yīng)該是 AIGC 公司們共同為之奮斗的目標(biāo)。
技術(shù)難題雖多,看似一片混沌,AIGC 技術(shù)卻依然體現(xiàn)出了前所未有的清晰發(fā)展道路。因?yàn)?AIGC 從未如此目標(biāo)明確,技術(shù)問(wèn)題清晰——所謂的技術(shù)壁壘,其實(shí)更應(yīng)該稱之為工程問(wèn)題,而解決工程,不過(guò)只是時(shí)間問(wèn)題。
雷峰網(wǎng) 雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。