丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給王玥
發(fā)送

0

技術(shù)壁壘這么多,AIGC 憑什么爆火?

本文作者: 王玥 2022-11-28 20:57
導(dǎo)語:AIGC 顛覆了內(nèi)容創(chuàng)作的方式,且永遠不可逆轉(zhuǎn)。

技術(shù)壁壘這么多,AIGC 憑什么爆火?

公元2020年左右,也就是當(dāng)下,對于經(jīng)典科幻電影來說是一個科技發(fā)展的重要節(jié)點。

1982年上映的電影《銀翼殺手》,對2019年的世界進行了華麗冰冷的幻想 —— 復(fù)制人、飛行汽車、電子器官、星球殖民……

想象力爆炸的80時代,讓創(chuàng)造者充滿了對未來科技的渴望與信任,他們認為40年時間已足夠科技發(fā)展到幻想水準(zhǔn)。

然而事實是,如今再品《銀翼殺手》,看著男主角在剛過去不久的2019年開著飛行汽車追擊復(fù)制人,實在讓科幻迷們有些笑不出來——當(dāng)初幻想的步子還是邁得太大了。我們的城市沒有變成賽博朋克風(fēng)格;機器人還沒有做到復(fù)制人以假亂真的水準(zhǔn);汽車無人駕駛都還沒研究成,更別提飛了……

技術(shù)壁壘這么多,AIGC 憑什么爆火?

圖注:《銀翼殺手》中2019年的賽博朋克城市

當(dāng)人們感嘆如今的科技發(fā)展完全跟不上80年代的想象時,最近卻有一種技術(shù)野蠻生長,一經(jīng)問世便引起圈層地震。雖還沒有完全長成,但它很有可能取代世界上最有才華的一群人類——創(chuàng)作者。

這就是 AIGC( AI Generated Content)。

AIGC,即 AI 生成內(nèi)容技術(shù),讓 AI 完成原本只有人類才能做到的原創(chuàng)性工作。這個科幻電影都沒敢想象能在2022年成真的技術(shù),卻真的提前來到了我們身邊,并以天為單位不斷進化。

就在2個月前,「文生圖(text-to-image)」還是外網(wǎng)網(wǎng)友和中國極客才能玩到的小眾黑科技,而2個月后的現(xiàn)在,直接通過微信小程序或手機 APP 就能體驗到 AI 繪畫。就算是完全不會畫畫的人,輸入一段文字,AI 便能生成一張像模像樣的圖片,要是文字調(diào)教得好,還能生成頗為驚艷的杰作。

這不由得讓藝術(shù)界警鈴大作:AI 都能帶著不會畫畫的人飛,我學(xué)藝幾十年圖個啥!

就當(dāng)文字愛好者以為文學(xué)置身事外時,早已有作者使用 AI 文本生成產(chǎn)品寫小說。有人生成短篇小說發(fā)表到知名平臺,有人制作長篇小說成功簽約賺訂閱費,共同點是都隱瞞了使用 AI 的真相。讀者熬夜看玄幻小說看得心潮澎湃,壓根不知道自己看的小說根本不是人類寫的。

有人創(chuàng)意強但沒創(chuàng)作能力,認為 AI 是幫助自己產(chǎn)出佳作的利器;有人熱愛原創(chuàng),認為 AI 生成內(nèi)容是對「原創(chuàng)」二字的褻瀆——無論事實更偏向何種情況,不可否認的是,AIGC 顛覆了內(nèi)容創(chuàng)作的方式,且永遠不可逆轉(zhuǎn)。


AIGC 憑什么爆火?

AIGC 爆火的真相,恰恰蘊含在「人類被替代」的恐慌當(dāng)中 —— 內(nèi)容創(chuàng)作方式終于走下了神壇。

在上個世紀(jì),只有專業(yè)人士能發(fā)表小說、拍電影;而近年,已有大量非專業(yè)人士成功發(fā)表了原創(chuàng)網(wǎng)絡(luò)小說,在抖音等短視頻平臺上發(fā)布自制短視頻甚至微電影 …… 生機愈見繁榮,但內(nèi)容創(chuàng)作方式僅僅是從 PGC (專業(yè)生成)轉(zhuǎn)向 UGC(用戶生成),開放的門縫不寬,對于「才華」的要求也只高不低。

而 AIGC 在今年秋天的問世,激起學(xué)藝者慌亂之余,令世人看到一場內(nèi)容創(chuàng)作方式的革命開端 —— 每個人都能做編劇、作家、漫畫家、分鏡師、動畫導(dǎo)演……每個人都能成為任何一種內(nèi)容創(chuàng)作者。

要知道,一切依靠互聯(lián)網(wǎng)而繁榮的生態(tài)都需要流量,而流量只會為了內(nèi)容而來。如果 AI 能將創(chuàng)作的大門開放給所有人,將創(chuàng)作權(quán)下放到每個人手中,AIGC 在這片藍海中創(chuàng)造的價值將突破想象!

然而,AIGC 這個概念似乎隨著井噴的「文生圖」產(chǎn)品出現(xiàn)并一舉成名??烧覀€業(yè)內(nèi)人士打聽,會發(fā)現(xiàn)這個名詞其實早在數(shù)年前就出現(xiàn)在了產(chǎn)品經(jīng)理口中,只是沒什么人關(guān)注而已,但 AIGC 絕對不是一個新鮮玩意。

況且,讓 AI 畫圖的工作早已出現(xiàn)不少,其中有開辟之功的莫過于 2014 年問世的對抗生成網(wǎng)絡(luò) GAN (Generative Adverserial Network)。

GAN 模型利用現(xiàn)成樣本來生成新圖像,最為人知的是其生成人臉的能力,喂入大量人臉數(shù)據(jù),GAN 便可生成真假難辨的人臉圖片。

GAN 模型的現(xiàn)世激發(fā)了大量研究人員的靈感,紛紛下場打造各種基于 GAN 的生成技術(shù):能夠合成高保真圖片的 BigGAN,能夠?qū)⑿l(wèi)星圖像轉(zhuǎn)化成谷歌地圖的 pix2pix 技術(shù)、能將藝術(shù)畫作和照片互相轉(zhuǎn)化的 CycleGAN …… 除了圖片生成技術(shù),抖音、快手等短視頻平臺中層出不窮的「變老特效」、「假笑特效」、「讓老照片動起來」等視頻特效的背后,其實也都是 GAN 在發(fā)揮妙用。

GAN 模型的出現(xiàn)明明推動了 AI 繪畫的一大步,卻并沒有卷起 AIGC 風(fēng)潮。而當(dāng) AIGC 再出現(xiàn),已經(jīng)貴為 2022 年度最熱詞匯……這讓人不由得疑惑:AIGC 到底做對了什么,才讓自己成功翻紅?

從未離商業(yè)化如此近

AIGC 概念的爆火,源于其前所未有的技術(shù)成熟度。而 AIGC 擺脫過去桎梏的圖像生成,走向商業(yè)化的成熟路線,正是由于這幾個機緣:

大模型

當(dāng)「一句話 AI 繪圖神器」走紅,世人皆以為重點在「AI 繪圖」上,可實際上,工作重點應(yīng)在于如何理解用戶輸入的那一句話。

理解語言,恰恰是大模型玄學(xué)般的能力之一。當(dāng) DALL·E 2 初推出時,便出了這么一個驚艷的案例:

當(dāng)用戶要求在人物畫上生成柯基時,DALL·E 2 會把柯基畫入畫中;

技術(shù)壁壘這么多,AIGC 憑什么爆火?

而當(dāng)用戶要求在座位上生成柯基的時候,它便生成了一只真實的、三次元的柯基。

技術(shù)壁壘這么多,AIGC 憑什么爆火?

這一操作驚呆了當(dāng)時關(guān)注 DALL·E 2 的網(wǎng)友,這一選擇性的動作,說明 DALL·E 2 確實理解了什么!

而這種非人之身理解人言的超強能力,要歸功于 DALLE·2 所基于的 GPT-3 —— 由于喂入的數(shù)據(jù)多,語言大模型 GPT-3 已經(jīng)開始理解一些人類的常識。無論是 3D 還是 2D 的圖像,就算畫面再精美,仍然處于像素級別的較低水平創(chuàng)作;而 GPT-3 表現(xiàn)出對人類語言這種高水平產(chǎn)物的理解,這是在模型中極其罕見的能力。

不斷涌現(xiàn)的各類例子都證明:模型越大,理解能力越強??墒?GAN 本身的結(jié)構(gòu)設(shè)計及其生成邏輯,恰恰阻礙了模型不斷變大,這與 AIGC 的發(fā)展需求相悖;反觀 Diffusion 模型,其已經(jīng)具備了大模型的特征:由簡單元素構(gòu)成,通過不停重復(fù)造出一個超大網(wǎng)絡(luò),且可訓(xùn)練穩(wěn)定。這正符合 AIGC 對于大模型的需求。

同時,在生成方面,AIGC 已不局限于僅僅生成人臉或任何特定的某種圖像。通過組合概念、元素生成更復(fù)雜的場景,走向「一個工具生成所有」的通用方向,這才是圖像生成的未來。

而 GAN 需要一個特定的數(shù)據(jù)集進行學(xué)習(xí)。如要求生成人臉,就需要喂入人臉圖像數(shù)據(jù)集,拓展生成其他圖像的能力就稍弱。這就使得 GAN 不能成為通用的生成工具,想做一個特定功能的特效,就要為之訓(xùn)練專用的 GAN,而不能實現(xiàn)泛化使用。

研究人員們發(fā)現(xiàn)了大模型才是 AIGC 的正道, GAN 卻和大模型之路存在多個相悖之處,這導(dǎo)致 GAN 只預(yù)熱了圖像生成,卻從未敲開 AIGC 的大門。

美國物理學(xué)家費曼說過,「凡我不能創(chuàng)造的,我就還沒有理解」,AIGC 不僅僅是生成,更被定義為建立在認知和理解基礎(chǔ)上的創(chuàng)作,這正需要大模型的語言理解能力。

大模型,是 AIGC 的來處,更是 AIGC 的未來發(fā)展之方向。

可控性

GAN 模型的問世刺激了一波圖像生成,自然有人想到在 GAN 上做文章,使之能夠完成「文生圖」的幻想級任務(wù)。

然而,想通過文本這樣的抽象語義去控制 GAN 的生成是個大難題,GAN 難以按照用戶描述去可控地生成畫面。圈內(nèi)先行者嘗試基于 GAN 做文生圖的技術(shù)如 StackGAN、AttnGAN 等,都出現(xiàn)了描述文本細節(jié)缺失、分辨率低、難以理解高層次語義信息等問題,生成質(zhì)量較低。

而讓 AIGC 爆火的兩大功臣:Diffusion + CLIP,卻解決了這個問題。

Diffusion 模型本身是為 DALL·E 2、Imagen等知名繪圖神器所青睞的生成方式,不像 GAN 模型除了需要訓(xùn)練生成器,還需要額外訓(xùn)練判別器,Diffusion 模型只需要訓(xùn)練生成器,訓(xùn)練大大簡化。同時,Diffusion 模型通過多步生成圖片,且每一步都是一個自編碼器,監(jiān)督信息非常強,所以訓(xùn)練要穩(wěn)定得多。


技術(shù)壁壘這么多,AIGC 憑什么爆火?

圖注:Diffusion 模型生成過程

在如此強大的生成模型上,研究人員又為其嫁接上負責(zé)圖文匹配驗證的 CLIP 模型。當(dāng) Diffusion 生成圖片后,交由 CLIP 驗證圖像特征值是否和輸入文字匹配。如果特征值能通過匹配驗證,就說明生成圖像符合文字描述,也就是達成了「輸入一段文字,輸出符合要求的圖片」的目標(biāo)。

是 Diffusion + CLIP 讓文字可控生成的夢想照進現(xiàn)實,做到了 GAN 未曾完成的事。

從此,人類終于可以通過文字與 AI 交流,征服 AI,讓 AI 真正為人所用。

多模態(tài)

AIGC 爆火的機緣,還與語言大模型的興起息息相關(guān)。

2020年左右,GPT-3 等語言大模型聲名鵲起,為 AI 系統(tǒng)在處理跨模態(tài)中提供了海量優(yōu)秀的文本-圖像對的訓(xùn)練數(shù)據(jù)。正是這些高質(zhì)量的訓(xùn)練數(shù)據(jù)為 AIGC 產(chǎn)品打好了基礎(chǔ),既幫助模型變大,又讓模型不斷學(xué)習(xí)并加深文本與圖像匹配的認知。而這是在 GAN 初問世時不具備的外部條件。

通過文字畫出絢爛圖畫,已然突破常人的想象,但仍有先行者思考,跨模態(tài)就是 AIGC 的盡頭了嗎?

想來不是。目前選擇文本來生成圖像,是因為文本現(xiàn)存數(shù)據(jù)最多,但世上存在如此多的模態(tài),如果只用文本去做生成,那未免太局限了。

用手繪線條生成圖像,用草稿加上文字生成圖像,甚至是走向 3D模態(tài) …… AIGC 的未來一定能兼容更多模態(tài),而每一種不同的模態(tài)可以作為不同尺度的信息指導(dǎo),便于靈活地生成更多有需求的任務(wù)。


AIGC 還需要攻破什么技術(shù)壁壘?

圖片水平

有 AI 圖像生成產(chǎn)品經(jīng)理認為,國內(nèi)的 AI 圖像生成產(chǎn)品離真正走下去有不小差距,其中最本質(zhì)的原因,當(dāng)屬生成細節(jié)不夠好,達不到商業(yè)水平。

要知道圖像生成翹楚 Midjourney 正是大量收集用戶反饋的生成缺點,如手部奇怪、頭發(fā)生成不佳等問題,按照用戶反饋去調(diào)節(jié)訓(xùn)練數(shù)據(jù),進行高頻率優(yōu)化,不斷打磨生成效果,才得到了圈內(nèi)幾乎最佳的圖片質(zhì)量。

AIGC 產(chǎn)品一開始的定位,就決定了生成模型的結(jié)構(gòu)設(shè)計和模型的優(yōu)化方向:

國內(nèi)的盜夢師平臺出于別具匠心的產(chǎn)品設(shè)計,側(cè)重于生成幻想風(fēng)格的畫面。如果選擇生成真實風(fēng)格圖像,用戶難免會帶著挑刺的心理去比較生成圖片跟真實世界的差距、但如果是玄幻、動漫等“二次元”風(fēng)格,用戶則會保持相對寬容的心態(tài),傾向于欣賞圖片美感。

技術(shù)壁壘這么多,AIGC 憑什么爆火?

圖注:盜夢師生成作品

而 ZMO 公司從一開始就選擇了真實圖像的賽道,這是因為 ZMO 團隊認為真實圖像的生成才能真正影響一個具體的行業(yè),如建筑繪圖、電商圖片、網(wǎng)頁設(shè)計、商品外包裝設(shè)計等等。如果 AIGC 產(chǎn)品的水平足夠革新這些具體行業(yè)的內(nèi)容生產(chǎn)方式,完全用 AI 代替人力完成這些工作,其產(chǎn)生的行業(yè)效益將不可估量。

提到圖片生成水平, 還少不了提到一個叫做「組合性」的概念。

組合性首先是指生成模型掌握從生成單個物體、到生成整個場景,再到到生成整個世界的組合能力。

如今,生成一張人臉已很簡單,但若要生成一個人在草地上玩耍,甚至是生成一個街區(qū)里有一群小孩在踢足球的畫面,難度便大大上升。

組合性同時也指概念的組合能力。如果用戶提出了現(xiàn)實世界沒有的、數(shù)據(jù)集中沒有的要求,比如牛油果椅子,騎在馬上的宇航員等等,模型如何形成畫面上的自洽,也是需要攻克的技術(shù)壁壘。

盜夢師創(chuàng)始人藍振忠也說,「畫得好看與畫得言之有物之間是有差距的」。如今的 AI 圖像生成產(chǎn)品能畫出夢幻絢爛的圖,但僅限于靜態(tài)的表現(xiàn),對于動詞的理解力還較差。難以描述動態(tài)畫面,更別提有連續(xù)性的情節(jié),于是便出現(xiàn)了「唯美插圖,言之無物」的問題。

如果 AIGC 能攻破這個技術(shù)壁壘,生成的不僅是一張單獨的插圖,而是能夠畫大場面、有動作、多人物、有故事情節(jié)的圖,甚至能變成連環(huán)畫中的其中一張、或漫畫中的其中一頁,那么 AI 圖像生成就必然能走向更廣的消費場景。

可控性

目前的 AIGC ,雖已跨出了文字控制的第一步,但可控性仍不盡如人意。

在圖像生成方面,prompt (輸入文本提示)的探索,已讓用戶們足夠發(fā)愁。小白用戶初次玩,輸入一個簡短的“太陽”,自以為已經(jīng)很好理解,沒想到生成出來的卻是……

技術(shù)壁壘這么多,AIGC 憑什么爆火?

小白用戶這才知道,prompt 沒有那么容易上手,一張好圖的背后,是資深創(chuàng)作者不厭其煩的多次嘗試、加詞、減字、生成……

因此,不乏有人提出,AI 公司得給肝時間和精力不斷調(diào)試的創(chuàng)作者們分成,才能讓有貢獻的創(chuàng)作者們留存下來。但有 AI 圖像生成產(chǎn)品的創(chuàng)始人指出,現(xiàn)在的 prompt 機制的確難以掌握,但這個技術(shù)問題在未來一定會被攻克,那時候資深創(chuàng)作者和小白用戶的差距會被縮小,玩 AI 繪畫的門檻會一降再降。

同時,生成平臺在 prompt 輸入上也有字數(shù)限制,這是因為目前模型處理長文本的能力還有限。要在輸入上繼續(xù)放寬條件,便要寄希望于大模型對人類語言理解能力的發(fā)展。

可解釋性

1個月前,AI 科技評論在某文生圖平臺中輸入「畫一輛自行車并將其在地面上滾動的部分標(biāo)黃」,得到的結(jié)果是:

技術(shù)壁壘這么多,AIGC 憑什么爆火?

而在現(xiàn)有的文生圖平臺中輸入同樣的文本提示,得到的結(jié)果如下:

技術(shù)壁壘這么多,AIGC 憑什么爆火?

比起1個月以前輸入這個問題得到的結(jié)果,以上圖片雖然沒有正確標(biāo)黃,但明顯生成了有條理的畫面,這足以體現(xiàn) AIGC 公司們對自家模型的快速迭代。但無法正確標(biāo)出「在地面上滾動的部分」,說明 AIGC 仍不理解自己筆下的世界,生成圖片不符合三次元邏輯的問題,仍然急需改善。

AIGC 不是完全創(chuàng)造出一個不同的宇宙,AIGC 生成的結(jié)果,需要更貼合現(xiàn)實生活的物理規(guī)律與邏輯,換句話說,AIGC 應(yīng)該在可解釋性問題上做得更好,這應(yīng)該是 AIGC 公司們共同為之奮斗的目標(biāo)。

技術(shù)難題雖多,看似一片混沌,AIGC 技術(shù)卻依然體現(xiàn)出了前所未有的清晰發(fā)展道路。因為 AIGC 從未如此目標(biāo)明確,技術(shù)問題清晰——所謂的技術(shù)壁壘,其實更應(yīng)該稱之為工程問題,而解決工程,不過只是時間問題。


雷峰網(wǎng)(公眾號:雷峰網(wǎng)) 雷峰網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

技術(shù)壁壘這么多,AIGC 憑什么爆火?

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說