丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能 正文
發(fā)私信給王玥
發(fā)送

0

技術壁壘這么多,AIGC 憑什么爆火?

本文作者: 王玥 2022-11-28 20:57
導語:AIGC 顛覆了內(nèi)容創(chuàng)作的方式,且永遠不可逆轉。

技術壁壘這么多,AIGC 憑什么爆火?

公元2020年左右,也就是當下,對于經(jīng)典科幻電影來說是一個科技發(fā)展的重要節(jié)點。

1982年上映的電影《銀翼殺手》,對2019年的世界進行了華麗冰冷的幻想 —— 復制人、飛行汽車、電子器官、星球殖民……

想象力爆炸的80時代,讓創(chuàng)造者充滿了對未來科技的渴望與信任,他們認為40年時間已足夠科技發(fā)展到幻想水準。

然而事實是,如今再品《銀翼殺手》,看著男主角在剛過去不久的2019年開著飛行汽車追擊復制人,實在讓科幻迷們有些笑不出來——當初幻想的步子還是邁得太大了。我們的城市沒有變成賽博朋克風格;機器人還沒有做到復制人以假亂真的水準;汽車無人駕駛都還沒研究成,更別提飛了……

技術壁壘這么多,AIGC 憑什么爆火?

圖注:《銀翼殺手》中2019年的賽博朋克城市

當人們感嘆如今的科技發(fā)展完全跟不上80年代的想象時,最近卻有一種技術野蠻生長,一經(jīng)問世便引起圈層地震。雖還沒有完全長成,但它很有可能取代世界上最有才華的一群人類——創(chuàng)作者。

這就是 AIGC( AI Generated Content)。

AIGC,即 AI 生成內(nèi)容技術,讓 AI 完成原本只有人類才能做到的原創(chuàng)性工作。這個科幻電影都沒敢想象能在2022年成真的技術,卻真的提前來到了我們身邊,并以天為單位不斷進化。

就在2個月前,「文生圖(text-to-image)」還是外網(wǎng)網(wǎng)友和中國極客才能玩到的小眾黑科技,而2個月后的現(xiàn)在,直接通過微信小程序或手機 APP 就能體驗到 AI 繪畫。就算是完全不會畫畫的人,輸入一段文字,AI 便能生成一張像模像樣的圖片,要是文字調(diào)教得好,還能生成頗為驚艷的杰作。

這不由得讓藝術界警鈴大作:AI 都能帶著不會畫畫的人飛,我學藝幾十年圖個啥!

就當文字愛好者以為文學置身事外時,早已有作者使用 AI 文本生成產(chǎn)品寫小說。有人生成短篇小說發(fā)表到知名平臺,有人制作長篇小說成功簽約賺訂閱費,共同點是都隱瞞了使用 AI 的真相。讀者熬夜看玄幻小說看得心潮澎湃,壓根不知道自己看的小說根本不是人類寫的。

有人創(chuàng)意強但沒創(chuàng)作能力,認為 AI 是幫助自己產(chǎn)出佳作的利器;有人熱愛原創(chuàng),認為 AI 生成內(nèi)容是對「原創(chuàng)」二字的褻瀆——無論事實更偏向何種情況,不可否認的是,AIGC 顛覆了內(nèi)容創(chuàng)作的方式,且永遠不可逆轉。


AIGC 憑什么爆火?

AIGC 爆火的真相,恰恰蘊含在「人類被替代」的恐慌當中 —— 內(nèi)容創(chuàng)作方式終于走下了神壇。

在上個世紀,只有專業(yè)人士能發(fā)表小說、拍電影;而近年,已有大量非專業(yè)人士成功發(fā)表了原創(chuàng)網(wǎng)絡小說,在抖音等短視頻平臺上發(fā)布自制短視頻甚至微電影 …… 生機愈見繁榮,但內(nèi)容創(chuàng)作方式僅僅是從 PGC (專業(yè)生成)轉向 UGC(用戶生成),開放的門縫不寬,對于「才華」的要求也只高不低。

而 AIGC 在今年秋天的問世,激起學藝者慌亂之余,令世人看到一場內(nèi)容創(chuàng)作方式的革命開端 —— 每個人都能做編劇、作家、漫畫家、分鏡師、動畫導演……每個人都能成為任何一種內(nèi)容創(chuàng)作者。

要知道,一切依靠互聯(lián)網(wǎng)而繁榮的生態(tài)都需要流量,而流量只會為了內(nèi)容而來。如果 AI 能將創(chuàng)作的大門開放給所有人,將創(chuàng)作權下放到每個人手中,AIGC 在這片藍海中創(chuàng)造的價值將突破想象!

然而,AIGC 這個概念似乎隨著井噴的「文生圖」產(chǎn)品出現(xiàn)并一舉成名??烧覀€業(yè)內(nèi)人士打聽,會發(fā)現(xiàn)這個名詞其實早在數(shù)年前就出現(xiàn)在了產(chǎn)品經(jīng)理口中,只是沒什么人關注而已,但 AIGC 絕對不是一個新鮮玩意。

況且,讓 AI 畫圖的工作早已出現(xiàn)不少,其中有開辟之功的莫過于 2014 年問世的對抗生成網(wǎng)絡 GAN (Generative Adverserial Network)。

GAN 模型利用現(xiàn)成樣本來生成新圖像,最為人知的是其生成人臉的能力,喂入大量人臉數(shù)據(jù),GAN 便可生成真假難辨的人臉圖片。

GAN 模型的現(xiàn)世激發(fā)了大量研究人員的靈感,紛紛下場打造各種基于 GAN 的生成技術:能夠合成高保真圖片的 BigGAN,能夠?qū)⑿l(wèi)星圖像轉化成谷歌地圖的 pix2pix 技術、能將藝術畫作和照片互相轉化的 CycleGAN …… 除了圖片生成技術,抖音、快手等短視頻平臺中層出不窮的「變老特效」、「假笑特效」、「讓老照片動起來」等視頻特效的背后,其實也都是 GAN 在發(fā)揮妙用。

GAN 模型的出現(xiàn)明明推動了 AI 繪畫的一大步,卻并沒有卷起 AIGC 風潮。而當 AIGC 再出現(xiàn),已經(jīng)貴為 2022 年度最熱詞匯……這讓人不由得疑惑:AIGC 到底做對了什么,才讓自己成功翻紅?

從未離商業(yè)化如此近

AIGC 概念的爆火,源于其前所未有的技術成熟度。而 AIGC 擺脫過去桎梏的圖像生成,走向商業(yè)化的成熟路線,正是由于這幾個機緣:

大模型

當「一句話 AI 繪圖神器」走紅,世人皆以為重點在「AI 繪圖」上,可實際上,工作重點應在于如何理解用戶輸入的那一句話。

理解語言,恰恰是大模型玄學般的能力之一。當 DALL·E 2 初推出時,便出了這么一個驚艷的案例:

當用戶要求在人物畫上生成柯基時,DALL·E 2 會把柯基畫入畫中;

技術壁壘這么多,AIGC 憑什么爆火?

而當用戶要求在座位上生成柯基的時候,它便生成了一只真實的、三次元的柯基。

技術壁壘這么多,AIGC 憑什么爆火?

這一操作驚呆了當時關注 DALL·E 2 的網(wǎng)友,這一選擇性的動作,說明 DALL·E 2 確實理解了什么!

而這種非人之身理解人言的超強能力,要歸功于 DALLE·2 所基于的 GPT-3 —— 由于喂入的數(shù)據(jù)多,語言大模型 GPT-3 已經(jīng)開始理解一些人類的常識。無論是 3D 還是 2D 的圖像,就算畫面再精美,仍然處于像素級別的較低水平創(chuàng)作;而 GPT-3 表現(xiàn)出對人類語言這種高水平產(chǎn)物的理解,這是在模型中極其罕見的能力。

不斷涌現(xiàn)的各類例子都證明:模型越大,理解能力越強。可是 GAN 本身的結構設計及其生成邏輯,恰恰阻礙了模型不斷變大,這與 AIGC 的發(fā)展需求相悖;反觀 Diffusion 模型,其已經(jīng)具備了大模型的特征:由簡單元素構成,通過不停重復造出一個超大網(wǎng)絡,且可訓練穩(wěn)定。這正符合 AIGC 對于大模型的需求。

同時,在生成方面,AIGC 已不局限于僅僅生成人臉或任何特定的某種圖像。通過組合概念、元素生成更復雜的場景,走向「一個工具生成所有」的通用方向,這才是圖像生成的未來。

而 GAN 需要一個特定的數(shù)據(jù)集進行學習。如要求生成人臉,就需要喂入人臉圖像數(shù)據(jù)集,拓展生成其他圖像的能力就稍弱。這就使得 GAN 不能成為通用的生成工具,想做一個特定功能的特效,就要為之訓練專用的 GAN,而不能實現(xiàn)泛化使用。

研究人員們發(fā)現(xiàn)了大模型才是 AIGC 的正道, GAN 卻和大模型之路存在多個相悖之處,這導致 GAN 只預熱了圖像生成,卻從未敲開 AIGC 的大門。

美國物理學家費曼說過,「凡我不能創(chuàng)造的,我就還沒有理解」,AIGC 不僅僅是生成,更被定義為建立在認知和理解基礎上的創(chuàng)作,這正需要大模型的語言理解能力。

大模型,是 AIGC 的來處,更是 AIGC 的未來發(fā)展之方向。

可控性

GAN 模型的問世刺激了一波圖像生成,自然有人想到在 GAN 上做文章,使之能夠完成「文生圖」的幻想級任務。

然而,想通過文本這樣的抽象語義去控制 GAN 的生成是個大難題,GAN 難以按照用戶描述去可控地生成畫面。圈內(nèi)先行者嘗試基于 GAN 做文生圖的技術如 StackGAN、AttnGAN 等,都出現(xiàn)了描述文本細節(jié)缺失、分辨率低、難以理解高層次語義信息等問題,生成質(zhì)量較低。

而讓 AIGC 爆火的兩大功臣:Diffusion + CLIP,卻解決了這個問題。

Diffusion 模型本身是為 DALL·E 2、Imagen等知名繪圖神器所青睞的生成方式,不像 GAN 模型除了需要訓練生成器,還需要額外訓練判別器,Diffusion 模型只需要訓練生成器,訓練大大簡化。同時,Diffusion 模型通過多步生成圖片,且每一步都是一個自編碼器,監(jiān)督信息非常強,所以訓練要穩(wěn)定得多。


技術壁壘這么多,AIGC 憑什么爆火?

圖注:Diffusion 模型生成過程

在如此強大的生成模型上,研究人員又為其嫁接上負責圖文匹配驗證的 CLIP 模型。當 Diffusion 生成圖片后,交由 CLIP 驗證圖像特征值是否和輸入文字匹配。如果特征值能通過匹配驗證,就說明生成圖像符合文字描述,也就是達成了「輸入一段文字,輸出符合要求的圖片」的目標。

是 Diffusion + CLIP 讓文字可控生成的夢想照進現(xiàn)實,做到了 GAN 未曾完成的事。

從此,人類終于可以通過文字與 AI 交流,征服 AI,讓 AI 真正為人所用。

多模態(tài)

AIGC 爆火的機緣,還與語言大模型的興起息息相關。

2020年左右,GPT-3 等語言大模型聲名鵲起,為 AI 系統(tǒng)在處理跨模態(tài)中提供了海量優(yōu)秀的文本-圖像對的訓練數(shù)據(jù)。正是這些高質(zhì)量的訓練數(shù)據(jù)為 AIGC 產(chǎn)品打好了基礎,既幫助模型變大,又讓模型不斷學習并加深文本與圖像匹配的認知。而這是在 GAN 初問世時不具備的外部條件。

通過文字畫出絢爛圖畫,已然突破常人的想象,但仍有先行者思考,跨模態(tài)就是 AIGC 的盡頭了嗎?

想來不是。目前選擇文本來生成圖像,是因為文本現(xiàn)存數(shù)據(jù)最多,但世上存在如此多的模態(tài),如果只用文本去做生成,那未免太局限了。

用手繪線條生成圖像,用草稿加上文字生成圖像,甚至是走向 3D模態(tài) …… AIGC 的未來一定能兼容更多模態(tài),而每一種不同的模態(tài)可以作為不同尺度的信息指導,便于靈活地生成更多有需求的任務。


AIGC 還需要攻破什么技術壁壘?

圖片水平

有 AI 圖像生成產(chǎn)品經(jīng)理認為,國內(nèi)的 AI 圖像生成產(chǎn)品離真正走下去有不小差距,其中最本質(zhì)的原因,當屬生成細節(jié)不夠好,達不到商業(yè)水平。

要知道圖像生成翹楚 Midjourney 正是大量收集用戶反饋的生成缺點,如手部奇怪、頭發(fā)生成不佳等問題,按照用戶反饋去調(diào)節(jié)訓練數(shù)據(jù),進行高頻率優(yōu)化,不斷打磨生成效果,才得到了圈內(nèi)幾乎最佳的圖片質(zhì)量。

AIGC 產(chǎn)品一開始的定位,就決定了生成模型的結構設計和模型的優(yōu)化方向:

國內(nèi)的盜夢師平臺出于別具匠心的產(chǎn)品設計,側重于生成幻想風格的畫面。如果選擇生成真實風格圖像,用戶難免會帶著挑刺的心理去比較生成圖片跟真實世界的差距、但如果是玄幻、動漫等“二次元”風格,用戶則會保持相對寬容的心態(tài),傾向于欣賞圖片美感。

技術壁壘這么多,AIGC 憑什么爆火?

圖注:盜夢師生成作品

而 ZMO 公司從一開始就選擇了真實圖像的賽道,這是因為 ZMO 團隊認為真實圖像的生成才能真正影響一個具體的行業(yè),如建筑繪圖、電商圖片、網(wǎng)頁設計、商品外包裝設計等等。如果 AIGC 產(chǎn)品的水平足夠革新這些具體行業(yè)的內(nèi)容生產(chǎn)方式,完全用 AI 代替人力完成這些工作,其產(chǎn)生的行業(yè)效益將不可估量。

提到圖片生成水平, 還少不了提到一個叫做「組合性」的概念。

組合性首先是指生成模型掌握從生成單個物體、到生成整個場景,再到到生成整個世界的組合能力。

如今,生成一張人臉已很簡單,但若要生成一個人在草地上玩耍,甚至是生成一個街區(qū)里有一群小孩在踢足球的畫面,難度便大大上升。

組合性同時也指概念的組合能力。如果用戶提出了現(xiàn)實世界沒有的、數(shù)據(jù)集中沒有的要求,比如牛油果椅子,騎在馬上的宇航員等等,模型如何形成畫面上的自洽,也是需要攻克的技術壁壘。

盜夢師創(chuàng)始人藍振忠也說,「畫得好看與畫得言之有物之間是有差距的」。如今的 AI 圖像生成產(chǎn)品能畫出夢幻絢爛的圖,但僅限于靜態(tài)的表現(xiàn),對于動詞的理解力還較差。難以描述動態(tài)畫面,更別提有連續(xù)性的情節(jié),于是便出現(xiàn)了「唯美插圖,言之無物」的問題。

如果 AIGC 能攻破這個技術壁壘,生成的不僅是一張單獨的插圖,而是能夠畫大場面、有動作、多人物、有故事情節(jié)的圖,甚至能變成連環(huán)畫中的其中一張、或漫畫中的其中一頁,那么 AI 圖像生成就必然能走向更廣的消費場景。

可控性

目前的 AIGC ,雖已跨出了文字控制的第一步,但可控性仍不盡如人意。

在圖像生成方面,prompt (輸入文本提示)的探索,已讓用戶們足夠發(fā)愁。小白用戶初次玩,輸入一個簡短的“太陽”,自以為已經(jīng)很好理解,沒想到生成出來的卻是……

技術壁壘這么多,AIGC 憑什么爆火?

小白用戶這才知道,prompt 沒有那么容易上手,一張好圖的背后,是資深創(chuàng)作者不厭其煩的多次嘗試、加詞、減字、生成……

因此,不乏有人提出,AI 公司得給肝時間和精力不斷調(diào)試的創(chuàng)作者們分成,才能讓有貢獻的創(chuàng)作者們留存下來。但有 AI 圖像生成產(chǎn)品的創(chuàng)始人指出,現(xiàn)在的 prompt 機制的確難以掌握,但這個技術問題在未來一定會被攻克,那時候資深創(chuàng)作者和小白用戶的差距會被縮小,玩 AI 繪畫的門檻會一降再降。

同時,生成平臺在 prompt 輸入上也有字數(shù)限制,這是因為目前模型處理長文本的能力還有限。要在輸入上繼續(xù)放寬條件,便要寄希望于大模型對人類語言理解能力的發(fā)展。

可解釋性

1個月前,AI 科技評論在某文生圖平臺中輸入「畫一輛自行車并將其在地面上滾動的部分標黃」,得到的結果是:

技術壁壘這么多,AIGC 憑什么爆火?

而在現(xiàn)有的文生圖平臺中輸入同樣的文本提示,得到的結果如下:

技術壁壘這么多,AIGC 憑什么爆火?

比起1個月以前輸入這個問題得到的結果,以上圖片雖然沒有正確標黃,但明顯生成了有條理的畫面,這足以體現(xiàn) AIGC 公司們對自家模型的快速迭代。但無法正確標出「在地面上滾動的部分」,說明 AIGC 仍不理解自己筆下的世界,生成圖片不符合三次元邏輯的問題,仍然急需改善。

AIGC 不是完全創(chuàng)造出一個不同的宇宙,AIGC 生成的結果,需要更貼合現(xiàn)實生活的物理規(guī)律與邏輯,換句話說,AIGC 應該在可解釋性問題上做得更好,這應該是 AIGC 公司們共同為之奮斗的目標。

技術難題雖多,看似一片混沌,AIGC 技術卻依然體現(xiàn)出了前所未有的清晰發(fā)展道路。因為 AIGC 從未如此目標明確,技術問題清晰——所謂的技術壁壘,其實更應該稱之為工程問題,而解決工程,不過只是時間問題。


雷峰網(wǎng) 雷峰網(wǎng)(公眾號:雷峰網(wǎng))

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。

技術壁壘這么多,AIGC 憑什么爆火?

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說