0
編者按:2023年8月14日-15日,第七屆GAIR全球人工智能與機(jī)器人大會(huì)在新加坡烏節(jié)大酒店成功舉辦。論壇由GAIR研究院、雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))、世界科技出版社、科特勒咨詢(xún)集團(tuán)聯(lián)合主辦。
大會(huì)共開(kāi)設(shè)10個(gè)主題論壇,聚焦大模型時(shí)代下的AIGC、Infra、生命科學(xué)、教育,SaaS、web3、跨境電商等領(lǐng)域的變革創(chuàng)新。這是國(guó)內(nèi)首個(gè)出海的AI頂級(jí)論壇,也是中國(guó)人工智能影響力的一次跨境溢出。
在「AIGC 和生成式內(nèi)容」分論壇上,南洋理工大學(xué)科學(xué)與工程學(xué)院助理教授潘新鋼以《Interacitve Point-Dragging Manipulation of Visual Contents》為主題分享了點(diǎn)拖拽的交互式編輯方向研究成果——DragGAN。
潘新鋼指出,當(dāng)下用戶(hù)對(duì)圖像的創(chuàng)作不只停留于粗粒度編輯,而是期待對(duì)圖像空間屬性進(jìn)行精細(xì)化控制。針對(duì)這一需求,DragGAN 應(yīng)運(yùn)而生。通過(guò)DragGAN,用戶(hù)可以選擇性地指定一塊可編輯區(qū)域,確定A、B兩點(diǎn),然后自如地將點(diǎn) A 移動(dòng)到點(diǎn) B 的位置。
更重要的是,DragGAN能夠呈現(xiàn)的不僅僅是最終編輯完成后的圖片,而是整個(gè)中間過(guò)渡的過(guò)程,即一個(gè)視頻或動(dòng)畫(huà)的效果,豐富了其可應(yīng)用場(chǎng)景。
DragGAN 這樣一個(gè)關(guān)鍵點(diǎn)拖拽式的編輯工具對(duì)目前大熱的文生圖的生成方式提供了一個(gè)非常好的補(bǔ)充,一經(jīng)公布就得到了很多的關(guān)注和應(yīng)用。
潘新鋼表示,目前可以看到拖拽式編輯的巨大的可能性,這在學(xué)術(shù)界也會(huì)成為一個(gè)新的競(jìng)賽,在 DragGAN 公開(kāi)大概一個(gè)月后,就有字節(jié)和高校的研究人員嘗試將它拓展到擴(kuò)大模型上,結(jié)合算法和Fine Tune,實(shí)現(xiàn)了在真實(shí)圖像上進(jìn)行拖拽編輯的效果。
潘新鋼指出,接下來(lái)學(xué)術(shù)界感興趣的研究方向是有沒(méi)有可能把 GAN 和擴(kuò)散模型的優(yōu)勢(shì)進(jìn)行互補(bǔ),既有擴(kuò)散模型強(qiáng)大的生成能力,又有 GAN 所展示的圖像連續(xù)性以及可編輯性,這樣一來(lái),視覺(jué)內(nèi)容將不局限于圖片。
如何更好的創(chuàng)建3D 內(nèi)容?這也是一個(gè)非常有意義的問(wèn)題。潘新鋼認(rèn)為,DragGAN 同樣可以拓展到 3D 問(wèn)題上,甚至可以想象未來(lái)在等 4G 視頻上都可能利用拖拽式編輯。
以下為潘新鋼的現(xiàn)場(chǎng)演講內(nèi)容,雷峰網(wǎng)在不改變?cè)獾那疤嵯逻M(jìn)行了編輯和整理:
大家上午好,很高興能參與本次論壇,今天要和大家分享的主題是《Interacitve Point-Dragging Manipulation of Visual Contents》,也就是對(duì)視覺(jué)內(nèi)容的關(guān)鍵點(diǎn)的拖拽式編輯。
現(xiàn)在的生成式 AI 已經(jīng)能夠非常好地根據(jù)文字生成圖片,比如,我們可以把一段話(huà)術(shù)輸入到 Midjourney 或者 Stable Diffusion中,讓它生成一個(gè)逼真的獅子。但是很多時(shí)候,創(chuàng)作的過(guò)程并不會(huì)在這里結(jié)束。文字對(duì)圖像的描述只是粗粒度的,用戶(hù)更多的希望繼續(xù)細(xì)粒度的去微調(diào)圖像的內(nèi)容,例如去改變所生成內(nèi)容的姿態(tài)、轉(zhuǎn)動(dòng)獅子的頭、增大或縮小物體的大小、移動(dòng)物體的位置、甚至改變獅子的表情。這一系列操作都是關(guān)于物體空間屬性的精細(xì)控制,如何對(duì)這些屬性進(jìn)行精細(xì)控制仍然面臨比較大的挑戰(zhàn)。
其實(shí),符合直覺(jué)的編輯方式是用戶(hù)只需要點(diǎn)擊兩個(gè)點(diǎn),指定一個(gè)紅色的抓取點(diǎn)和藍(lán)色的目標(biāo)點(diǎn),我們目的就是把紅點(diǎn)所對(duì)應(yīng)的圖像的語(yǔ)義的部分移到藍(lán)點(diǎn)的位置,來(lái)達(dá)到如右圖所示的對(duì)圖像空間屬性的編輯的效果。這種編輯方式的好處一是它非常簡(jiǎn)單,只需要兩個(gè)點(diǎn);二是用戶(hù)精確定義了抓取點(diǎn)和目標(biāo)點(diǎn)的位置,所以編輯、移動(dòng)的距離非常精確;三是它非常靈活,前面所提到的空間屬性,像姿態(tài)、大小、位置等都可以通過(guò)這種方式來(lái)編輯。
這就是這次我將主要分享的,關(guān)于交點(diǎn)拖拽的交互式編輯方向的成果 —— DragGAN 。可以看到,用戶(hù)可以選擇性地指定一塊可編輯區(qū)域,然后通過(guò)指定紅點(diǎn)和藍(lán)點(diǎn),我們的算法會(huì)將紅點(diǎn)移到藍(lán)點(diǎn)的位置。并且值得一提的是,所得到的并不僅僅是最終編輯完成后的圖片,而是整個(gè)中間過(guò)渡的過(guò)程。所以,最終呈現(xiàn)出來(lái)的是視頻或動(dòng)畫(huà)的效果,這對(duì)于視頻或者動(dòng)畫(huà)方向來(lái)說(shuō)也具有一定的應(yīng)用場(chǎng)景。
其實(shí),關(guān)鍵點(diǎn)拖拽并不是一個(gè)新的故事。在之前傳統(tǒng)圖形學(xué)中,Shape Deformation 也實(shí)現(xiàn)過(guò)類(lèi)似的效果,同樣是用戶(hù)可以通過(guò)關(guān)鍵點(diǎn)對(duì)圖像進(jìn)行拖拽,并且當(dāng)時(shí) As Rich As Possible 這個(gè)經(jīng)典算法的開(kāi)發(fā)者也開(kāi)發(fā)了一套基于平板電腦的一個(gè)APP。但這種方式通常會(huì)要求對(duì)所編輯的圖像進(jìn)行網(wǎng)格化,并且對(duì)物體的高度有一定的假設(shè)。比如,假設(shè)物體是一個(gè)均勻的高度,這在很多時(shí)候是不準(zhǔn)確的,因?yàn)楹芏辔矬w它有自己的內(nèi)在結(jié)構(gòu)、骨架,并且另一個(gè)更加重要的曲線(xiàn)形式,它只是對(duì) 2D 圖像進(jìn)行一個(gè)扭曲變形,它并沒(méi)有辦法生成新的內(nèi)容。比如,讓這個(gè)熊 3D 視角變化一下,或者呈現(xiàn)出被遮擋的部分。那么,為了克服這些曲線(xiàn)形式,我們需要模型對(duì)物體的結(jié)構(gòu)有一個(gè)了解,并且在需要的時(shí)候能夠生成新的內(nèi)容。
為了實(shí)現(xiàn)這兩點(diǎn),一個(gè)自然的選擇就是生成式模型。在對(duì)它的研究中,我們并沒(méi)有采用當(dāng)下火熱的擴(kuò)散模型,而是用了擴(kuò)散模型之前的對(duì)抗生產(chǎn)網(wǎng)絡(luò),也就是 GAN。之所以這樣選擇,是因?yàn)樗鼉煞矫娴膬?yōu)勢(shì),一是它所描述的圖像空間非常連續(xù),比擴(kuò)散模型連續(xù)很多,二是它的 Contact 的隱空間非常適合編輯這樣的屬性。所以我們認(rèn)為 GAN 是研究這個(gè)問(wèn)題的第一步,是一個(gè)自然的選擇。
簡(jiǎn)單來(lái)說(shuō), GAN 的訓(xùn)練完成后,它的生成器所做的事情就是將一個(gè)低維隱編碼映射到一個(gè)高維的頭像上。可以看到,隨機(jī)擾動(dòng)隱編碼就可以實(shí)現(xiàn)對(duì)圖像內(nèi)容的自然且連續(xù)的變化,可以改變圖像的各種不同的屬性。當(dāng)在一個(gè)獅子的數(shù)據(jù)集上訓(xùn)練完它之后,它會(huì)學(xué)習(xí)到獅子的不同屬性的變化,比如它的姿態(tài)、大小、位置、表情等一系列的變化。對(duì)于一個(gè)用戶(hù)的拖拽式編輯的目標(biāo)來(lái)說(shuō),我們希望做的事情就是把當(dāng)前圖像在 GAN 所描述的圖像空間中游走,游走的方向是按照符合用戶(hù)編輯的目的地方向去移動(dòng),也就是圖中所示的紅色曲線(xiàn)的方向,那最終在這個(gè)例子里達(dá)到獅子張開(kāi)嘴的效果。
那么如何通過(guò)編輯 GAN 的隱編碼來(lái)實(shí)現(xiàn)這樣的效果,就是我們要研究的主要問(wèn)題。下面介紹這個(gè)方法的主要方向。這里是一個(gè)生成器,將隱編碼 W 映射成為一個(gè)獅子的圖像,用戶(hù)會(huì)輸入紅色抓取點(diǎn)和藍(lán)色目標(biāo)點(diǎn)。為了將紅點(diǎn)移到藍(lán)點(diǎn)的位置,我們提出一個(gè)運(yùn)動(dòng)監(jiān)督損失函數(shù),它的目的是給紅點(diǎn)施加一個(gè)力朝藍(lán)點(diǎn)推去。通過(guò)這樣的一個(gè)組織函數(shù),我們?nèi)?yōu)化 GAN,通過(guò)反向傳播優(yōu)化干的隱編碼,得到一個(gè)新的隱編碼,那么它會(huì)生成一個(gè)新的圖像,在新的圖像里,它已經(jīng)按照紅點(diǎn)朝藍(lán)點(diǎn)推的方式變化了。
但是到目前我們并不知道橫點(diǎn)移動(dòng)到了什么位置。所以,接下來(lái)我們要做點(diǎn)跟蹤,就是要去更新紅點(diǎn)的位置,讓它始終跟蹤物體對(duì)應(yīng)的部位。比如這里紅點(diǎn)最初是在鼻子的位置,那么希望它永遠(yuǎn)跟隨鼻子的位置。得到更新過(guò)的抓取點(diǎn)后,我們?cè)僦貜?fù)前面提到的運(yùn)動(dòng)監(jiān)督的過(guò)程,所以我們的方法在運(yùn)動(dòng)監(jiān)督與點(diǎn)追蹤之間迭代,直到紅點(diǎn)準(zhǔn)確到達(dá)了藍(lán)點(diǎn)位置。這里所采用方法的主要是運(yùn)動(dòng)監(jiān)督和點(diǎn)跟蹤,下面將對(duì)這兩部分進(jìn)行介紹。
在實(shí)現(xiàn)最終的方案之前,我們初步進(jìn)行了一些不一樣的嘗試。為了實(shí)現(xiàn)對(duì)運(yùn)動(dòng)的監(jiān)督,我們的想法是采用一個(gè)提取運(yùn)動(dòng)的模型,那么一個(gè)自然的選擇就是光流,因?yàn)楣饬魇菍?duì)物體的運(yùn)動(dòng)最直觀(guān)的刻畫(huà)。我們的做法是,對(duì)于 GAN 所生成的圖像,我們先將它復(fù)制一份作為一個(gè)參考圖,將這兩張圖送給一個(gè)光流模型,這里采用的是經(jīng)典的 Raft 光流模型。由于這兩張圖是一樣的,所以剛開(kāi)始計(jì)算出來(lái)的光流當(dāng)然是0。為了去移動(dòng)用戶(hù)所指定的抓取點(diǎn),我們?nèi)ビ^(guān)察抓取點(diǎn)所對(duì)應(yīng)位置的光流,一開(kāi)始是個(gè)光流視頻,我們希望這個(gè)抓取點(diǎn)移動(dòng),那么這其實(shí)等于我們希望這里產(chǎn)生的光流不是(0,0),而是( -1,0),整個(gè)框架我們就反向傳播去優(yōu)化 GAN的一邊了。
當(dāng)所預(yù)測(cè)光流達(dá)到目標(biāo)時(shí),就確實(shí)可以將當(dāng)前生成的圖像移動(dòng)一小步,實(shí)現(xiàn)一個(gè)向左移動(dòng)一點(diǎn)的效果。所以其實(shí)當(dāng)時(shí)這個(gè)方式算法是可行的,它的問(wèn)題就在于我們引入一個(gè)光流模型,它是一個(gè)迭代式計(jì)算的模型,計(jì)算開(kāi)銷(xiāo)相對(duì)較大。而在這樣一個(gè)用戶(hù)交互時(shí)圖像邊界的應(yīng)用,我們希望算法能夠給用戶(hù)及時(shí)的反饋,所以我們想進(jìn)一步提升效率,那么有沒(méi)有可能去不需要光流?
之所以需要光流模型,是因?yàn)樗崛×藢?duì)物體的精細(xì)的語(yǔ)義信息敏感的特征,這樣才能在兩張圖像之間做相似的匹配。對(duì)于 GAN 來(lái)說(shuō),當(dāng)它生成一張圖片的時(shí)候,我們得到的不僅是這張圖片,也有這個(gè)生成器內(nèi)部的很多特征。之前的很多研究表明, GAN 的內(nèi)部特征與圖像的語(yǔ)義信息有非常強(qiáng)的關(guān)聯(lián)性,但是非常具有判別力,它體現(xiàn)在僅僅通過(guò) GAN 的特征,你就可以去做小樣本的語(yǔ)義分割,甚至無(wú)樣本語(yǔ)義分割。這些證據(jù)表明, GAN 擁有這種強(qiáng)判別力,通過(guò)它我們可能在 GAN 特征上就可以通過(guò)簡(jiǎn)單的設(shè)計(jì)來(lái)運(yùn)用監(jiān)督和點(diǎn)跟蹤,這也就引出了我們最終的方案。
這里同樣是通過(guò)隱編碼經(jīng)過(guò)生成器得到圖像的過(guò)程,立方體展示的是 GAN 中間過(guò)程的特征。那么為了將紅點(diǎn)移到藍(lán)點(diǎn),我們用紅色 patch 的特征是作為 ground shoes 去監(jiān)督藍(lán)色的 patch ,也就是我們希望藍(lán)色的 patch 去模仿去 紅色 patch 的數(shù)值。你可以想象,當(dāng)藍(lán)色 patch 的數(shù)值變成紅色 patch 的時(shí)候,其實(shí)就相當(dāng)于紅色這個(gè)圓移動(dòng)到了藍(lán)色圓的位置,這就可以通過(guò)損失函數(shù)來(lái)實(shí)現(xiàn)。在實(shí)現(xiàn)的時(shí)候,我們需要將紅色的 patch 從反向傳播的計(jì)算圖中分離出來(lái)。前面提到了用戶(hù)可以選擇性地輸入一個(gè) Mask 來(lái)指定可編輯區(qū)域,那么對(duì)于可編輯區(qū)域之外的部分,我們也會(huì)讓這部分的特征始終與最初的特征保持一致。
通過(guò)這樣的損失函數(shù)優(yōu)化隱編碼后,我們會(huì)得到一個(gè)新的特征和新的圖像。我們假設(shè)最初的抓取點(diǎn),它所對(duì)應(yīng)的特征值是F0,我們所做的就是在當(dāng)前的特征圖上抓取點(diǎn)附近的一小塊區(qū)域,去尋找和 F0 數(shù)值最近的那個(gè)相似的位置,也就是一個(gè) feature matching 。由于GAN 的特征與語(yǔ)義非常強(qiáng)的耦合性,通過(guò)這種方式找到的位置,它就在語(yǔ)義上傾向于和原本特征抓取點(diǎn)所對(duì)應(yīng)的語(yǔ)義相一致。比如這里原本抓取點(diǎn)在十字的筆尖,那么我們通過(guò) feature matching 找到的點(diǎn)也會(huì)傾向于在十字的筆尖,這樣就實(shí)現(xiàn)了一個(gè)tracking跟蹤的功能。
剛剛介紹的是針對(duì)一個(gè)點(diǎn)進(jìn)行的,對(duì)于多點(diǎn)的情況,我是只需要將不同的運(yùn)動(dòng)監(jiān)督損失函數(shù)進(jìn)行累加,并且每個(gè)點(diǎn)單獨(dú)跟蹤就可以。
通過(guò)GAN所實(shí)現(xiàn)的編輯效果是,用戶(hù)只需要進(jìn)行非常自然簡(jiǎn)單的拖拽式編輯,就可以改變圖像姿態(tài)的屬性。你也可以重新設(shè)計(jì)一個(gè)車(chē)的外形或者改變車(chē)的視角,當(dāng)然也可以編輯很多其他的動(dòng)物,甚至讓貓睜一只眼閉一只眼。對(duì)人臉的年紀(jì)同樣比較輕松,你可以改變他的頭發(fā)、表情,也可以改變模特的姿態(tài)以及他的衣服的長(zhǎng)短。可以看到,這種編輯方式非常靈活地編輯了不同物體的多種空間屬性。
那么我們也和其他方法進(jìn)行了對(duì)比。這里第一行展示的是輸入圖片以及用戶(hù)的編輯,那么第二行展示的是一個(gè) baseline 方法,雖然它的速度較快,但是編輯的準(zhǔn)確性顯著低于我們的方法,最后一行是我們的方法。
第一個(gè)例子中我們看到 baseline 方法,它沒(méi)有辦法把馬腳和馬頭移動(dòng)到目標(biāo)位置去,按照我們的方法移動(dòng)的比較精確,我們也同樣可以對(duì)更密集的關(guān)鍵點(diǎn)進(jìn)行編輯。這里是一個(gè)人臉關(guān)鍵點(diǎn)的編輯,那么對(duì)于每一個(gè)例子左邊的兩行分別兩列,分別是輸入圖像和目標(biāo)的人臉,我們目的就是把輸入的點(diǎn)的關(guān)鍵點(diǎn)編輯到和目標(biāo)點(diǎn)一致,那么可以看到,確實(shí)可以實(shí)現(xiàn)這樣的編輯。我們也進(jìn)行了定量式實(shí)驗(yàn),和其他的方法相比,我們的方法也是顯著的取得了性能的提升。那么這里是一個(gè)點(diǎn)跟蹤的對(duì)比,第一列是我們的方法,可以看到在整個(gè)編輯的過(guò)程中,這個(gè)紅點(diǎn)會(huì)始終跟隨獅子的鼻子上方這個(gè)位置。但是對(duì)于另外兩個(gè)跟蹤的方法, PIPs 和Raft,他們?cè)诟櫟倪^(guò)程中會(huì)逐漸偏離原來(lái)的位置,那這樣的話(huà)你就沒(méi)有辦法準(zhǔn)確地移動(dòng)到目標(biāo)點(diǎn)。
前面展示的大部分例子都是基于 GAN 本身所生成的圖片,但是對(duì)于圖像編輯來(lái)說(shuō),一個(gè)非常重要的問(wèn)題就是如何去編輯真實(shí)世界的用戶(hù)的圖片。要實(shí)現(xiàn)這一點(diǎn),通常要做的是額外引入的 GAN 重建,也就是先用 GAN 組成用戶(hù)的圖片,然后再基于自己進(jìn)行編輯。這里展示了一些真實(shí)圖片編輯的效果,同樣可以通過(guò)點(diǎn)關(guān)鍵點(diǎn)拖拽來(lái)實(shí)現(xiàn)對(duì)各種空間屬性的編輯,其實(shí)關(guān)鍵點(diǎn)拖拽的編輯方式,很多時(shí)候是有歧義的,或者說(shuō)存在脫節(jié)的。比如這樣去拉狗的鼻子位置的拖拽,你可以通過(guò)轉(zhuǎn)動(dòng)整個(gè)狗的身體實(shí)現(xiàn),可以通過(guò)只改變狗頭位置來(lái)實(shí)現(xiàn),那么實(shí)踐中,它會(huì)選擇在這個(gè) GAN 有模擬的圖像和空間中與當(dāng)前圖片最近的一個(gè)位置,在這里它就會(huì)轉(zhuǎn)動(dòng)整個(gè)狗的身體。另一點(diǎn)是用戶(hù)可能會(huì)做出很多夸張的編輯。這里展示了一些夸張的編輯的效果,比如讓獅子的嘴張得非常大,雖然我們的方法也一定程度上會(huì)展示一些不完美之處,但這是相對(duì)合理的一些結(jié)果。
當(dāng)然我們的方法也不是完美的。目前的一些局限性首先是對(duì)于超出訓(xùn)練數(shù)據(jù)分布的編輯,那么很多時(shí)候仍然會(huì)產(chǎn)生瑕疵。比如,這里人體的數(shù)據(jù)集,它是在模特?cái)?shù)據(jù)上訓(xùn)練的,也就是說(shuō)模特通常都會(huì)比較自然,如果你希望產(chǎn)生一些夸張的姿勢(shì)的話(huà),它會(huì)產(chǎn)生一些比較扭曲的缺陷。
此外關(guān)鍵點(diǎn)的選取也有局限,如果所選取的點(diǎn)在一個(gè)非常平滑的、沒(méi)有什么紋理的區(qū)域,比如車(chē)門(mén)靠中間的位置選中紅色,那么在編輯的跟蹤的過(guò)程中,關(guān)鍵點(diǎn)它會(huì)容易發(fā)生一些偏移,它相對(duì)于車(chē)發(fā)生了滑動(dòng),這是我們所不希望看到的。但是如果將關(guān)鍵點(diǎn)選取后視鏡的位置,紋理相對(duì)豐富,它就不會(huì)發(fā)生這樣的偏離。
另外一點(diǎn)是對(duì)于真實(shí)世界復(fù)雜的圖像的編輯。當(dāng)一個(gè)圖像中存在非常多的內(nèi)容的時(shí)候,那無(wú)論是這個(gè)生成模型的訓(xùn)練還是 GAN 組件進(jìn)行編輯的過(guò)程都非常復(fù)雜,后續(xù)如何在更復(fù)雜的真實(shí)圖像上實(shí)現(xiàn)編輯是一個(gè)重要的研究方向。
這樣的一個(gè)關(guān)鍵點(diǎn)拖拽式的編輯對(duì)目前所火熱的文生圖的生成方式提供了一個(gè)非常好的補(bǔ)充,所以當(dāng)我們發(fā)布公開(kāi)成果的時(shí)候,受到了非常多的關(guān)注,大家看到了拖拽式編輯的巨大的可能性。在學(xué)術(shù)界關(guān)于關(guān)鍵點(diǎn)拖拽的編輯也要成為一個(gè)新的競(jìng)賽。在我們公開(kāi) DragGAN 大概一個(gè)月后,有研究人員嘗試將它拓展到擴(kuò)大模型上,同樣是用我們提出的類(lèi)似的運(yùn)動(dòng)損失函數(shù)還有點(diǎn)跟蹤的算法,它們結(jié)合 Fine Tune 實(shí)現(xiàn)了一些在真實(shí)圖像上進(jìn)行拖拽編輯的效果。
這里展示的措施其實(shí)已經(jīng)可以看到,擴(kuò)散模型所展示的編輯過(guò)程不如 GAN 那么連續(xù)。那么緊隨其后的是北大和騰訊所展示的 DragGAN 模型,那么他們提出了一個(gè)不一樣的策略,實(shí)現(xiàn)了類(lèi)似的編輯效果。
所以可以看到,目前擴(kuò)散模型已經(jīng)產(chǎn)生了一些鼓舞人心的效果,但是對(duì)于比較大角度的編輯以及比較長(zhǎng)距離的編輯仍然有局限性。例如,對(duì)一輛車(chē)來(lái)說(shuō),如何讓車(chē)轉(zhuǎn)動(dòng)起來(lái),對(duì)于擴(kuò)散模型仍然是一個(gè)比較大的挑戰(zhàn)。另外它所展示的編輯過(guò)程非常的不連續(xù),這對(duì)于視頻這樣的應(yīng)用來(lái)說(shuō)還是不夠的。如何生成更加自然連續(xù)的編輯仍然是一個(gè) open problem。所以這里有一個(gè)有非常有趣的問(wèn)題,就是我們有沒(méi)有可能把 GAN 和擴(kuò)散模型的優(yōu)勢(shì)互補(bǔ),既有擴(kuò)散模型強(qiáng)大的生成能力,又有 GAN 所展示的圖像連續(xù)性以及可編輯性,這也是一個(gè)學(xué)術(shù)界會(huì)非常感興趣的未來(lái)的研究方向。
視覺(jué)內(nèi)容當(dāng)然不局限于圖片, 如何更好地創(chuàng)建3D 內(nèi)容也是一個(gè)非常有意義的問(wèn)題。未來(lái),對(duì)于 DragGAN 來(lái)說(shuō),同樣可以拓展到 3D 問(wèn)題上,已經(jīng)有學(xué)者將其與 3D 生成模型結(jié)合,實(shí)現(xiàn)了對(duì) 3D 形狀進(jìn)行拖拽式編輯的效果,這對(duì)于 3D 設(shè)計(jì)師來(lái)說(shuō)也將會(huì)是非常有意義的。那么我們可以想象未來(lái)在其他的視覺(jué)內(nèi)容上,比如說(shuō)視頻,甚至 4G 的視頻上都可能利用這種拖拽式編輯的方式。
DragGAN 目前已經(jīng)開(kāi)源,在 GitHub 上獲得了 32000 個(gè)Star,歡迎大家使用,并且我們提供了一些線(xiàn)上體驗(yàn)的平臺(tái),也歡迎大家體驗(yàn)。我的分享到這里就結(jié)束了,謝謝大家。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。