伯克利最新研究：GANs在字體風格遷移上的應(yīng)用

本文作者：楊文

2018-03-17 12:06

導(dǎo)語：GANs在字體風格遷移上的應(yīng)用

雷鋒網(wǎng)AI科技評論按：怎樣能快速生成風格相同的字體呢？伯克利AI研究院最新發(fā)表的一篇博客告訴你他們最新的研究。以下是雷鋒網(wǎng)AI科技評論對原博文的編譯。

左：給出的電影海報，右：由MC-GAN生成的新電影片名

文字是平面設(shè)計中很突出的視覺元素。藝術(shù)家投入大量時間來設(shè)計不同的字形，使得它與其他元素在形狀和紋理上相協(xié)調(diào)。這個過程是需要大量勞動力的，藝術(shù)家通常只設(shè)計標題或注釋所需的字形子集，這使得設(shè)計一旦完成后，要想將觀察到的字體形式遷移到自己的項目中或改變文本變得很困難。

字形合成的早期研究主要集中在輪廓的幾何建模上，限于特定的字形拓撲（例如，不能應(yīng)用于裝飾性文字或手寫字形），不能用于圖像輸入。隨著深度神經(jīng)網(wǎng)絡(luò)的興起，研究人員已經(jīng)研究了從圖像中建模字形的方法。此外，與局部觀察一致的人工合成數(shù)據(jù)是計算機視覺和圖形中的一個有趣問題，例如多視圖圖像生成，完成圖像中的缺失區(qū)域以及生成 3D 形狀。字體數(shù)據(jù)就是一個提供了純凈的風格和內(nèi)容的因式分解示例。

有條件生成對抗網(wǎng)絡(luò)（cGANS）[1] 的最新進展在許多生成應(yīng)用中取得了成功。但是，它們只在相當專業(yè)化的領(lǐng)域才能做到最好，而在一般的或多領(lǐng)域的風格轉(zhuǎn)移中表現(xiàn)的一般。同樣，直接用于生成字體時，cGAN 模型會產(chǎn)生重要的人為因素。例如，鑒于以下五個字母：

伯克利最新研究：GANs在字體風格遷移上的應(yīng)用

有條件生成對抗網(wǎng)絡(luò)模型在生成具有相同樣式的 26 個字母中表現(xiàn)的并不成功：

伯克利最新研究：GANs在字體風格遷移上的應(yīng)用

適用于少數(shù)字體樣式轉(zhuǎn)換的多內(nèi)容生成對抗網(wǎng)絡(luò)

我們沒有為所有可能的字體訓(xùn)練單一網(wǎng)絡(luò)，而是設(shè)計了多內(nèi)容的 GAN 體系結(jié)構(gòu) [2]，為每個觀察到的字符集重新定制了一個神奇網(wǎng)絡(luò)（只有少數(shù)觀察到的字型）。該模型考慮沿著網(wǎng)絡(luò)層的頻道和風格（即字形裝飾）的內(nèi)容（即，A-Z 字形）將給定的字形的風格轉(zhuǎn)移到未看到的字形的內(nèi)容。多內(nèi)容的 GAN 模型由一個堆疊的 cGAN 架構(gòu)組成，用于預(yù)測粗略的字形形狀，以及一個裝飾網(wǎng)絡(luò)來預(yù)測最終字形的顏色和紋理。第一個稱為 GlyphNet 的網(wǎng)絡(luò)預(yù)測了字形蒙版，而第二個網(wǎng)絡(luò)稱為 OrnaNet，用于對來自第一個網(wǎng)絡(luò)的生成的字形進行顏色和裝飾。每個子網(wǎng)絡(luò)都遵循有條件的生成對抗網(wǎng)絡(luò)（cGAN）體系結(jié)構(gòu)，該體系結(jié)構(gòu)因其特有的雕刻字形或裝飾預(yù)測目的而修改。

網(wǎng)絡(luò)架構(gòu)

下面是 GlyphNet 的示意圖，用于從一組訓(xùn)練字體中學(xué)習(xí)字體流形的一般形狀。GlyphNet 的輸入和輸出是為每個字母分配通道的字形堆棧。在每次訓(xùn)練迭代中，x1 包含隨機選擇的 y1 個字形子集，其余輸入通道被清零。

伯克利最新研究：GANs在字體風格遷移上的應(yīng)用

通過這種新穎的字形堆棧設(shè)計，不同字形之間的相互關(guān)系可通過網(wǎng)絡(luò)渠道獲知，以便自動傳輸其樣式。以下圖表通過結(jié)構(gòu)相似性（SSIM）度量對隨機設(shè)置的 1500 個字體示例的這種相關(guān)性進行表示。計算每個生成的字形與其基本事實之間的結(jié)構(gòu)相似性時，一次只觀察一個字母就可以找到 25 個分布。這些圖顯示了當字母β被觀察到時（藍色）與其他字母而不是β被給出（紅色）時生成字母α的分布α|β。圖中顯示了兩個信息最豐富的給定字母的分布和兩個最不明顯的信息，分別用于生成 26 個字母。例如，查看圖中的第五行，字母 F 和 B 在生成字母 E 時最有建設(shè)性，與其他字母相比較，而 I 和 W 是信息量最少的字母。作為其他例子，O 和 C 是用于構(gòu)造 G 以及用于生成 P 的 R 和 B 的最具指導(dǎo)性的字母。

伯克利最新研究：GANs在字體風格遷移上的應(yīng)用

因此，對于只有少數(shù)觀察字母的任何想要的字體，預(yù)先訓(xùn)練的 GlyphNet 會生成全部 26 個 A-Z 字形。但我們應(yīng)該如何轉(zhuǎn)移裝飾？第二個網(wǎng)絡(luò) OrnaNet 采用這些生成的字形，并在經(jīng)過簡單的重塑轉(zhuǎn)換和下圖中用 T 表示的灰度信道重復(fù)后，使用條件 GAN 體系結(jié)構(gòu)生成富含希望顏色和裝飾的輸出。OrnaNet 的輸入和輸出是批量的 RGB 圖像，而不是堆棧，其中每個字母的 RGB 通道作為圖像重復(fù)其由 GlyphNet 生成的相應(yīng)灰度字形。OrnaNet 中的多個正規(guī)化處理程式化字母的掩碼與相應(yīng)字形的偏差。

伯克利最新研究：GANs在字體風格遷移上的應(yīng)用

結(jié)果

下面，我們演示使用單個詞中給出的字體樣式的示例句子。

伯克利最新研究：GANs在字體風格遷移上的應(yīng)用

另外，這里是OrnaNet預(yù)測的逐步改進：

伯克利最新研究：GANs在字體風格遷移上的應(yīng)用

參考文獻

[1] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, and Alexei A. Efros. "Image-to-Image Translation with Conditional Adversarial Networks." CVPR 2017.

[2] Samaneh Azadi, Matthew Fisher, Vladimir Kim, Zhaowen Wang, Eli Shechtman, and Trevor Darrell. "Multi-Content GAN for Few-Shot Font Style Transfer." CVPR 2018.

雷鋒網(wǎng)報道

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

相關(guān)文章

楊文

編輯&記者

AI科技評論員，微信：yeohandwin

掃描關(guān)注作者微信

發(fā)私信

當月熱門文章