MSRA獲ACM TOMM 2017最佳論文：讓AI接手繁雜專業(yè)的圖文排版設(shè)計工作

本文作者：奕欣

2017-08-21 01:43

導(dǎo)語：你是否曾經(jīng)為如何創(chuàng)作和編輯一篇圖文并茂、排版精美的文章而煩惱？或是為缺乏藝術(shù)靈感和設(shè)計思路而痛苦？AI技術(shù)能否在藝術(shù)設(shè)計中幫助到我們？

雷鋒網(wǎng)AI科技評論按：本文轉(zhuǎn)載于“微軟研究院AI頭條”，雷鋒網(wǎng)AI科技評論獲授權(quán)轉(zhuǎn)載，并做了不改動愿意的編輯。

你是否曾經(jīng)為如何創(chuàng)作和編輯一篇圖文并茂、排版精美的文章而煩惱？或是為缺乏藝術(shù)靈感和設(shè)計思路而痛苦？AI技術(shù)能否在藝術(shù)設(shè)計中幫助到我們？今天我們?yōu)榇蠹医榻B的這篇論文，“Automatic Generation of Visual-Textual Presentation Layout”（圖文排版的自動生成算法研究），剛剛被美國計算機(jī)學(xué)會會刊ACM Transactions on Multimedia Computing, Communications and Applications （TOMM）授予2017 Nicolas D. Georganas 最佳論文獎，希望為大家在進(jìn)行富媒體內(nèi)容創(chuàng)作和分享時提供一個獨(dú)到的思路和方法。

論文的聯(lián)合作者是楊緒勇（微軟亞洲研究院和中國科技大學(xué)聯(lián)合培養(yǎng)博士生，喂車車聯(lián)合創(chuàng)始人）、梅濤（微軟亞洲研究院資深研究員，美國計算機(jī)協(xié)會杰出科學(xué)家，國際模式識別學(xué)會會士）、徐迎慶（前微軟亞洲研究院主管研究員，清華大學(xué)美術(shù)學(xué)院信息藝術(shù)設(shè)計系主任）、芮勇（前微軟亞洲研究院副院長，聯(lián)想CTO）、李世鵬（前微軟亞洲研究院副院長，硬蛋CTO）。祝賀研究院的各位研究員和院友們！

當(dāng)今富媒體的內(nèi)容之多是前所未有的，人們每時每刻都在創(chuàng)造和分享著海量信息，特別是內(nèi)容繁雜的圖像和文字信息，其中圖文混排的內(nèi)容模式已經(jīng)成為主流。而在內(nèi)容創(chuàng)作過程中，人們面臨的一個巨大的挑戰(zhàn)就是如何針對內(nèi)容多樣的圖像和文字信息來設(shè)計吸引眼球的版面（例如，雜志封面、海報、或者PPT演講稿等）。這個問題無論是對于商業(yè)印刷、在線期刊與雜志，還是用戶生成的內(nèi)容表達(dá)，都極為重要。圖文內(nèi)容的排版涉及到大量的專業(yè)知識，包括視覺傳達(dá)、信息藝術(shù)設(shè)計、色彩與美學(xué)、平面規(guī)劃、幾何構(gòu)圖等等。以往的圖文排版設(shè)計工作，不僅需要具有豐富專業(yè)知識的設(shè)計師，而且還耗費(fèi)大量的人工。如何讓計算機(jī)根據(jù)圖文內(nèi)容來自動進(jìn)行排版是一個非常困難的問題。

從2013年底開始，來自微軟亞洲研究院的研究員與來自清華大學(xué)美術(shù)學(xué)院的藝術(shù)設(shè)計專家，在這個科學(xué)與藝術(shù)相融合的領(lǐng)域開展了深入地合作。他們把設(shè)計學(xué)中的審美原則與可計算的圖像特征相結(jié)合，創(chuàng)造性地提出了一個可計算的自動排版框架原型。該原型通過對一系列關(guān)鍵問題的優(yōu)化（例如，嵌入在照片中的文字的視覺權(quán)重、視覺空間的配重、心理學(xué)中的色彩和諧因子、信息在視覺認(rèn)知和語義理解上的重要性等)，把視覺呈現(xiàn)、文字語義、設(shè)計原則、認(rèn)知理解等領(lǐng)域?qū)＜业南闰炛R自然地集成到同一個多媒體計算框架之內(nèi)，并且開創(chuàng)了“視覺文本版面自動設(shè)計”這一新的研究方向。

MSRA獲ACM TOMM 2017最佳論文：讓AI接手繁雜專業(yè)的圖文排版設(shè)計工作

圖1 利用算法自動產(chǎn)生的圖文排版效果。注：原始輸入是一張純圖片（即沒有任何文字）和一段純文本（如主標(biāo)題和副標(biāo)題等），輸出是圖文混排的結(jié)果（文字嵌入圖片之中）。

這項研究將通用的美學(xué)感知進(jìn)行了體系的數(shù)學(xué)表達(dá)，構(gòu)建了一套和主題相關(guān)的圖文排版設(shè)計模版庫，并提出一套可計算的圖文合成框架原型，既融合了宏觀層面自上而下的美學(xué)感知，又包含了微觀層面自下而上的圖文特征。通過融合人臉、文字檢測以及視覺顯著性檢測算法，率先提出了視覺注意力檢測算法，構(gòu)成了整幅圖像的重要性圖和注意力圖；在針對文字布局的算法中，這篇論文將文字塊的形狀和圖像中的重要性圖交互過程量化為一個能量最優(yōu)化問題：

MSRA獲ACM TOMM 2017最佳論文：讓AI接手繁雜專業(yè)的圖文排版設(shè)計工作

MSRA獲ACM TOMM 2017最佳論文：讓AI接手繁雜專業(yè)的圖文排版設(shè)計工作是圖1中文本侵入顯著視覺對象的成本，即盡量減少文本和重要視覺對象的交叉；表示空閑視覺空間的浪費(fèi)，即充分利用圖像中的可用視覺空間，以最大化文字的突出效應(yīng)； MSRA獲ACM TOMM 2017最佳論文：讓AI接手繁雜專業(yè)的圖文排版設(shè)計工作而則代表文本塊的語義重要性_i和視覺感知重要性_i之間的不匹配，即將最重要的文字內(nèi)容匹配到圖像中最重要的視覺區(qū)域，以便于閱讀時快速獲得關(guān)鍵信息。能量最優(yōu)化的求解過程，在設(shè)計模版的美學(xué)感知原則的監(jiān)督下，使得最后的求解結(jié)果能符合視覺審美需求，而不僅僅是計算機(jī)的最優(yōu)求解結(jié)果。

在文本空間布局后，通過對圖像前后景顯著顏色的分析，在色彩和諧最優(yōu)化框架中，保持色彩整體和諧，并最大化文字和背景色彩的差異以使得最后的圖文混排能在全局尊重原圖的色彩和諧性，又能在局部保證文字的可閱讀性。全局色彩的和諧計算采用了著名的“Color Harmonization”中提出的心理學(xué)色彩模型，并結(jié)合了這篇論文中提出的圖像前后景主題色在不同主題下的模型偏好，從而找到最適合的全局主題色。針對局部的視覺對比度最大化，論文提出了最遠(yuǎn)色調(diào)角黃金取樣法，即找到文本覆蓋背景下圖像的顯著顏色映射到tone和hue空間，在二維色調(diào)空間（tone, hue）求最遠(yuǎn)點，并取顯著顏色點到最遠(yuǎn)點的黃金分割點。通過整個框架，能完成整個圖文設(shè)計在美學(xué)感知監(jiān)督下的自動化。

MSRA獲ACM TOMM 2017最佳論文：讓AI接手繁雜專業(yè)的圖文排版設(shè)計工作

圖2 系統(tǒng)框圖

這篇論文提出的系統(tǒng)允許用戶上傳具體主題的視覺背景圖像以及一些文本語句。并在第二階段對原始圖像進(jìn)行了處理，通過結(jié)合顯著值、臉部、文本以及目光注意力圖以獲取視覺感知圖，進(jìn)而重新調(diào)整圖像的大小，使之符合目標(biāo)布局尺寸，并根據(jù)視覺感知圖保留重要的區(qū)域。重新調(diào)整過的圖像就能用來排列空間分布的布局模板。當(dāng)圖像調(diào)整后，已有的語句、空間布局以及文本就通過第三階段中的能源優(yōu)化工藝重疊在背景圖像上了。在第四階段的文本著色上，首先分析經(jīng)過剪裁的圖像的調(diào)色板，同時根據(jù)主題屬性挑選主題色彩。應(yīng)用特定色相/色調(diào)模型、調(diào)色板、語義色彩以及內(nèi)容特點，就可以通過保持局部色彩和諧以及局部可讀性對文本進(jìn)行重新著色。

MSRA獲ACM TOMM 2017最佳論文：讓AI接手繁雜專業(yè)的圖文排版設(shè)計工作

圖3 布局算法（a）帶有目光注意力（黃色）的視覺重要性圖（灰色）；（b）從前5個模板中挑選出的模板；（c）輸入文本；（d）排印程序的細(xì)節(jié)，這里能源定義為E(L)，通過迭代控制字體高度，在局部優(yōu)化解決方案中會被最小化，；（e）受到下向上的圖像特點和自上向下的空間布局限制的排印結(jié)果。

MSRA獲ACM TOMM 2017最佳論文：讓AI接手繁雜專業(yè)的圖文排版設(shè)計工作

圖4 色彩分析與優(yōu)化的示意圖

這篇論文發(fā)表之后，得到學(xué)術(shù)界的廣泛關(guān)注，從2016年至今在ACM數(shù)據(jù)庫中已有超過260次下載。此外，該項研究不僅具有重要的理論意義，而且具有廣泛的應(yīng)用價值。例如，論文提出的基于圖像內(nèi)容的顏色檢測算法已經(jīng)在實際產(chǎn)品Office Sway中得到應(yīng)用。目前每個月有來自全球60多個國家的超過40多萬用戶在使用Office Sway這一新產(chǎn)品開展設(shè)計。

這篇論文展現(xiàn)了多媒體與藝術(shù)設(shè)計以及顏色心理學(xué)幾個不同學(xué)科的深度融合，將人工智能的方法用于藝術(shù)設(shè)計中?？梢哉f，顏色心理學(xué)的模型為多媒體設(shè)計打開了”心靈“的窗口，而美學(xué)設(shè)計思維則為多媒體分析展開了想象的翅膀！

論文下載地址：https://www.microsoft.com/en-us/research/publication/automatic-generation-of-visual-textual-presentation-layout/

論文作者

MSRA獲ACM TOMM 2017最佳論文：讓AI接手繁雜專業(yè)的圖文排版設(shè)計工作