0
本文作者: 汪思穎 | 2018-04-23 10:37 |
2018 年 4 月 21 日,在阿里巴巴 UCAN 用戶體驗設計論壇上,「魯班」創(chuàng)始人、阿里巴巴智能設計實驗室負責人樂乘向現(xiàn)場觀眾展示「魯班」的設計能力,臺下掌聲雷動。
這是一場以設計師為主要觀眾的論壇,對于設計師來說,他們的工作往往包含許多重復性體力勞動,比如裁切素材、調整圖片大小、修正白平衡等,而「魯班」基本上能包攬上述絕大部分內容,這大大解放了設計師的雙手。
「魯班」是阿里巴巴自研的一款設計人工智能產(chǎn)品,目前累計設計 10 億次海報。據(jù)雷鋒網(wǎng) AI 研習社了解,2017 雙 11 期間,魯班一天制作 4000 萬張海報,并且每張海報都是根據(jù)商品圖像特征專門設計。
據(jù)樂乘介紹,「魯班」的設計能力已經(jīng)接近高級設計師水平,他們將會開放「魯班」的一鍵生成、智能創(chuàng)作、智能排版、設計拓展四個核心能力,目前有 100 個免費內測名額,大家可以點擊 luban.aliyun.com 申請。他表示,在未來,即使是設計小白,也可以通過「魯班」一鍵生成自己的海報。
「魯班」的核心算法技術由阿里巴巴達摩院機器智能技術實驗室研發(fā),在強化學習、平面設計美學量化評估、知識圖譜方面分別聯(lián)合倫敦大學學院、清華大學、浙江大學團隊。得益于深度學習、增強學習、蒙特卡洛樹搜索、圖像搜索等技術以及大量設計數(shù)據(jù),「魯班」可以通過自學獲得設計能力。
據(jù)雷鋒網(wǎng) AI 研習社了解,「魯班」包括規(guī)劃網(wǎng)絡、行動器、評估網(wǎng)絡三大核心部分。
圖:「魯班」進行風格學習
規(guī)劃網(wǎng)絡的基礎來源于設計師的創(chuàng)意設計模板和基本元素素材,設計師將大量設計素材進行結構化數(shù)據(jù)標注,最后經(jīng)由一系列人工智能網(wǎng)絡學習,輸出空間+視覺的設計框架。
圖:元素分類器對輸入的素材進行識別及分類
行動器根據(jù)「魯班」收到的設計需求,從學習網(wǎng)絡中抽取設計原型,并從元素中心中選取元素,規(guī)劃輸出多個最優(yōu)生成路徑,完成圖片設計。
圖:魯班行動器規(guī)劃最優(yōu)設計生成
評估網(wǎng)絡的工作原理是輸入大量的設計圖片和評分數(shù)據(jù),訓練魯班學會判斷設計的好壞。
圖:評估得分
作為阿里巴巴智能設計實驗室負責人,樂乘主要負責「魯班」的數(shù)據(jù)、產(chǎn)品、設計和業(yè)務,達摩院機器智能技術實驗室資深算法專家星瞳則負責算法技術及后臺視覺生成引擎系統(tǒng),包括數(shù)據(jù)的分析處理,在線、離線流程,各類機器學習算法的研究。雷鋒網(wǎng) AI 研習社針對「魯班」背后的技術細節(jié)與他們進行探討,整理如下。
問:「魯班」即將達到人類高級設計師水平,它的這一設計水平是如何衡量的?具體的考慮因素有哪些?
答:魯班的設計取決于人類輸入,輸入水平?jīng)Q定了輸出水平,我們有一個專門的團隊來訓練「魯班」,目前它學完之后可以達到中級設計師水平,而想要達到高級水平,需要用到更大規(guī)模的數(shù)據(jù),預計在今年下半年可以實現(xiàn)。
對于設計水平的衡量,需要從多個維度來考慮:
第一,從設計的合理性、美感上評估,這更多是設計行業(yè)評判設計師水平的通用標準。
第二,生成圖片的使用效果如何。
第三,從美學和藝術的角度,這里可能不同的人會有不同的看法,這一部分也需要設計師參與評估。
問:「魯班」項目 2015 年底啟動至今,有哪些比較重要的時間節(jié)點?
答:總的來說有三個節(jié)點。
我們在兩年多前,有了研發(fā)魯班的想法,先做出了第一個 Demo,這是第一個節(jié)點。
第二個節(jié)點是 2016 年的雙十一,我們想真正規(guī)?;貞眠@一系統(tǒng),當時,針對集團的特定場景,開發(fā)了一個版本,那個版本最重要的貢獻,就是能夠真正大規(guī)模地輔助線上系統(tǒng)。
但是那時候「魯班」主要是針對阿里的一些場景應用,與外界目標群體的需求存在差異,之后我們又集中精力進行了這方面的研發(fā),到目前,能滿足不同群體的需求。這是第三個比較重要的節(jié)點。
通過時間的積累、越來越多的資源投入以及大家的一起努力,魯班現(xiàn)在在某些場景下能輸出很不錯的結果。
問:「魯班」對硬件的要求如何?
答:「魯班」依賴于 GPU,目前大概需要幾百個 GPU。同時,這一系統(tǒng)具有伸縮性,在雙十一活動的高峰期,需要的 GPU 多一些,平時相對來說少一些。
問:「魯班」系統(tǒng)在設計過程中,需要的原始數(shù)據(jù)量有多大?
答:2016 年雙十一,我們利用「魯班」設計出 1.7 億張海報,那是比較早期的摸索。2017 年雙十一,「魯班」設計了 4 億張海報,那時候我們投入了十多人的設計師團隊,他們會創(chuàng)作出少量的元素以及符合雙十一要求的基礎數(shù)據(jù),在投入數(shù)據(jù)規(guī)模方面,當時種子數(shù)據(jù)的量級在千級別,隨著應用規(guī)模擴大,種子數(shù)據(jù)也有數(shù)量級的擴大。
問:在標注數(shù)據(jù)方面,需要投入大量人力成本,你們是如何解決這一問題的?
答:總的來說,啟動的種子(需要極大人力投入的數(shù)據(jù))在前期必不可少,但魯班是一個不斷進化的閉環(huán)系統(tǒng),它具有自我評估能力,機器產(chǎn)生的數(shù)據(jù),一部分可以直接用,還有一部分,可以經(jīng)過人工的參與,去做進一步清理、編輯、打標等。隨著處理數(shù)據(jù)越來越多,算法的力量越來越強大,人力成本會不斷降低,之后,系統(tǒng)會越來越好,數(shù)據(jù)會像滾雪球一樣往前走。
問:支撐「魯班」系統(tǒng)的核心技術有哪些?
答:你可以認為「魯班」系統(tǒng)是對 AI 算法的集中。
這一系統(tǒng)比較復雜,其中有針對設計數(shù)據(jù)的分類和分割算法;
在線規(guī)劃生成的時候,又有一些序列學習算法;
同時,還使用到一些多 Agent 強化學習算法;
此外,我們也使用了一部分 GAN 的方法;
還有一系列其他的方法,比如大規(guī)模檢索或特征表達。
算法層面,我們基本上覆蓋了現(xiàn)在比較新的技術。此外,我們還會用到大規(guī)模分布式數(shù)據(jù)處理技術。
問:「魯班」背后主要的技術難點有哪些?
答:我們前前后后花了兩年多時間來研究「魯班」系統(tǒng),因為以前并沒有比較好的可供參考的案例,很多技術及解決方法都要靠我們自己去探索。
雖然業(yè)界有很多利用 GAN 去做生成的案例,但這些技術并不能達到我們的目標——可控數(shù)字內容的生成。
此外,我們既要能滿足可控,又要生成用戶想要的內容,還得保證圖片質量以及生成速度。
另外,還有幾個典型問題:怎么利用多 Agent 強化學習,從粗到細地生成中間的結構;怎么利用一些特殊的特征去描述各種各樣的元素;還有最基礎的圖像理解、對象分割問題。
目前,「魯班」系統(tǒng)不可能像一般的深度學習算法,直接端對端就可以達成目標,相對來說它的邏輯比較復雜,使用單一的算法不能達到我們的目標。
問:前面提到多 Agent 強化學習,能具體解釋「魯班」中的這項技術嗎?
答:這是我們與 UCL 汪軍老師團隊合作的一項技術。
具體來說,系統(tǒng)會根據(jù)用戶的需求,得到一個非常粗粒度的結果,例如把一張圖或者一個目標變成多個組成部分,可以將這些組成部分稱為元素或者量化單元,并把它當做一個 Agent,這些 Agent 單獨不能決定結果的好與壞,只有多個 Agent 同時才能決定??梢哉J為這是一個組合優(yōu)化問題,這里就會用到多 Agent 強化學習技術。
問:未來還會基于已有的算法做出哪些改進與創(chuàng)新?
答:未來還有很多需要鉆研的地方。
第一,基于 GAN 的一系列學習,尤其是照片級別、像素級別的生成算法,我們希望與學術界或業(yè)界不斷合作、實驗。
第二,我們的系統(tǒng)還是過于復雜,所以想找到比較好的系統(tǒng)工程辦法,使得各方面都能更加高效。
第三,在設計知識圖譜這一領域,希望與外界合作,做得更加完善和靈活。
第四,我們希望能更好地量化生成效果,設計水平是很難衡量的,我們希望在這里做出一些探索和改進。
我們目前的愿景是「所想即所見」,即用戶想要什么圖像,「魯班」就生成什么樣的圖像。同時,我們也希望打造出能面向各種各樣場景、實時在線、高效且惠普地生成高質圖像的輔助系統(tǒng)。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。