0
“只要思想不滑坡,辦法總比困難多,干巴得!”
打工人的一天終于要結束了!拖著疲憊的身軀準備下班,卻聽到同事小A還在給自己打氣。
只見他迅速打開電腦,打開百度、打開知乎豆瓣微博微信......
都輸入了同一行字:肖像畫簡易教程......
還以為他要干什么驚天動地的大事!原來是想給女神古力娜扎(Gulnazar)畫一幅肖像畫。
年輕人就是年輕人,還有精力追星。
可還沒等我離開,他卻哭了—"世上無難事,只要肯放棄”,哇的一聲!
也是難為他了。無文藝細胞的理工男一枚,沒學過畫兒,也沒畫過畫兒,現(xiàn)在還想給女神畫一幅肖像畫兒,看這頭秀發(fā)哪是一個小白能畫出來的。
“這哪是簡易教程,構圖、劃線、起形.....看的我頭都大了,效果還只是這樣?!?/p>
聽著小A絮絮叨叨、絮絮叨叨的吐槽,不禁想起了當年的自己,作為一個呆萌理工男也少不了做過同樣的蠢事。
“你不知道有很多APP,只要輸入照片就可以一秒生成嗎?”我忍不住說到。
小A呆住了。
“不過,看來你的要求還挺高,這樣,給你推薦一個高階版神器吧”。我迅速發(fā)了一張樣圖給他:
(別問我為什么可以迅速,問就是早有預謀)[讓我看看]
“先看整體感覺,是不是一股藝術氣息撲面而來?再看看神情,輕輕皺眉都能捕捉到位,再看看這頭發(fā),濃密柔和自然,還根根分明,一看就是專業(yè)水準.....%¥#%@#”,不知不覺又暴露了推銷老司機的本質....
“贊、太贊、非常贊!一句話,這是用的什么神器?”
“我發(fā)給你,就是用的這款AI工具...........%¥#%@#,它的研發(fā)者還是我們北大....”
話還沒說完,小A就把他的成果圖發(fā)給了我。
“太棒了,沒想到如此輕松就搞定了!”只見他邊說邊合上電腦、裝進書包,穿上外套,大步走向了門口,這速度像極了我平常下班的樣子......
最后還不忘轉身朝我比了一串串小芯芯......
我呆住了?!跋茸叩牟粦撌俏覇幔俊?,“等等,我話還沒說完!”。
“算了,這班我不下了”。
除了他,相信大家對這項AI工具的背后原理「一定」非常感興趣,那么我就來給大家詳細介紹一下。
這款AI工具叫U∧2-Net(U Square Net),最近火到不行!
不僅登上了GitHub熱榜,收割了2.8k星標,還被頂會ICPR 2020 選中。更關鍵是,這項研究的一作還是北大校友——秦雪彬。
相信不少開發(fā)者朋友對這個名字非常熟悉,他之前提出邊界感知顯著目標檢測網(wǎng)絡 BASNet,被用來做了很多好玩的工具,比如『隔空復制粘貼』——AR Cut & Paste
https://twitter.com/cyrildiagne/status/1256916982764646402
只要手機掃一掃,書本、花盆、雜志人物,你能看到的任何現(xiàn)實物體,只需10s統(tǒng)統(tǒng)都可以被“粘貼”到電腦里。
這項研究在Reddit上短短幾個小時,就獲得了近5K點贊量,之后累計瀏覽量超過了500萬。
秦雪彬以前在北京大學讀碩士,現(xiàn)在是加拿大阿爾伯塔大學的一名在讀博士。他對計算機視覺技術非常感興趣,尤其是目標物體檢測。最近推出的這款U^2-Net深度網(wǎng)絡架構,同樣是一個目標檢測工具。
之前的BASNet網(wǎng)絡被用來做“復制粘貼”測試,效果很好。這次,他就用U^2-Net做了一個生成肖像畫測試,結果也火了。
再來感受下精細到毛發(fā)的生成效果。
目標檢測是計算機視覺和數(shù)字圖像處理的一個重要分支。計算機視覺對于目標運動的分析大致分為三個層次:圖像分割,目標檢測;目標跟蹤;目標識別與描述。其中,目標檢測是最基礎且關鍵的環(huán)節(jié)。
2006 年,自深度學習三大巨頭Hinton、Bengio、Lecun 提出卷積神經(jīng)網(wǎng)絡(CNN),并應用于圖像處理以來,目標檢測技術得到顯著性改善,尤其是隨著全卷積神經(jīng)網(wǎng)絡(FCN)的提出,目標檢測任務逐步達到最佳SOAT。
在今年的MICCAI 2020(國際醫(yī)學圖像計算與計算機介入)大會上,U^2-Net憑借出色的性能表現(xiàn),在甲狀腺結節(jié)分割比賽中獲得第六名。
接下來,我們說說它是如何做到的。
任何AI處理過程都分為三個階段:輸入目標——模型訓練——輸出結果。要想達到高質量的生成效果,除了考驗模型精度外,當然輸入源也很重要。這一點也是我們所能控制的。
對于U^2-Net而言,高質量的照片源可以獲得更多細節(jié),所以在上傳照片時要注意以下幾點:
照片中人頭區(qū)域應接近或大于512x512像素。
照片整體大小最好達到960x1280像素。
背景要盡量清晰、無干擾。
如圖,秦雪彬還親自示范做了說明。
接下來是最關鍵的目標檢測模型(SOD)。
先來看一組與現(xiàn)有最先進SOD模型的比較。
其中紅色星標代表U∧2模型(176.3 MB),它在相對小的模型尺寸下,表現(xiàn)出了最高性能。(藍色星標為4.7 MB的U∧2)
之所以達到如此性能,是因為U∧2擁有兩層嵌套式U型結構,其中的ReSidual U-Block(RSU)中混合了大小不同的接收域,能夠從不同尺度捕獲更多語境信息。另外,由于這些RSU塊中使用了池化操作,因此可以深度捕獲更多細節(jié),同時不會顯著增加計算成本。
最關鍵的是,這種結構體系能夠讓模型從頭訓練深層網(wǎng)絡,而無需使用圖像分類任務的架構。
現(xiàn)在大多數(shù)SOD 網(wǎng)絡設計都存在這樣一個問題:即專注于利用現(xiàn)有的基礎網(wǎng)絡提取深度特征,例如 Alexnet、VGG、ResNet、ResNeXt、DenseNet 等。但這些主干網(wǎng)絡最初都是為圖像分類任務設計的。
它們提取代表語義含義的特征,而不是代表局部性細節(jié)或全局對照信息,這對于顯著性目標檢測至關重要,并且這些網(wǎng)絡通常需要在 ImageNet 數(shù)據(jù)上進行預訓練,效率比較低。相比之下,U∧2-Net可以有效地避免上述問題。
U∧2-Net架構
接下來詳細介紹其中的Block結構、網(wǎng)絡監(jiān)督策略以及訓練損失。
在圖像信息提取中,1×1或3×3的小型卷積濾波器是最常用的特征提取元件。因為它所需內(nèi)存小且計算效率高。但該元件接收域太小,無法捕獲全局信息,因此解決方法只能是采用擴張卷積(Dilated Convolution)的方法來擴大接收域。
然而在原始分辨率的特征圖上進行多次擴張卷積(尤其是在初始階段),會耗費大量的計算和內(nèi)存資源。
為了降低計算成本,同時又能捕獲全局信息,研究人員采用了金字塔池化模塊(Pyramid Scene Parseing Network,PSPNet)。該模塊在下采樣特征映射上使用小核濾波器,而不是在原始尺寸的特征映射上使用擴張卷積的方法。
但通過直接上采樣和級聯(lián)將不同尺度的特征融合,可能會導致高分辨率特征的退化。因此,研究人員受到受U型網(wǎng)絡結構的啟發(fā),提出了一種全新的ReSidual U-block:RSU,來捕獲階段內(nèi)的多尺度特征。如圖:
從測試數(shù)據(jù)來看,RSU計算開銷確實相對較小。與PLN(普通卷積塊)、RES(剩余塊)、DSE(密集塊)、INC(初始化塊)相比,所耗費的GFLOPS浮點數(shù)最低。(GFLOPS ,全稱Giga Floating-point Operations Per Second,即每秒10億次的浮點運算數(shù),常作為GPU性能參數(shù))。
在訓練過程中,研究人員采用了類似于HED的深度監(jiān)督。
其中,訓練損失(Training Loss)定義為:
每個項L使用標準二進制交叉熵來計算損失:
在訓練過程,等式(1)讓總體損失最小化;在測試過程,選擇融合輸出的lfuse作為最終的顯著性圖。
在論文中,研究人員將U2模型與其他20多種現(xiàn)有最先進的模型進行了比較。
其中,各模型采用訓練數(shù)據(jù)集是DUTS-TR,它含10553張圖像,是目前用于目標檢測的最大和最常用的數(shù)據(jù)集;采用的基準數(shù)據(jù)集分別為DUT-OMRON、DUTS-TE、HKU-IS、ECSSD、PASCAL-S、SOD六種。
先來看下定性比較的結果:
紅色、綠色和藍色分別表示最佳、第二和第三性能
從表3、表4來看,U∧2-Net在DUT-OMRON、HKU-IS以及ECSSD三個基準數(shù)據(jù)集上展現(xiàn)了極大先進性,五個評估指標都達到了最佳SOTA。
其中,在DUTS-TE上,U∧2-Net總體性能僅次于PoolNet;在PASCAL-S上,U∧2-Net性能僅略低于AFNet、CPD和PoolNet。此外,在邊界質量評估指標(RelaxFbβ)方面,U∧2-Net性能位居第二。
在SOD數(shù)據(jù)集上, U∧2-Net在整體性能方面也僅此于PoolNet。更重要的是,U∧2-Net模型大小只有4.7 MB,是在顯著性目標檢測領域型號最小的,而且與其他型號相比,它的參數(shù)量也少的多。
定性比較結果:比較了七種SOTA模型,如圖:
可以看出,U∧2-Net能夠處理不同類型的目標,并均產(chǎn)生了精準的識別結果。
比如,第4行圖像充分展示它在分割由大結構和薄結構組成的目標時的性能;在第六行復雜的圖像結構下,產(chǎn)生了近乎完美的結果。
總之,U∧2-Net模型能夠處理全尺寸和小尺寸圖像的各種場景,與其他模型相比,能夠產(chǎn)生更高精度的顯著目標檢測結果。
好了。就這樣,希望了解更多論文內(nèi)容的可以戳這里:https://arxiv.org/pdf/2005.09007.pdf
等了一個小時的滴滴準時到了!
加油,打工人!
相關地址:
https://github.com/NathanUA/U-2-Net
https://github.com/yiranran/APDrawingGAN
https://webdocs.cs.ualberta.ca/~xuebin/
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知。