0
本文作者: skura | 2019-11-02 11:01 |
隨著神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)、深度學(xué)習(xí)和機(jī)器學(xué)習(xí)研究的快速發(fā)展,以及不斷增加的硬件+軟件資源,很多特別棒的演示項(xiàng)目數(shù)量正以令人眼花繚亂的速度增長(zhǎng)。
從人工智能生成的藝術(shù)品到實(shí)時(shí)跟蹤人類(lèi)運(yùn)動(dòng)甚至更進(jìn)一步,我們總結(jié)了一些我們最喜歡的深度學(xué)習(xí)項(xiàng)目,并附帶了視覺(jué)演示。
毫無(wú)疑問(wèn),我們可以找到和強(qiáng)調(diào)的項(xiàng)目數(shù)不勝數(shù),但希望這份清單能讓你對(duì)研究人員、從業(yè)者,甚至藝術(shù)家在 2019 年用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)創(chuàng)造的東西有一個(gè)高層次的了解。
一個(gè)有趣(也許并不奇怪)的注意是,這些演示很多都是使用了生成對(duì)抗網(wǎng)絡(luò)來(lái)創(chuàng)建的:它們自然會(huì)產(chǎn)生很好的視覺(jué)效果,而且體驗(yàn)很好。
為了補(bǔ)充演示,我嘗試在可用的地方提供鏈接資源(論文、代碼、項(xiàng)目頁(yè)面、完整視頻等)。
帶樣式轉(zhuǎn)換的 wikiart+StyleGAN
——Gene Kogan
在這里,我們基本上看到了將樣式轉(zhuǎn)換與 StyleGAN 相結(jié)合時(shí)可能出現(xiàn)的情況。我們將參考圖像的樣式直接應(yīng)用到潛在的空間圖像。
至少在該項(xiàng)目的 GANs 部分,Gene 分叉并使用 Nvidia 的回購(gòu)協(xié)議來(lái)促進(jìn) GANs 的逐步增長(zhǎng):
統(tǒng)一的 3D 姿態(tài)估計(jì)
—— Yukihiko Aoyagi
將 3D 姿態(tài)估計(jì)與 3D 開(kāi)發(fā)平臺(tái)和 unity 這樣的渲染引擎結(jié)合起來(lái),就可以實(shí)現(xiàn)像這樣迷人的 AR 項(xiàng)目。通過(guò)將這兩種強(qiáng)大的技術(shù)結(jié)合起來(lái),AR 對(duì)象可以更精確地跟蹤三維空間中的人體運(yùn)動(dòng)。
提示,這個(gè)項(xiàng)目暫時(shí)只支持單人姿態(tài)。
twitter 網(wǎng)址:https://twitter.com/yukihiko_a
建筑機(jī)器翻譯
——Erik Swahn
該項(xiàng)目以對(duì)象的視頻幀作為輸入,輸出現(xiàn)代建筑效果圖。這是一個(gè)有趣的機(jī)器翻譯應(yīng)用。
twitter 網(wǎng)址:https://twitter.com/erikswahn
這里是代碼——找不到直接的源代碼,所以如果有人知道在哪里可以找到它,請(qǐng)?jiān)谧⑨屩薪o我留言:
消除圖像和視頻中的汽車(chē)
——Chris Harris
Chris 可能沒(méi)有我們對(duì)這個(gè)演示印象深刻。A Vanilla Sky——esque 的項(xiàng)目,通過(guò)車(chē)輛檢測(cè)網(wǎng)絡(luò)屏蔽在城市街道上移動(dòng)和停放的車(chē)輛,并在檢測(cè)到的車(chē)輛上添加 AR 模糊效果。
twitter:https://twitter.com/kozmoharris/status/1125390364691640321
這里有一個(gè)詳細(xì)的概述,討論如何做這個(gè)項(xiàng)目以及相關(guān)的原因。網(wǎng)址:http://harrischris.com/article/biophillic-vision-experiment-1
有靈感嗎?Fritz AI 擁有自己創(chuàng)建的優(yōu)秀項(xiàng)目和將 itt 部署到 mobile 所需的工具、專(zhuān)業(yè)知識(shí)和資源。從 Fritz AI 開(kāi)始,教你的設(shè)備去看,去聽(tīng),去感覺(jué),去思考。
用 gan 將圖像轉(zhuǎn)換為看不見(jiàn)的域
——Ming-Yu Liu, NVIDIA
摘要:
從少數(shù)樣本中提取新對(duì)象的特征并歸納總結(jié),我們尋求 few-shot,無(wú)監(jiān)督的圖像到圖像的翻譯算法。我們的模型通過(guò)將對(duì)抗性訓(xùn)練方案與一種新的網(wǎng)絡(luò)設(shè)計(jì)相結(jié)合來(lái)實(shí)現(xiàn)這種 few-shot 生成能力。
twitter:https://twitter.com/liu_mingyu
項(xiàng)目頁(yè)面:
網(wǎng)址:https://nvlabs.github.io/FUNIT/?source=post_page-----e74d7d347c2----------------------
論文:
網(wǎng)址:https://arxiv.org/abs/1905.01723?source=post_page-----e74d7d347c2----------------------
無(wú)限模式
——Alex Mordintsev
Alex 在谷歌工作,他是 DeepDream 的創(chuàng)始人,這是一個(gè)計(jì)算機(jī)視覺(jué)程序,它使用神經(jīng)網(wǎng)絡(luò)來(lái)發(fā)現(xiàn)和創(chuàng)建圖像中的模式。這些無(wú)限循環(huán)經(jīng)常是夢(mèng)幻的,甚至是幻覺(jué)。我?guī)缀跽J(rèn)為這些是移動(dòng)墻紙。他在下面的 twitter 上有一些,所以一定要按照鏈接查看。
twitter:https://twitter.com/zzznah/status/1125393901815238656
這篇文章在谷歌的實(shí)驗(yàn)中探索了這個(gè)項(xiàng)目,并討論了它是如何與 Pinar&Viola,一個(gè)數(shù)字藝術(shù)組合合作的:
從單張圖片進(jìn)行完整的 3d 家庭試鏡
—— Angjoo Kanazawa
最近,我們看到對(duì)嘗試體驗(yàn)的興趣激增,像古馳(gucci)這樣的零售商正在探索如何讓他們的用戶在自己家(或在地鐵上,或在工作中)舒適地使用他們的產(chǎn)品。
但這些體驗(yàn)只會(huì)和支撐它們的 3D 表示一樣好。該項(xiàng)目引入了「像素對(duì)齊隱式函數(shù)(PIFu)」,這是一種高效的隱式表示,它將二維圖像的像素與其對(duì)應(yīng)的三維對(duì)象的全局上下文局部對(duì)齊。
twitter:https://twitter.com/akanazawa
項(xiàng)目頁(yè)面:
網(wǎng)址:https://shunsukesaito.github.io/PIFu/?source=post_page-----e74d7d347c2----------------------
論文:
網(wǎng)址:https://arxiv.org/abs/1905.05172?source=post_page-----e74d7d347c2----------------------
GANs+像素藝術(shù)
——Max Braun
一個(gè)有趣的人工智能藝術(shù)項(xiàng)目,將一個(gè) GAN 組合在一個(gè)無(wú)限循環(huán)中,在 eBoy 數(shù)據(jù)集上進(jìn)行訓(xùn)練。對(duì)于那些不熟悉的人,eBoy 創(chuàng)建可重用的像素對(duì)象,并使用這些對(duì)象來(lái)創(chuàng)建藝術(shù)品、制作玩具等。
twitter:https://twitter.com/maxbraun
代碼:
網(wǎng)址:https://github.com/maxbbraun/eboygan?source=post_page-----e74d7d347c2----------------------
Colab Notebook:
eBoy:
網(wǎng)址:http://hello.eboy.com/eboy/?source=post_page-----e74d7d347c2----------------------
花更少的時(shí)間搜索,更多的時(shí)間建設(shè)。報(bào)名參加每周一次的深度學(xué)習(xí)活動(dòng),深入了解最新的新聞、最佳教程和最重要的項(xiàng)目。
軌跡預(yù)測(cè)
——由 deeplearning.ai 發(fā)布,來(lái)自 Carnegie Melon, Google AI 和 Stanford 的研究
在人類(lèi)活動(dòng)跟蹤領(lǐng)域,預(yù)測(cè)人們將要移動(dòng)到哪里是一個(gè)非常有趣的項(xiàng)目。這樣的應(yīng)用比比皆是,從理解零售業(yè)中的客戶行為到群體分析等等。更進(jìn)一步的說(shuō),這個(gè)演示包括對(duì)特定人活動(dòng)(如交通、工作等)的性質(zhì)和背景的預(yù)測(cè)。
論文:
網(wǎng)址:https://arxiv.org/abs/1902.03748?source=post_page-----e74d7d347c2----------------------
以橙汁為切入點(diǎn)走進(jìn) AR 世界
——キヨ
這是一個(gè)令人驚奇的,關(guān)于如何利用增強(qiáng)技術(shù)將富有想象力的數(shù)字世界與現(xiàn)實(shí)世界中的物體融為一體的項(xiàng)目。雖然找不到任何底層代碼或項(xiàng)目頁(yè)面,但是這個(gè)演示顯示了 AR+ML 在釋放這些想象力和藝術(shù)體驗(yàn)方面的潛力。
學(xué)著忘記一張臉的模型
——posted by Joseph Reisinger
下面 tweet 中的引用很好地總結(jié)了這個(gè)項(xiàng)目。我們看到了很多演示,展示了一個(gè)神經(jīng)網(wǎng)絡(luò)生成新的、真實(shí)照片的人和圖像。但在這里,我們看到的過(guò)程是相反的——解構(gòu)一個(gè)生成的肖像,網(wǎng)絡(luò)的神經(jīng)元被一個(gè)接一個(gè)地切斷。
twitter:https://twitter.com/josephreisinger/status/1138250263934857217
使用 tensorflow.js 進(jìn)行身體部位分割
——Google Developers
在 Google I/O 2019,這個(gè)來(lái)自 tensorflow 團(tuán)隊(duì)的演示展示了實(shí)時(shí)運(yùn)動(dòng)跟蹤和圖像分割。為了讓這種體驗(yàn)實(shí)時(shí)工作,他們運(yùn)行兩個(gè)身體部位分割模型,將它們匹配起來(lái),運(yùn)行動(dòng)態(tài)時(shí)間扭曲,然后播放和編碼視頻。以 Tensorflow Lite 的 GPU 加速為特色。
twitter:https://twitter.com/googledevs
用姿態(tài)估計(jì)把自己變成 3D 化身
——青絵
這種體驗(yàn)結(jié)合了姿態(tài)估計(jì)和 AR,將用戶轉(zhuǎn)化為怪物(或任何 3D 角色化身)。這個(gè)演示在這個(gè)詞最字面的意義上是變革性的。最讓人印象深刻的也許是移動(dòng)跟蹤的精確性和精確性——化身與用戶的移動(dòng)非常匹配。還有一些很酷的用戶體驗(yàn),包括一個(gè)基于手勢(shì)的轉(zhuǎn)換機(jī)制,以及一個(gè)整潔的聲音效果,同時(shí)化身正在生成。
twitter:https://twitter.com/aoepng
利用目標(biāo)檢測(cè)跟蹤垃圾和其他人行道障礙物
——Paula Piccard
最讓我印象深刻的是被檢測(cè)到的性質(zhì)——攝像機(jī)移動(dòng)的速度,以及瞬時(shí)檢測(cè)。這種應(yīng)用程序有可能改變我們對(duì)所謂「智慧城市」的看法。
twitter:https://twitter.com/Paula_Piccard
用 GANs 畫(huà)出逼真的風(fēng)景
——作者 Kevin Lim
如果你觀看此演示,你會(huì)注意到左側(cè)的人造繪圖看起來(lái)像你在諸如 MS Paint 之類(lèi)的舊應(yīng)用程序中看到的東西。如何將這些粗糙的景觀生成和渲染為照片級(jí)真實(shí)風(fēng)景是值得注意的。這類(lèi)應(yīng)用程序會(huì)錯(cuò)使我認(rèn)為我實(shí)際上是一個(gè)藝術(shù)家!
twitter:https://twitter.com/_kevinlim
神經(jīng)網(wǎng)絡(luò)延時(shí)(GAN)
——作者 Spiros Margaris
很難找到這個(gè)項(xiàng)目的作者,但它的新奇性和可重復(fù)性有著令人難以置信的吸引力。
它的 YouTube 視頻描述是這樣的:
左邊是源臉,Theresa May。下一個(gè)步驟是學(xué)習(xí)她的臉,然后使用它的學(xué)習(xí)到的模型重建她的照片。接下來(lái)是目標(biāo)臉和它正在建立的模型。最后,在最右邊的第五欄(lol)是對(duì) Theresa May 臉部的再現(xiàn),需要與目標(biāo)臉部的位置和表情相匹配。
youtube 視頻:https://www.youtube.com/channel/UCkMQyMq7xVjtMP2nl3uAQjg
從單個(gè)圖像進(jìn)行反向場(chǎng)景渲染
——Will Smith
摘自論文摘要:
我們展示了如何訓(xùn)練一個(gè)完全卷積的神經(jīng)網(wǎng)絡(luò)來(lái)從單個(gè)的,不受控制的圖像進(jìn)行逆向渲染。該網(wǎng)絡(luò)以 rgb 圖像為輸入,利用回歸反射率計(jì)算法向光照系數(shù)。
twitter:https://twitter.com/WillSmithVision
代碼和實(shí)踐:
網(wǎng)址:https://github.com/YeeU/InverseRenderNet?source=post_page-----e74d7d347c2----------------------
論文:
網(wǎng)址:https://arxiv.org/abs/1811.12328?source=post_page-----e74d7d347c2----------------------
基于粒子效應(yīng)的 ARKit 3 人體分割
——Laan Labs
另一個(gè)非常吸引人的視覺(jué)演示,是將增強(qiáng)現(xiàn)實(shí)效果與深度學(xué)習(xí)結(jié)合起來(lái)。在這里,laan labs(一家專(zhuān)營(yíng)邊緣技術(shù)的精品 ML/CV 店)在一個(gè)人體分割模型上應(yīng)用了一種溶解粒子效應(yīng)。
twitter:https://twitter.com/laanlabs
用 YOLO 實(shí)時(shí)檢測(cè)手指
——Andrew Mendez
Andrew 在這個(gè)演示中很好地描述了引擎蓋下的情況,展示了 iOS 上令人印象深刻的實(shí)時(shí)結(jié)果。正如 Andrew 所提到的那樣,有很多可能加入到這個(gè)基線體驗(yàn) AR,進(jìn)行手指跟蹤等等。
twitter:https://twitter.com/AndrewMendez19
使用 GPT-2 在移動(dòng)應(yīng)用程序中生成文本
——Hugging Face
在 Hugging Face 上的人們已經(jīng)在 transformer 和其他 nlp 架構(gòu)上取得了令人難以置信的進(jìn)展。不僅僅是服務(wù)器端,他們還致力于模型蒸餾,努力將這些功能強(qiáng)大的語(yǔ)言模型嵌入到設(shè)備中。這個(gè)演示特別關(guān)注文本的自動(dòng)生成完成。
twitter:https://twitter.com/julien_c
試一下吧:
網(wǎng)址:https://transformer.huggingface.co/?source=post_page-----e74d7d347c2----------------------
權(quán)重未知的神經(jīng)網(wǎng)絡(luò)
——hardmaru
與權(quán)重?zé)o關(guān)的神經(jīng)網(wǎng)絡(luò)的想法令人信服,它讓我們質(zhì)疑與底層架構(gòu)相比,權(quán)重參數(shù)有多重要。摘要很好地揭示了這種動(dòng)態(tài):
并非所有的神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)都是平等的,有些在某些任務(wù)上比其他的要好得多。但是,與神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)相比,神經(jīng)網(wǎng)絡(luò)的權(quán)值參數(shù)有多重要?在這項(xiàng)工作中,我們質(zhì)疑在沒(méi)有學(xué)習(xí)任何權(quán)重參數(shù)的情況下,單靠神經(jīng)網(wǎng)絡(luò)架構(gòu)能在多大程度上對(duì)給定任務(wù)的解進(jìn)行編碼。
twitter:https://twitter.com/hardmaru
項(xiàng)目頁(yè)面:
網(wǎng)址:https://weightagnostic.github.io/?source=post_page-----e74d7d347c2----------------------
論文:
網(wǎng)址:https://arxiv.org/abs/1906.04358?source=post_page-----e74d7d347c2----------------------
MediaPipe:一個(gè)結(jié)合了深度學(xué)習(xí)和傳統(tǒng) CV 管道的框架
——Google AI 發(fā)布,作者 Diakopoulos
MediaPipe 是 Google 將傳統(tǒng) CV 任務(wù)與深度學(xué)習(xí)模型相結(jié)合的相對(duì)較新的管道。這個(gè)新的框架真的為更沉浸式和互動(dòng)性 AR 體驗(yàn)打開(kāi)了大門(mén)。
twitter:https://twitter.com/ddiakopoulos
github:
網(wǎng)址:https://github.com/google/mediapipe?source=post_page-----e74d7d347c2----------------------
博客和案例:
全三維姿態(tài)估計(jì):身體、手和臉
——CMU,HCI Research 發(fā)布
該項(xiàng)目代表了第一種使用單目視圖輸入捕獲整個(gè)三維運(yùn)動(dòng)的方法。該技術(shù)生成一個(gè)三維可變形網(wǎng)格模型,然后用于重建全身姿態(tài)。從視覺(jué)的角度來(lái)看,這個(gè)等式的「total」部分對(duì)我們來(lái)說(shuō)印象最深刻。以這種方式重建面部、身體和手的姿態(tài)的能力,讓一個(gè)真正令人驚嘆的演示成為可能。
twitter:https://twitter.com/HCI_Research
代碼:
項(xiàng)目頁(yè)面:
雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。