除了實時光線追蹤，英偉達(dá)圖靈架構(gòu)還有這些AI圖像處理能力

本文作者：李詩

2018-08-23 15:57

導(dǎo)語：英偉達(dá)的圖靈架構(gòu)如何助力AI圖像處理。

前些天，英偉達(dá)發(fā)布全新GPU架構(gòu)——Turing（圖靈），被黃仁勛視為十二年來英偉達(dá)GPU的最大飛躍，無疑是計算機(jī)圖形領(lǐng)域的游戲改變者。

圖靈架構(gòu)最大核心亮點在于即時光線追蹤（Real Time Ray Tracing）,能夠計算光線反射、折射、散射等路線，渲染出逼真的畫面，可為游戲開發(fā)者提供電影級畫質(zhì)的實時渲染，也就是讓游戲看起來更像電影。據(jù)悉，這些新GPU依靠自身的一個特殊部分來快速呈現(xiàn)高分辨率圖形，完成圖像的大部分成像工作后，使用人工智能技術(shù)來猜測未完成的像素。

雷鋒網(wǎng)了解到，除了即時光線追蹤外，英偉達(dá)的GPU還支持多種AI圖像處理能力，可謂是開了掛。

Adobe上的AI圖像處理插件

在上周舉辦的計算機(jī)圖形學(xué)年度會議SIGGRAPH 2018上，英偉達(dá)發(fā)布了全新的圖靈架構(gòu)，隨后展示了一系列用于Photoshop和Premiere的插件。這些插件都利用了其最新的圖靈GPU架構(gòu)和Quadro RTX系列顯卡支持的機(jī)器學(xué)習(xí)功能，能夠使Photoshop和Premiere上的一些常用功能運(yùn)行更順暢，更少手動調(diào)整。

早在2017年，Adobe在AI圖像處理上就有很多的案例。通過機(jī)器學(xué)習(xí)技術(shù)訓(xùn)練計算機(jī)識別和操縱數(shù)據(jù)，能夠使得圖像處理工具對圖像內(nèi)容有更準(zhǔn)確的理解和猜測，實現(xiàn)很多P圖高手都難以完成的效果。

雷鋒網(wǎng)曾報道，2018年3月，在Adobe Summit 2018上，Adobe和英偉達(dá)宣布雙方將基于 Nvidia GPU 對 Adobe Sensei 人工智能系統(tǒng)和機(jī)器學(xué)習(xí)框架進(jìn)行優(yōu)化。簡單地說，就是將 Adobe Sensei 建立在 Nvidia GPU 的硬件基礎(chǔ)之上。

實際上，雙方的合作已經(jīng)持續(xù)了十多年，不過此前的合作都是在創(chuàng)意和數(shù)字體驗方面， Adobe 的圖片、視頻等依賴于 GPU 來運(yùn)作圖形相關(guān)應(yīng)用；不過這次合作的核心是 Adobe 在 2016 年 9 月發(fā)布的 Sensei 人工智能系統(tǒng)。

合作確立半年之后，英偉達(dá)發(fā)布全新圖靈架構(gòu)之際，也展示了雙方合作的成果。

雷鋒網(wǎng)編輯在英偉達(dá)于SIGGRAPH大會的展臺上也看到了這些插件的演示。

第一個插件是Super Rez。

除了實時光線追蹤，英偉達(dá)圖靈架構(gòu)還有這些AI圖像處理能力

Super Rez的主要功能是為圖像添加更逼真的細(xì)節(jié)。如圖所示，狼群站立在山腰上,其毛發(fā)細(xì)節(jié)逼真，樹葉紋理清楚，放大后也很清晰，分辨率能達(dá)到4K至8K。這個功能對于大幅高清圖像很適用，例如大幅面海報。從現(xiàn)場演示來看，這項功能大概需要10分鐘。

除了實時光線追蹤，英偉達(dá)圖靈架構(gòu)還有這些AI圖像處理能力

第二個插件是Inpaint。

除了實時光線追蹤，英偉達(dá)圖靈架構(gòu)還有這些AI圖像處理能力

這個插件用AI增強(qiáng)了Photoshop的內(nèi)容感知填充。英偉達(dá)演示的案例是，在陡峭的懸崖上繪制成群結(jié)隊的企鵝，企鵝腳下的巖石看起來如真的巖石一樣粗糙，看起來并不像用傳統(tǒng)的畫筆從附近區(qū)域復(fù)制過來的。

據(jù)雷鋒網(wǎng)了解，Inpaint這個技術(shù)由英偉達(dá)Guilin Liu領(lǐng)導(dǎo)的團(tuán)隊開發(fā)，運(yùn)用了最先進(jìn)的深度學(xué)習(xí)方法，可以編輯重建損壞的圖像，同時也可以通過移除部分圖像并重新填充來編輯圖像。

“我們的模型可以穩(wěn)健地處理任何形狀、大小、位置距離的圖像破洞。以前的深度學(xué)習(xí)方法主要關(guān)注位于圖像中心周圍的矩形區(qū)域，并且通常依賴昂貴的后期處理”。

除了實時光線追蹤，英偉達(dá)圖靈架構(gòu)還有這些AI圖像處理能力

除了實時光線追蹤，英偉達(dá)圖靈架構(gòu)還有這些AI圖像處理能力
（使用Inpaint去除多余的一棵樹)

為了準(zhǔn)備用于訓(xùn)練的神經(jīng)網(wǎng)絡(luò)，該團(tuán)隊首先生成了55,116個隨機(jī)條紋和任意形狀和大小的圖像破洞用于訓(xùn)練。該團(tuán)隊使用NVIDIA Tesla V100 GPU和cuDNN加速的PyTorch深度學(xué)習(xí)框架，該團(tuán)隊通過將生成的圖像破洞的蒙版應(yīng)用于ImageNet，Places2和CelebA-HQ數(shù)據(jù)集中的圖像來訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò)。在訓(xùn)練階段，將破洞或缺失部分引入上述數(shù)據(jù)集的完整訓(xùn)練圖像中，以使網(wǎng)絡(luò)能夠?qū)W習(xí)重建丟失的像素。

目前，英偉達(dá)演示的Inpaint運(yùn)行于6300美元的Quadro RTX 6000顯卡上，但是其效果實現(xiàn)所花費(fèi)的時間依然不短?；蛟S因為如此，英偉達(dá)表示它沒有計劃發(fā)布這些插件，只是展示新顯卡和Nvidia的NGX SDK的可能性。

相比于價格高昂的Quadro系列，英偉達(dá)于8月21日發(fā)布的幾款針對游戲玩家的Geforce RTX顯卡價格則要親民很多。

草圖視頻生成真實視頻

英偉達(dá)與Adobe合作的這幾款插件看起來都很日常，而英偉達(dá)與MIT合作的一項視頻生成技術(shù)看起來則尤為炫酷。

除了實時光線追蹤，英偉達(dá)圖靈架構(gòu)還有這些AI圖像處理能力

不知道是否有人看過韓劇《W兩個世界》，在這部大火的浪漫韓劇中，男主人公是從一本漫畫里走出來的，女主人公也能在二次元和三次元之間隨意穿梭。

英偉達(dá)新的技術(shù)向我們展示了“腦洞大開”的韓劇也是有實現(xiàn)的可能，用線條畫一個帥哥，然后一鍵轉(zhuǎn)換，他的真實的眉眼就出來了，就這么神奇。

效果如下：給出一個由簡單線條組成的素描草圖就能生成細(xì)節(jié)豐富的人臉，臉型、鼻子眼睛嘴巴等五官、發(fā)型等都和草圖的輪廓一致，最厲害的是生成的人物還能流暢地動起來。

除了實時光線追蹤，英偉達(dá)圖靈架構(gòu)還有這些AI圖像處理能力

目前，我們能看到的圖像處理技術(shù)能做到的主要是背景分割、人臉區(qū)域分割，用來對頭發(fā)發(fā)型、發(fā)色、面部五官進(jìn)行調(diào)整。而像這樣根據(jù)草圖直接生成一個嶄新的人臉，不免讓人訝異。

除了人物，英偉達(dá)和MIT的這項技術(shù)也可以用于實景。可以合成長達(dá)30秒的2K分辨率街景視頻。

除了實時光線追蹤，英偉達(dá)圖靈架構(gòu)還有這些AI圖像處理能力

右邊是一幅動態(tài)語義地圖，左邊則是和真實世界一樣的視頻?？梢钥吹?，兩邊的場景的布局完全一樣，所以這并不是找了一個相似的視頻出來，而是依葫蘆畫瓢全新生成的。

由于是計算機(jī)生成的，你可以對視頻中的元素進(jìn)行修改，例如，將道路兩側(cè)全部變成樹木，或者全部變成建筑。

據(jù)雷鋒網(wǎng)了解，此項目由英偉達(dá)和MIT組成的團(tuán)隊開發(fā)，包括英偉達(dá)的Ting-Chun Wang、劉明宇（Ming-Yu Liu），以及來自MIT的朱俊彥（Jun-Yan Zhu）等。

以上幾位研究員合著了一篇名為“Video-to-Video Synthesis”的論文，論文摘要現(xiàn)實，該論文研究視頻到視頻的合成問題，目標(biāo)是學(xué)習(xí)從輸入源視頻（例如，一系列的語義分割掩碼）到輸出照片級視頻的映射眼熟，輸出視頻能精確地描繪原視頻內(nèi)容。論文提出了一種新型的生成對抗網(wǎng)絡(luò)框架下的視頻到視頻合成方法。通過精心設(shè)計生成器和判別器架構(gòu)，結(jié)合空間-時間對抗目標(biāo)函數(shù)，在多種輸入視頻格式下生成了高分辨率、時間連貫的照片級視頻，其中多種形式的輸入包括分割掩碼、草圖和姿態(tài)圖。

視頻合成的demo很炫酷，可以想象，以后影視制作中的一些部分完全可以不用實景拍攝，畫個簡筆畫然后合成真實視頻就可以了。但是，很顯然，這個視頻到視頻的合成的技術(shù)比前面介紹的Adobe里用到的AI圖像處理技術(shù)還要難實現(xiàn)，目前還停留在實驗室階段。

GPU與AI圖像處理

圖靈架構(gòu)的實時光線追蹤無疑是最讓人驚嘆的，其能計算光線反射、折射、散射，渲染出逼真的畫面，對游戲、影視的畫面效果會帶來很大的提升。

此外，圖靈架構(gòu)還有更多的特性：

Tensor Core可加速深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練和推理；
圖靈流式多處理器（Turing Streaming Multiprocessor）架構(gòu)擁有4608個CUDA core，可提供高達(dá)16 teraflops的計算性能，并行運(yùn)算每秒16萬億次整數(shù)運(yùn)算，以加速模擬真實世界的物理模擬；
先進(jìn)的可編程著色技術(shù)可提高復(fù)雜視效和圖形密集型工作體驗；
首次采用超快速的三星16Gb GDDR6內(nèi)存，支持更復(fù)雜的設(shè)計、海量建筑數(shù)據(jù)集、8K電影內(nèi)容等;
NVIDIA NVLink可通過高速鏈路聯(lián)通兩個GPU，將內(nèi)存容量擴(kuò)展至96 GB，并可通過高達(dá)100GB / s的數(shù)據(jù)傳輸提供更高性能；
增強(qiáng)型技術(shù)可提高VR應(yīng)用性能，包括可變速率著色（Variable Rate Shading）、多視角渲染（Multi-View Rendering）和VRWorks Audio。

計算機(jī)圖形領(lǐng)域一直追逐更清晰的圖像顯示、更逼真的渲染、更快的處理速度是，GPU的性能提升在不斷實現(xiàn)這些目標(biāo)。如今，AI與圖像處理的結(jié)合給我們帶來更多的可能性，這也是不少公司都在布局的方向。

在今年的WWDC上，蘋果重點介紹了其Metal和ML兩大技術(shù)。2014年蘋果推出Metal，能利用GPU獲得更高的圖形計算能力，使得一些操作游戲如《堡壘之夜》在iPhone上運(yùn)行。通過對eGPU的支持，Metal使得蘋果的設(shè)備能夠獲得更逼真的3D渲染效果，還能幫助Unity實現(xiàn)實時的光線渲染效果。

此外，Metal的另一大特色在于，其能支持機(jī)器學(xué)習(xí)，加速訓(xùn)練神經(jīng)網(wǎng)絡(luò)這樣的計算密集型任務(wù)。因此基于Metal開發(fā)的機(jī)器學(xué)習(xí)工具Core ML也能利用GPU，在效率上得到很大提升。

GPU和AI技術(shù)的提升，無疑也將對VR的發(fā)展起到推動的作用，雷鋒網(wǎng)編輯期待著更多炫酷的AI圖像處理技術(shù)的誕生。

英偉達(dá)放出12年來最大招：全新圖靈架構(gòu)登場，全球首批即時光線追蹤GPU同步亮相

P圖現(xiàn)在都這么狠了嗎？英偉達(dá)新算法，輕松幫你P掉前男友

英偉達(dá)發(fā)布新算法，可以重建缺失像素

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

2人收藏

李詩

編輯

關(guān)注AI業(yè)界、NLP、VR、AR技術(shù)與產(chǎn)品。采訪報道、行業(yè)交流請加微信“Hanass”

掃描關(guān)注作者微信

發(fā)私信

當(dāng)月熱門文章