0
本文作者: 我在思考中 | 2021-11-10 15:54 |
11月9日,NVIDIA GTC 2021 在美國加利福尼亞州圣克拉拉召開。
NVIDIA處處給我們驚喜,這次,黃老板并沒有使用虛擬數(shù)字人替身,而是直接用新技術(shù)造了一個“小黃”!網(wǎng)友高呼:求黃老板同款手辦!
而這些都是NVIDIA最近實現(xiàn)的技術(shù)的成果。
NVIDIA發(fā)布了用于生成交互式AI虛擬形象的技術(shù)平臺——NVIDIA Omniverse Avatar。同時NVIDIA還發(fā)布了一款能夠生成用于深度神經(jīng)網(wǎng)絡(luò)的合成數(shù)據(jù)的強大引擎——NVIDIA Omniverse Replicator,它能夠生成用于訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的物理模擬合成數(shù)據(jù)。
兩者皆是用于3D工作流程的虛擬世界模擬和協(xié)作平臺NVIDIA Omniverse的一部分,Omniverse公測版用戶現(xiàn)已超過7萬人,此外,還有 700 多家公司的專業(yè)人士使用。這些公司包括寶馬集團、CannonDesign、Epigraph、Ericsson、建筑公司 HKS 和 KPF、Lockheed Martin 以及 Sony Pictures Animation。
黃仁勛:“智能虛擬助手的前景一片光明”
“Omniverse Avatar將我們的基礎(chǔ)圖像、模擬和AI技術(shù)結(jié)合在一起,打造出一些有史以來最復(fù)雜的實時應(yīng)用。協(xié)作機器人和虛擬助手的案例令人難以置信,影響深遠?!?NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛表示。
據(jù)介紹,Omniverse Avatar能夠連接NVIDIA在語音AI、計算機視覺、自然語言理解、推薦引擎和模擬方面的技術(shù)。在該平臺上可以創(chuàng)建具有光線追蹤3D圖像效果的交互式虛擬形象,可以看到、說話、談?wù)摳鞣N主題,以及合理地理解表達意圖。
擁有了Omniverse Avatar就可以根據(jù)各個行業(yè)的需求來定制AI助手。AI助手可以用來幫助處理日常客戶服務(wù)互動,比如餐廳訂單,銀行交易,個人預(yù)約和預(yù)訂等。
這些技術(shù)被集成在一個應(yīng)用,并使用NVIDIA統(tǒng)一計算框架進行實時處理。這些技術(shù)被打包成可擴展、自定義微服務(wù)后,能夠通過NVIDIA Fleet Command?在多個地點安全地部署、管理和協(xié)調(diào)。
在NVIDIA GTC主題演講中,黃仁勛分享了使用Omniverse Avatar的多個例子,包括用于客戶支持的Project Tokkio、用于永久在線車載智能服務(wù)的NVIDIA DRIVE Concierge以及用于視頻會議的Project Maxine。
在第一個Project Tokkio演示中,黃仁勛展示了NVIDIA的同事們與一個黃仁勛的卡通虛擬形象進行互動——就生物學(xué)和氣候科學(xué)等話題開展對話。黃仁勛將這個“小黃”叫做Toy-me,使用了他自己聲音合成的語音、角色動畫以及基于光線追蹤的精美圖像,而且這一切內(nèi)容都是實時的。
在第二個Project Tokkio演示中,黃仁勛著重介紹了餐廳自助服務(wù)亭中的一個客戶服務(wù)虛擬形象。演示中,有兩名顧客正在訂購素食漢堡、薯條和飲料,該虛擬形象看到了他們、與他們交談并理解了他們。這些演示由NVIDIA AI軟件和目前全球最大的可定制語言模型——Megatron 530B驅(qū)動。
在DRIVE Concierge AI平臺演示中,中央儀表盤屏幕上的數(shù)字助理幫助駕駛者選擇了最佳駕駛模式以準時到達目的地,然后按照駕駛者的要求,設(shè)置在汽車續(xù)航里程下降到100英里以下時進行提醒。
另外,黃仁勛還展示了Project Maxine如何為虛擬協(xié)作和內(nèi)容創(chuàng)作應(yīng)用增加最先進的視頻和音頻功能。演示中,一個講英語的人在嘈雜的咖啡館里進行視頻通話,但是其他人可以清楚地聽到她所說的話,沒有背景噪音。當(dāng)她講話時,她的話被實時轉(zhuǎn)錄并翻譯成德語、法語和西班牙語,并且聲音和語調(diào)與原話完全相同。
Omniverse Avatar主要組成部分
Omniverse Avatar 所使用的語音AI、計算機視覺、自然語言理解、推薦引擎、面部動畫和圖像元素,通過以下技術(shù)實現(xiàn):
其語音識別基于NVIDIA Riva。這個軟件開發(fā)工具包可以識別多種語言的語音。Riva還可通過文本語音轉(zhuǎn)換功能生成接近真人的語音反饋。
其自然語言理解基于Megatron 530B大型語言模型。該模型可以識別、理解和生成人類語言。Megatron 530B是一個預(yù)訓(xùn)練模型,它可以在很少或沒有訓(xùn)練的情況下完成句子、回答主題廣泛的問題、總結(jié)長而復(fù)雜的故事、翻譯成其他語言,并應(yīng)對許多它未接受過專門訓(xùn)練的情景。
其推薦引擎由NVIDIA Merlin?提供。該框架使企業(yè)可以建立能夠處理大量數(shù)據(jù)的深度學(xué)習(xí)推薦系統(tǒng),以提出更明智的建議。
其感知功能來自用于視頻分析的計算機視覺框架——NVIDIA Metropolis。
其虛擬形象動畫由AI賦能的2D和3D面部動畫和渲染技術(shù)——NVIDIA Video2Face和Audio2Face?驅(qū)動。
這些技術(shù)被集成在一個應(yīng)用,并使用NVIDIA統(tǒng)一計算框架進行實時處理。這些技術(shù)被打包成可擴展、自定義微服務(wù)后,能夠通過NVIDIA Fleet Command?在多個地點安全地部署、管理和協(xié)調(diào)。
為了幫助開發(fā)人員創(chuàng)建訓(xùn)練 AI 所需的大量數(shù)據(jù),NVIDIA 推出了 Omniverse Replicator。
Omniverse Replicator應(yīng)用,打造虛擬世界
首批基于Omniverse Replicator用于生成合成數(shù)據(jù)的應(yīng)用應(yīng)運而生,它們分別是用于承載自動駕駛汽車數(shù)字孿生的虛擬世界——NVIDIA DRIVE Sim?和用于可操縱機器人數(shù)字孿生的虛擬世界——NVIDIA Isaac Sim?。
NVIDIA模擬技術(shù)和Omniverse工程副總裁Rev Lebaredian表示:“通過Omniverse Replicator,我們能夠創(chuàng)建多樣化、大規(guī)模、精確的數(shù)據(jù)集來構(gòu)建高質(zhì)量、高性能和安全的數(shù)據(jù)集,這對于AI來說至關(guān)重要。我們已自主構(gòu)建了兩個特定領(lǐng)域數(shù)據(jù)生成引擎,可以想象的是,許多企業(yè)都會使用Omniverse Replicator建立自己的引擎?!?/span>
這兩個Replicator應(yīng)用使開發(fā)者能夠以人類無法做到的方式引導(dǎo)AI模型、填補現(xiàn)實世界的數(shù)據(jù)空白,并標記真值數(shù)據(jù)。在這些虛擬世界中產(chǎn)生的數(shù)據(jù)可以涵蓋各類不同場景,包括在現(xiàn)實世界中無法經(jīng)常經(jīng)歷或安全體驗的罕見和危險情況。
黃先生將Isaac Sim稱為有史以來最逼真的機器人模擬器,Isaac Sim Replicator 可以生成合成數(shù)據(jù)來訓(xùn)練機器人,并且表示要讓機器人不知道它是在模擬世界還是現(xiàn)實世界中。
使用這些數(shù)據(jù)構(gòu)建的自動駕駛汽車和機器人可以在一系列虛擬環(huán)境中掌握技能,然后再應(yīng)用到物理世界中。
真實世界數(shù)據(jù)是昂貴、費力、需要人工標記的,它容易出錯且不完整,而Omniverse Replicator擴展了這些數(shù)據(jù),該引擎能夠創(chuàng)建大量、多樣化的精確物理數(shù)據(jù)以滿足自動駕駛汽車和機器人開發(fā)者的需求。它還能生成人類難以或無法標記的真值數(shù)據(jù),如速度、深度、被遮擋的物體、惡劣的天氣條件、追蹤各傳感器上的物體移動等。
Omniverse Replicator已成為NVIDIA DRIVE自動駕駛汽車團隊和Isaac機器人團隊的重要數(shù)據(jù)生成引擎。該引擎將于明年上線,幫助開發(fā)者構(gòu)建特定領(lǐng)域數(shù)據(jù)生成引擎。
雷鋒網(wǎng)
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。