0
本文作者: 董子博 | 2021-12-21 11:19 | 專題:GAIR 2021 |
2021年12月10日,由雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))與小虎互聯(lián)科技聯(lián)合舉辦的全球人工智能與機(jī)器人大會(huì)元宇宙分論壇在深圳成功進(jìn)行。參會(huì)的觀眾與嘉賓熱情高漲,都對(duì)元宇宙概念的前景滿懷期盼。
在概念被熱炒的當(dāng)下,有許多人卻能夠透過浮躁的市場(chǎng),看到在元宇宙進(jìn)程中實(shí)行基建的可能性。聲網(wǎng)Agora就是其中之一。10日會(huì)上,聲網(wǎng)Agora的物聯(lián)網(wǎng)負(fù)責(zé)人侯云憶出席并就實(shí)時(shí)互動(dòng)(RTE)發(fā)布了主題演講,題為《RTE:元宇宙的基礎(chǔ)設(shè)施》。
侯云憶表示,在元宇宙的基礎(chǔ)架構(gòu)設(shè)計(jì)中,實(shí)時(shí)互動(dòng)是無比重要的基礎(chǔ)設(shè)施,甚至能被稱為元宇宙的“空氣和水”。一方面,延遲的降低能降低用戶在XR使用中的眩暈感;另一方面,交互的實(shí)時(shí)性也能讓虛擬世界更令人置信,用戶的沉浸體驗(yàn)也會(huì)相應(yīng)被很大增強(qiáng)。
而關(guān)于如何將實(shí)時(shí)互動(dòng)落到元宇宙建設(shè)的實(shí)處,侯云憶認(rèn)為有四點(diǎn)應(yīng)該特別關(guān)注:
“一是‘高實(shí)時(shí)性’,即如何在更高的信息密度下達(dá)到高實(shí)時(shí)性;二是‘高互動(dòng)性’,就是我們今天強(qiáng)調(diào)的高參與感,如何有更高的互動(dòng)性,而不僅僅是過去所謂的音視頻的通信和傳輸;三是‘高沉浸感’,還原我們?cè)谖锢硎澜缋飬⑴c社會(huì)活動(dòng),去生活、去工作;四則是‘無處不在’?!?/p>
下面是侯云憶的演講內(nèi)容,雷鋒網(wǎng)在不變更原意的前提下對(duì)其進(jìn)行了一定的整理:
謝謝雷鋒網(wǎng)的邀請(qǐng),首先向大家簡(jiǎn)單介紹一下聲網(wǎng)。
聲網(wǎng)是實(shí)時(shí)互動(dòng)云服務(wù)開創(chuàng)者和引領(lǐng)者,我們?cè)诠不ヂ?lián)網(wǎng)上定義了軟件定義的虛擬網(wǎng)絡(luò),為開發(fā)者提供全球化低延時(shí)的實(shí)時(shí)互動(dòng)服務(wù)。我們的開發(fā)者經(jīng)常形容聲網(wǎng)提供的SDK是場(chǎng)景化的SDK,目前我們覆蓋了200多個(gè)場(chǎng)景和行業(yè),包括在線教育、社交娛樂、金融、AR、VR、IoT等場(chǎng)景,也服務(wù)了全球超37萬(wàn)款應(yīng)用,資本市場(chǎng)形容我們是第一個(gè)技術(shù)出海的技術(shù)型公司,我們從Day1開始以全球化業(yè)務(wù)覆蓋200多個(gè)國(guó)家。目前線網(wǎng)的單位通話數(shù)達(dá)到500億分鐘,這是什么概念?超越了任意一家單一運(yùn)營(yíng)商的規(guī)模。
在今年,聲網(wǎng)發(fā)布了整個(gè)實(shí)時(shí)互動(dòng)全產(chǎn)業(yè)鏈的萬(wàn)象圖譜,在整個(gè)大賽道上,包括在教育、泛娛樂、IoT上,也包括在非互聯(lián)網(wǎng)原生的傳統(tǒng)行業(yè)的數(shù)字化轉(zhuǎn)型,面向于金融、醫(yī)療、政企、數(shù)字政府和智慧城市等等,全面覆蓋了20多個(gè)大的行業(yè)、200多個(gè)大的場(chǎng)景。我們?cè)谧鰧?shí)時(shí)互動(dòng)的時(shí)候發(fā)現(xiàn),過去從整個(gè)異步到實(shí)時(shí),每個(gè)行業(yè)都可以重新來一遍,今天我們說的下一代互聯(lián)網(wǎng),在元宇宙的場(chǎng)景下是否也是一樣的?
其實(shí)我自己加入聲網(wǎng)之前,也在做多模態(tài)的人機(jī)交互和AI,所以我也非常興奮“以人為本”這四個(gè)字,我會(huì)從整個(gè)信息和交互的視角,快速回顧一下整個(gè)互聯(lián)網(wǎng)的歷程。其實(shí)我們可以看到,從2G-3G-4G-5G,我們和互聯(lián)網(wǎng)發(fā)生互動(dòng)的信息媒介,在不斷發(fā)生改變。從最早的時(shí)候,2G時(shí)我們只能通過音頻和文字傳播,到互聯(lián)網(wǎng)時(shí)代我們可以做圖片和視頻的互動(dòng),實(shí)時(shí)互動(dòng)賦能之下,很多短視頻走向了高清視頻的直播和實(shí)時(shí)互動(dòng)。再往后是什么?我們想象當(dāng)中是更高的信息載體、更大的屏幕、更高清的視頻以及更大帶寬的需求嗎?好像是,也好像不是,因?yàn)槲覀兘换サ男螒B(tài)和互動(dòng)載體在發(fā)生改變。
剛才有很多專家和老師提到,我們有更多更自然的語(yǔ)音交互、視覺交互,甚至是觸覺更多模態(tài)的感知出現(xiàn)了,所以我們的交互入口在整個(gè)移動(dòng)智能時(shí)代,每個(gè)手機(jī)就是我們每個(gè)人跟互聯(lián)網(wǎng)發(fā)生交互的超級(jí)入口,每個(gè)手機(jī)背后也代表了人。從2020年開始,其實(shí)手機(jī)已經(jīng)在負(fù)增長(zhǎng)了,這也是第一次物聯(lián)網(wǎng)出現(xiàn)了連接設(shè)備數(shù)“物超越人”的情況,所以未來我們的交互,一定會(huì)回顧到人更自然的交互、更加的多模態(tài),我們的入口也會(huì)越來越多,一定是物聯(lián)網(wǎng)的時(shí)代。我們也看到,隨著整個(gè)算力的提升,包括硬件性能的提升,以及更加輕量級(jí)長(zhǎng)續(xù)航的設(shè)備,AR/VR極有可能成為下一代的交互入口。
我們常說,在1000個(gè)人眼里,會(huì)有1000個(gè)不一樣的元宇宙。今天有很多老師給了不一樣的定義,可能大家現(xiàn)在對(duì)于元宇宙最終會(huì)成為什么樣,對(duì)于它最終的終局還沒有一個(gè)統(tǒng)一的定論,在這里我分享一些不成熟的小觀點(diǎn),這也是我們?cè)诒厝悔厔?shì)上看到的,交互和互動(dòng)的底層邏輯,其實(shí)已經(jīng)在發(fā)生改變了。
1、交互逐漸走向自然化、多模態(tài)和分布式。
2、在元宇宙和過去移動(dòng)互聯(lián)網(wǎng)的交互上,最大的改變是一切都從2D變成了3D,XR可能是下一代新的無處不在的交互形態(tài),而我們的AR/VR設(shè)備,極有可能會(huì)是下一代的個(gè)人終端。
3、在整個(gè)遠(yuǎn)程或數(shù)據(jù)傳遞的第一性原理里,過去從文字、圖片到了視頻,下一代一定是流媒體和物理信息如何被還原。
4、虛擬現(xiàn)實(shí)和增強(qiáng)現(xiàn)實(shí)的核心,就是要對(duì)現(xiàn)實(shí)進(jìn)行實(shí)時(shí)感知、渲染和還原。
5、IoT是還原現(xiàn)實(shí),構(gòu)建數(shù)字孿生重要的基礎(chǔ)感知設(shè)施。
6、未來每個(gè)人參與到元宇宙的時(shí)候,一定會(huì)有自己的Avatar虛擬化身,它和現(xiàn)在每個(gè)人在各個(gè)App后面的ID不同,它會(huì)是你的身份,你的個(gè)人價(jià)值,以及你的參與。所以元宇宙一定不是一個(gè)封閉的虛擬世界,而是虛實(shí)相融的,任何人隨時(shí)隨地都應(yīng)該、也可以在元宇宙里創(chuàng)造內(nèi)容。
也因?yàn)樯厦孢@幾條,我個(gè)人認(rèn)為,未來只有一個(gè)元宇宙,它就是我們的現(xiàn)實(shí)本身,是我們現(xiàn)實(shí)本身在虛擬世界里的參與跟互動(dòng),而元宇宙的構(gòu)建,需要的是開放和共享的基礎(chǔ)設(shè)施。
今年年初,當(dāng)大家還在討論元宇宙到底是什么、聲網(wǎng)到底是不是一個(gè)和元宇宙相關(guān)的公司時(shí),我們其實(shí)就是“被元宇宙”的一家公司了。在整個(gè)產(chǎn)業(yè)圖譜當(dāng)中,我們出現(xiàn)在了基礎(chǔ)設(shè)施環(huán)節(jié),甚至這張圖譜在今年年初只有十幾家公司的時(shí)候,聲網(wǎng)已經(jīng)出現(xiàn)在上面了。后來我們也看了一下,不僅是趨勢(shì)的視角,在當(dāng)時(shí)那個(gè)時(shí)點(diǎn),有非常多的開發(fā)者和客戶,也已經(jīng)在元宇宙應(yīng)用的版圖上了,當(dāng)時(shí)我們發(fā)現(xiàn)自己已經(jīng)不知不覺服務(wù)了非常多的虛擬人、AR/VR等虛擬空間場(chǎng)景,所以我們今天想表達(dá),實(shí)時(shí)互動(dòng)一定是構(gòu)建整個(gè)元宇宙的水和空氣。
怎么做到?我們認(rèn)為,要構(gòu)建元宇宙,對(duì)實(shí)時(shí)互動(dòng)其實(shí)帶來了更高的技術(shù)要求和必要的技術(shù)要素。我們認(rèn)為有四個(gè)關(guān)鍵的技術(shù)點(diǎn)。
1、高實(shí)時(shí)性。如何在更高的信息密度下達(dá)到高實(shí)時(shí)性。
2、高互動(dòng)性。就是我們今天強(qiáng)調(diào)的高參與感,如何有更高的互動(dòng)性,而不僅僅是過去所謂的音視頻的通信和傳輸。
3、高沉浸感。還原我們?cè)谖锢硎澜缋飬⑴c社會(huì)活動(dòng),去生活、去工作。
4、無處不在。
我們先看一下高實(shí)時(shí)性。以典型場(chǎng)景舉例,AR/VR可能是下一代元宇宙的重要入口。其實(shí)在去年,華為就在《Cloud VR白皮書》里提到對(duì)XR硬實(shí)時(shí)的要求。對(duì)于要在VR形態(tài)內(nèi)發(fā)生實(shí)時(shí)互動(dòng),并規(guī)避一些因?yàn)槲锢砭窒迣?dǎo)致的暈眩,從云渲染、傳輸流化延時(shí)的定義要求來看,是70毫秒起步的,這對(duì)我們?cè)谙乱徊浇换ド?,從“?云-邊”帶來了非常大的挑戰(zhàn),現(xiàn)在端側(cè)的處理基本耗時(shí)就是10-20毫秒左右。
聲網(wǎng)在做什么?目前聲網(wǎng)已經(jīng)可以做到全球中位數(shù)(76毫秒的端到端延時(shí)),我們?cè)谌蚴讋?chuàng)了軟件定義實(shí)時(shí)網(wǎng)絡(luò)SD-RTN ?,我們通過在全球200多個(gè)節(jié)點(diǎn),通過中心控制、邊緣接入的方式,可以讓我們實(shí)時(shí)互動(dòng)的音視頻和一些消息就近接入,以最快速的方式導(dǎo)航出一條最佳路徑。
同時(shí)我們有千萬(wàn)級(jí)的并發(fā)能力,不論你是小的互動(dòng),還是千萬(wàn)級(jí)的大規(guī)?;?dòng),都可以以低延時(shí)、高可靠和強(qiáng)同步的方式發(fā)生在互聯(lián)網(wǎng)上;
第二個(gè)是高互動(dòng)性。共享情景不僅僅是音視頻了,我們想一下平時(shí)是怎么開會(huì)的。現(xiàn)在的視頻會(huì)議,我們和大家面對(duì)著屏幕,我們看到的都是屏幕對(duì)面你的物理空間,其實(shí)我們的世界是分開的,但是在元宇宙當(dāng)中,我們應(yīng)該怎么開會(huì)互動(dòng)?我們想要真實(shí)看到你,跟你在現(xiàn)實(shí)物理世界當(dāng)中是一樣的交互,也許你背對(duì)著我的時(shí)候,我可以走過去拍拍你的肩,向你請(qǐng)教一個(gè)問題,也許我們可以在一個(gè)空間白板上,共同討論一個(gè)話題和議題,我也能及時(shí)看到此刻你的情緒感,你對(duì)我表達(dá)的意見的反饋,這才是一個(gè)真實(shí)的交互。所以我們需要的不僅僅是音視頻,事實(shí)上在當(dāng)下這個(gè)階段,聲網(wǎng)已經(jīng)提供了豐富的產(chǎn)品組合,以API的方式,可以讓開發(fā)者構(gòu)建這樣的場(chǎng)景。包括我們?cè)谡麄€(gè)空間當(dāng)中語(yǔ)音通過的API、視頻通話的API,當(dāng)然也有互動(dòng)的白板和實(shí)時(shí)的消息構(gòu)建我們?cè)诳臻g當(dāng)中交互的更加豐富的內(nèi)容。也有媒體流加速的API和實(shí)時(shí)錄制API,實(shí)現(xiàn)在互動(dòng)過程中的媒體服務(wù)和展覽服務(wù)。聲網(wǎng)也提供了水晶球質(zhì)量監(jiān)控工具,能夠讓開發(fā)者和用戶全程全鏈路地監(jiān)控實(shí)時(shí)互動(dòng)和媒體傳輸?shù)馁|(zhì)量;
第三個(gè)是高沉浸感。剛剛提到在元宇宙中,所有的一切都變成了三維世界,這跟我們過去互動(dòng)最重要的兩件事,就是和空間以及和人的關(guān)系發(fā)生了改變。聲網(wǎng)現(xiàn)在基于AI提供了幾個(gè)技術(shù)。首先我們有空間音頻,可以通過球形感知聲場(chǎng)模型以及聽聲辨位的算法,還原空間當(dāng)中的聲音強(qiáng)弱,能夠在虛擬空間里聽到來自不同方向和距離的聲音,能夠還原我在物理空間中的距離感,讓我們的臨場(chǎng)感更加身臨其境。第二個(gè)是 Spatial Audio,在虛擬空間的交互下,一定是虛實(shí)融合的,比如剛剛紫為云提到的AR場(chǎng)景,我們會(huì)有視頻流和點(diǎn)云數(shù)據(jù)的視頻融合技術(shù),保證實(shí)時(shí)傳輸是強(qiáng)同步的。最后是Avatar,其實(shí)聲網(wǎng)在去年就支持我們的開發(fā)者,幫助遠(yuǎn)在日本虛擬偶像小姐姐直播,讓他在日本的動(dòng)捕棚里采集動(dòng)作,并且在上海的舞臺(tái)進(jìn)行現(xiàn)場(chǎng)還原,并在多地還原這個(gè)全息的虛擬偶像。我們?cè)谡麄€(gè)虛擬人、數(shù)字人領(lǐng)域,從采集、捕捉、傳輸再到還原的端到端,依然也是有低延時(shí)、音話同步、數(shù)據(jù)傳輸?shù)模约皠偛盘岬降南乱淮慕换?,如何用小?shù)據(jù)驅(qū)動(dòng),如何用純語(yǔ)音的方式驅(qū)動(dòng)Avatar的肢體動(dòng)作,這也是聲網(wǎng)在探索和實(shí)踐的;
最后是無處不在。我們相信在元宇宙里,讓任何人都能隨時(shí)隨地參與,一定是通過任意規(guī)模、任意設(shè)備、任意場(chǎng)景下都能讓他發(fā)聲,這也是聲網(wǎng)從物聯(lián)網(wǎng)視角提供的整體全場(chǎng)景架構(gòu)。底層基于SD-RTN ?,通過音視頻通信、媒體加速等一系列服務(wù),可以支持1v1到百萬(wàn)人大頻道不同規(guī)模場(chǎng)景互動(dòng),今天我們也提到,元宇宙一定要最終打破平臺(tái)壁壘,做到跨平臺(tái)、跨終端,進(jìn)行真正實(shí)時(shí)的互聯(lián)互通。在設(shè)備角度,聲網(wǎng)目前覆蓋穿戴、家居、戶外等30個(gè)領(lǐng)域的細(xì)分品類。在這當(dāng)中最重要的,剛剛提到VR/AR的交互入口,我們也跟很多頭部企業(yè)從硬件生態(tài)層面做了合作,包括HTC VIVE,國(guó)內(nèi)的Rokid、LLVISION等企業(yè),都可以開箱即用聲網(wǎng)的服務(wù)。最終面向應(yīng)用層的每個(gè)行業(yè),包括游戲、社交、娛樂、教育、醫(yī)療、工業(yè)、公安等等,都可以重新發(fā)生一遍。
剛才說了很多技術(shù)的趨勢(shì)和概念,今天也想讓大家現(xiàn)場(chǎng)直觀地感受到我們已經(jīng)落地的一些初期的元宇宙場(chǎng)景,在展示場(chǎng)景之前,我個(gè)人認(rèn)為元宇宙的應(yīng)用未來有三個(gè)階段,每個(gè)階段的發(fā)生,不再是簡(jiǎn)簡(jiǎn)單單地把物理世界搬到虛擬世界,而不僅僅是把線下搬到線上,而是對(duì)時(shí)間、生產(chǎn)力和生產(chǎn)關(guān)系的重新求解。這里大致有三個(gè)階段。首先是數(shù)字孿生,可以精準(zhǔn)實(shí)時(shí)還原物理世界;其次是虛實(shí)相融,物理世界和虛擬世界可以彼此交融發(fā)生關(guān)系,造成一些生產(chǎn)力的變革;最后,虛擬世界發(fā)生的一切,一定可以反過來真實(shí)地影響現(xiàn)實(shí)世界。
具體是什么意思?我們來看幾個(gè)場(chǎng)景。
第一個(gè)非常典型的場(chǎng)景,我們稱之為虛擬空間,它重新定義了在一起這件事,讓我們?cè)诓煌锢砜臻g的人,可以同時(shí)在一個(gè)虛擬空間發(fā)生共享和交互。比如我們?cè)谶@里看到了幾個(gè)典型的場(chǎng)景。左邊的是虛擬展會(huì),也是我們合作伙伴的發(fā)布會(huì)。我們現(xiàn)在以Avatar的形式參與到會(huì)場(chǎng)當(dāng)中進(jìn)行發(fā)言,也可以以Avatar的形式在會(huì)場(chǎng)當(dāng)中自由游覽,參觀一些3D模型。右下角的圖是HTC VIVE新一代Sync app,如果有使用過HTC VIVE,或者即將使用這個(gè)應(yīng)用的伙伴,可以開箱即用這個(gè)產(chǎn)品,可以在虛擬空間里,通過我們內(nèi)嵌的媒體流和Spatial Audio來感受沉浸會(huì)議。如果有關(guān)注AR/VR領(lǐng)域的伙伴就會(huì)知道,HTC VIVE最近幾次所有的發(fā)布會(huì)都是在線上,并且他們的老板也都是以Avatar的形象出現(xiàn)的,用的都是這樣的底層技術(shù)和工具。
除了工作,最大被改變的地方,一定是我們的生活和娛樂方式,我們可以把派對(duì)、K歌、健身的場(chǎng)景都搬到虛擬空間里。這是美國(guó)TribeXR的應(yīng)用,這兩位DJ在美國(guó)當(dāng)?shù)胤浅S忻?,他們以?shù)字化身的方式出現(xiàn)在虛擬空間。同時(shí)我們覺得,元宇宙最重要的是參與感,我們不僅要能夠看到未來的偶像和明星出現(xiàn)在虛擬空間里,我們也要參與在其中,可以在這個(gè)案例中看到,觀眾可以通過不一樣的席位,參與到整個(gè)現(xiàn)場(chǎng)活動(dòng)當(dāng)中的。
在移動(dòng)社交上,我們也有很多場(chǎng)景落地,包括以Avatar的形式出現(xiàn)在虛擬社區(qū)當(dāng)中。今天開場(chǎng)時(shí)沈老師也提到,韓國(guó)在元宇宙方面做得非常前列,事實(shí)上通過聲網(wǎng)Metaverse場(chǎng)景的構(gòu)建,我們甚至看到,韓國(guó)已經(jīng)把議員參選的拉票搬到了線上,也有企業(yè)會(huì)在線上提供虛擬空間進(jìn)行辦公和樓宇的售賣租賃,所以從整個(gè)應(yīng)用場(chǎng)景來說,我們已經(jīng)看到了未來整個(gè)社會(huì)活動(dòng)的真實(shí)改變。
剛才講的場(chǎng)景是把大家放到一個(gè)虛擬空間。下一個(gè)不同的交互泛式,是我們把你帶到一個(gè)遠(yuǎn)程的現(xiàn)場(chǎng),讓你真實(shí)地感受,以第一視角的臨場(chǎng)感來看。典型的方式是AR眼鏡,比如工業(yè)場(chǎng)景,我們可以把AR眼鏡的第一視角回傳到遠(yuǎn)端的專家,遠(yuǎn)端的專家可以通過實(shí)時(shí)標(biāo)注的方式進(jìn)行現(xiàn)場(chǎng)指導(dǎo)。特別是疫情之下,我們看到非常多的跨國(guó)企業(yè)都在采用這種遠(yuǎn)程協(xié)作的方式,改變一些對(duì)于生產(chǎn)力的依賴,解決了很多跨越時(shí)空,讓效能在疫情、貿(mào)易戰(zhàn)之下還能得到快速的前進(jìn)。
再往后,平行控制和裸眼3D。這個(gè)場(chǎng)景是真實(shí)裸眼3D的顯示屏,它是一個(gè)遠(yuǎn)程挖礦遙操的場(chǎng)景,可以讓遠(yuǎn)程的人非常真切地感知、還原到遠(yuǎn)在幾千公里之外的現(xiàn)場(chǎng)礦區(qū),并進(jìn)行精準(zhǔn)的遠(yuǎn)程遙操。下一步是什么?我們相信不僅僅有虛擬世界的數(shù)字人,一定也有物理世界的數(shù)字人,整個(gè)元宇宙不會(huì)單一發(fā)生在某一個(gè)AR/VR設(shè)備內(nèi),它一定是跨終端的。有一個(gè)典型場(chǎng)景,平行控制。也就是說,通過我的感知設(shè)備,能夠把我的動(dòng)作和表達(dá)精準(zhǔn)還原到遠(yuǎn)端物理的機(jī)械數(shù)字人上,進(jìn)行精準(zhǔn)操控。
以上這些,其實(shí)也是聲網(wǎng)在元宇宙場(chǎng)景上的探索,也是我們能夠給行業(yè)帶來的價(jià)值。最后這句話,其實(shí)也是聲網(wǎng)一直以來的愿景,把它送給大家:相信在元宇宙里,實(shí)時(shí)互動(dòng)可以像空氣和水一樣,無處不在。
謝謝大家。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章