實(shí)時(shí)音視頻領(lǐng)域拓荒者的十年

本文作者：張進(jìn)

2024-10-31 10:31

導(dǎo)語(yǔ)：誰(shuí)能抓住這波實(shí)時(shí)對(duì)話式AI的機(jī)遇？

2015 年，聲網(wǎng)將WebRTC大會(huì)引入中國(guó)，籌辦了第一屆面向國(guó)內(nèi)開(kāi)發(fā)者、業(yè)務(wù)人員和用戶的RTC（實(shí)時(shí)視音頻）大會(huì)。在大會(huì)開(kāi)始的前夕，現(xiàn)任聲網(wǎng)市場(chǎng)VP、RTC大會(huì)主策人彭小歡失眠了，她非常擔(dān)心明天會(huì)不會(huì)有人來(lái)。

一晃十年過(guò)去了，當(dāng)年的RTC大會(huì)早已升級(jí)為RTE（實(shí)時(shí)互聯(lián)網(wǎng)）大會(huì)， 10 月 25 日RTE 2024也如期而至，但早已不用擔(dān)心是否有人光顧，現(xiàn)場(chǎng)可謂是座無(wú)虛席。

實(shí)時(shí)音視頻領(lǐng)域拓荒者的十年

圖：RTE2024開(kāi)幕當(dāng)天的現(xiàn)場(chǎng)

國(guó)內(nèi)大模型領(lǐng)域的「大模型六虎」，其中的智譜、MiniMax、零一萬(wàn)物團(tuán)隊(duì)都出現(xiàn)在2024年RTE大會(huì)上，在ChatGPT發(fā)布后的近兩年時(shí)間里，智譜和MiniMax分別在 tob和 toc兩條路線上越走越深，有許多心得可以分享，通義千問(wèn)團(tuán)隊(duì)也帶著國(guó)內(nèi)最大開(kāi)發(fā)者生態(tài)的經(jīng)驗(yàn)在RTE大會(huì)上加入討論。

此次RTE大會(huì)也不乏AI大牛創(chuàng)業(yè)者的身影，例如全球最受矚目的AI科學(xué)家之一，一年前從阿里巴巴離職、躬身入局大模型Infra的賈揚(yáng)清也出現(xiàn)在RTE大會(huì)的主論壇上，分享了他在AI Infra領(lǐng)域創(chuàng)業(yè) 18個(gè)月后的經(jīng)驗(yàn)心得以及對(duì)RTE+AI的趨勢(shì)判斷。

除此，谷歌、螞蟻、面壁智能、生數(shù)科技、商湯、曠視、WPS、Soul等也在大會(huì)上分享了團(tuán)隊(duì)過(guò)去一年里在ChatGPT時(shí)代的AI探索。

今年的RTE大會(huì)，可謂是大咖云集，AI 內(nèi)容拉滿。

迄今，RTE大會(huì)已經(jīng)是第十屆，十年如一日地每年堅(jiān)持舉辦，從未間隔。恰逢GenAI爆發(fā)，聲網(wǎng)深耕的RTC（實(shí)時(shí)音視頻）技術(shù)，讓人與AI的交互不再局限于文字，也可以通過(guò)語(yǔ)音通話進(jìn)行生動(dòng)、流暢的低延時(shí)交互，這也成為當(dāng)下國(guó)內(nèi)外大模型廠商新的發(fā)力點(diǎn)——多模態(tài)。

而今年的RTE大會(huì)便提供了一個(gè)交流平臺(tái)，憑借在業(yè)界的影響力，吸引各行各業(yè)專家參與，使得業(yè)內(nèi)一起共同探索RTE+AI的未來(lái)潛力，這也將給RTE和聲網(wǎng)帶來(lái)更多機(jī)遇與挑戰(zhàn)。

當(dāng)年，聲網(wǎng)CEO趙斌期待“通過(guò)RTC這樣的大會(huì)讓開(kāi)發(fā)者使用實(shí)時(shí)音視頻功能像使用水一樣簡(jiǎn)單”，十年后，實(shí)時(shí)音視頻功能成功在各行各業(yè)應(yīng)用，絲滑地融入大眾的工作生活中。在此十年之期，也是聲網(wǎng)創(chuàng)辦的十周年，RTE開(kāi)始與GenAI結(jié)合。

走到今天，一切都源于RTE大會(huì)以及背后的聲網(wǎng)公司十年前的那份堅(jiān)持與初心。

1 拓荒到蓬勃：技術(shù)布道者到行業(yè)風(fēng)向標(biāo)

今天，實(shí)時(shí)音視頻（RTC）互動(dòng)技術(shù)已經(jīng)成為一項(xiàng)基礎(chǔ)設(shè)施，在我們的日常生活中無(wú)處不在。

視頻會(huì)議、在線課堂、社交平臺(tái)直播連線PK等眾多場(chǎng)景都有實(shí)時(shí)音視頻的支撐，才有了低延遲、低卡頓、高清晰度、沉浸式的互動(dòng)體驗(yàn)。

十年前，國(guó)內(nèi)實(shí)時(shí)音視頻還是一片荒原，聲網(wǎng)看到機(jī)會(huì)，率先推出RTC PaaS服務(wù)以此來(lái)打開(kāi)市場(chǎng)。實(shí)時(shí)音視頻技術(shù)門檻較高，僅有WebRTC，開(kāi)發(fā)者依然很難上手實(shí)踐，而在RTC PaaS模式下，開(kāi)發(fā)者只需調(diào)用簡(jiǎn)單的API接口就能實(shí)現(xiàn)實(shí)時(shí)音視頻互動(dòng)，極大地降低了開(kāi)發(fā)者的門檻和成本。

彼時(shí)恰逢移動(dòng)互聯(lián)網(wǎng)全面爆發(fā)，整個(gè)行業(yè)生機(jī)勃勃，實(shí)時(shí)音視頻也開(kāi)始尋找落地的契機(jī)。

成立后的第二年，聲網(wǎng)創(chuàng)始人趙斌意識(shí)到實(shí)時(shí)音視頻將是互聯(lián)網(wǎng)企業(yè)必須的工具和功能，聲網(wǎng)作為在這片荒原上第一個(gè)揮鋤頭開(kāi)荒的人，必須擔(dān)負(fù)起技術(shù)布道者的責(zé)任。

所以在 2015 年，為了讓實(shí)時(shí)音視頻行業(yè)擁有一個(gè)能進(jìn)行技術(shù)交流、行業(yè)趨勢(shì)探討的機(jī)會(huì)，聲網(wǎng)將WebRTC大會(huì)引入中國(guó)，籌辦了第一屆面向國(guó)內(nèi)開(kāi)發(fā)者、業(yè)務(wù)人員和用戶的RTC大會(huì)，這也是一個(gè)為開(kāi)發(fā)者而生的純行業(yè)技術(shù)峰會(huì)。

第一屆RTC大會(huì)議程安排上僅由一個(gè)主會(huì)場(chǎng)、一個(gè)分論壇，以及一個(gè) workshop 組成，就吸引了 700 多名觀眾參與。之后，聲網(wǎng)與參會(huì)者約定——一年一會(huì)，萬(wàn)象更新。

在第一屆WebRTC大會(huì)上，W3CWebRTC標(biāo)準(zhǔn)中Media Capture和Streams Specifications核心部分的合編者——“WebRTC標(biāo)準(zhǔn)之父”Dan Burnett出席現(xiàn)場(chǎng)會(huì)議，并與伊利諾伊理工學(xué)院客座教授Alan Johnston一起，為開(kāi)發(fā)者們進(jìn)行了約8個(gè)小時(shí)的培訓(xùn)課程，對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，在當(dāng)時(shí)RTC專業(yè)知識(shí)極度匱乏的年代，猶如久旱逢甘霖。

實(shí)時(shí)音視頻領(lǐng)域拓荒者的十年

2015 年的RTC大會(huì)打破了RTC技術(shù)布道在國(guó)內(nèi)「三無(wú)」?fàn)顟B(tài)：無(wú)行業(yè)會(huì)議、無(wú)專業(yè)書籍、無(wú)專業(yè)媒體及社區(qū)。而在RTE 大會(huì)邁入第10年之際，聲網(wǎng)也于今年8月正式出版行業(yè)首本系統(tǒng)介紹實(shí)時(shí)互動(dòng)的技術(shù)型科普?qǐng)D書《讀懂實(shí)時(shí)互動(dòng)》，持續(xù)為科普實(shí)時(shí)互動(dòng)添磚加瓦。

十年過(guò)去了，今天RTE大會(huì)已經(jīng)成為業(yè)內(nèi)當(dāng)之無(wú)愧的“全球規(guī)模最大音視頻行業(yè)峰會(huì)”，大會(huì)規(guī)模擴(kuò)張到 20 多個(gè)論壇，觀眾數(shù)上限一度達(dá)到六七千人。

據(jù)聲網(wǎng)官方統(tǒng)計(jì)，這些年間，大會(huì)累計(jì)影響了 200 多萬(wàn)開(kāi)發(fā)者，覆蓋 300 多個(gè)行業(yè)場(chǎng)景，吸引 2000 多名專家講師參與分享，成績(jī)斐然。這期間，RTE大會(huì)似乎每年都能“押題”成功，成為行業(yè)的風(fēng)向標(biāo)。

2015 年，在第一屆RTC大會(huì)上，聲網(wǎng)提出“直播連麥”將成為主流玩法，第二年，連麥互動(dòng)便成為直播風(fēng)口。

2016 年，聲網(wǎng)認(rèn)為在線教育將成為新風(fēng)口，第二年，在線教育迎來(lái)爆發(fā)式增長(zhǎng)。

……

2023 年，大會(huì)主題是智能、高清，再一次成功預(yù)判了未來(lái)趨勢(shì)，24 年年初多模態(tài)爆發(fā)，Sora、GPT-4o引爆輿論，多模態(tài)成為各大模型玩家最重要的發(fā)力方向。

當(dāng)AI成為科技界的主流，RTE第十屆便是以“AI 愛(ài)”為主題，推出了覆蓋AI、出海、Voice AI等 20+行業(yè)及技術(shù)分論壇。

在此次大會(huì)上，聲網(wǎng)CEO趙斌認(rèn)為生成式AI正在驅(qū)動(dòng)IT行業(yè)發(fā)生大變革，主要體現(xiàn)在四個(gè)層面：終端、軟件、云和人機(jī)界面，其中AI Native Cloud將成為主流。

實(shí)時(shí)音視頻領(lǐng)域拓荒者的十年

Lepton AI 創(chuàng)始人兼 CEO 賈揚(yáng)清也認(rèn)為繼 Web 云、數(shù)據(jù)云之后，AI 是云的第三次浪潮。在 AI 云的形態(tài)下，實(shí)時(shí)的交流和智能的結(jié)合在用戶體驗(yàn)環(huán)節(jié)非常重要，可以說(shuō)實(shí)時(shí)將直接與生產(chǎn)力劃上等號(hào)。

作為此次大會(huì)的主論壇演講嘉賓，賈揚(yáng)清分別從 AI 應(yīng)用、云、GPU 算力云技術(shù)以及企業(yè)大模型自主性等層面帶來(lái)了他對(duì) AI 基礎(chǔ)設(shè)施進(jìn)化的解讀。他認(rèn)為，今天是最容易建設(shè)AI應(yīng)用的時(shí)代，越是簡(jiǎn)潔的AI模型思路越容易產(chǎn)生優(yōu)秀的效果。

實(shí)時(shí)音視頻領(lǐng)域拓荒者的十年

本次大會(huì)持續(xù)了兩天，大會(huì)上的分享嘉賓集結(jié)了當(dāng)下AI屆的名流，包括「大模型六虎」中的智譜、MiniMax、零一萬(wàn)物，還有谷歌、WPS、Soul這些在AI應(yīng)用落地探索走在前列的企業(yè)。他們結(jié)合自身業(yè)務(wù)，分享了過(guò)去兩年里在AI、大模型方向的探索，這將是給與業(yè)界的一筆寶貴經(jīng)驗(yàn)。

本次大會(huì)不僅囊括了RTE+AI發(fā)展的前沿技術(shù)分享，還將關(guān)注點(diǎn)放在了當(dāng)下大家最關(guān)心的AI落地問(wèn)題上。

大會(huì)最精彩的一部分便集中在在圓桌討論環(huán)節(jié)，就AI的 6000 億美金難題，Lepton AI 創(chuàng)始人兼 CEO 賈揚(yáng)清、MiniMax 合伙人魏偉、面壁智能聯(lián)合創(chuàng)始人＆CTO 曾國(guó)洋、Hugging Face 工程師王鐵震、Agora 聯(lián)合創(chuàng)始人 Tony Wang 五位嘉賓一起探討了從 AI 基礎(chǔ)設(shè)施到 AI 商業(yè)化落地的機(jī)會(huì)與挑戰(zhàn)。

實(shí)時(shí)音視頻領(lǐng)域拓荒者的十年

賈揚(yáng)清認(rèn)為基于開(kāi)源架構(gòu)的應(yīng)用會(huì)越來(lái)越普遍；王鐵震呼吁大家不僅要關(guān)注開(kāi)源模型本身，還要重視開(kāi)源模型的基礎(chǔ)設(shè)施和數(shù)據(jù)閉環(huán)；魏偉則闡釋了在產(chǎn)品和用戶服務(wù)過(guò)程中，文本、語(yǔ)音、音樂(lè)、視頻這些模型可以很好地幫助藝術(shù)、影視、音樂(lè)等領(lǐng)域的創(chuàng)作者提高效率，并提出新思路；曾國(guó)洋認(rèn)為未來(lái)算力一定會(huì)越來(lái)越便宜，算力成本優(yōu)化最終會(huì)轉(zhuǎn)化為訓(xùn)練更強(qiáng)大的模型。

在大會(huì)上，聲網(wǎng)發(fā)布了他們的RTE+AI能力全景圖，在全景圖中，聲網(wǎng)從實(shí)時(shí) AI 基礎(chǔ)設(shè)施、RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、實(shí)時(shí)多模態(tài)對(duì)話式 AI 解決方案、RTE+AI 應(yīng)用場(chǎng)景五個(gè)維度，清晰呈現(xiàn)了當(dāng)下 RTE 與 AI 相結(jié)合的技術(shù)能力與應(yīng)用方案。

實(shí)時(shí)音視頻領(lǐng)域拓荒者的十年

正如CEO趙斌所說(shuō)，生成式AI與RTE結(jié)合帶來(lái)的場(chǎng)景創(chuàng)新，將成為下一個(gè)十年的主題。

2 新機(jī)遇：

實(shí)時(shí)多模態(tài)是通向AGI的必由之路

今年 5 月，GPT-4o一經(jīng)發(fā)布便再次引起業(yè)內(nèi)熱議，其展示出的實(shí)時(shí)語(yǔ)音交互能力讓人印象深刻，開(kāi)創(chuàng)了AI實(shí)時(shí)語(yǔ)音交互的先河。

在發(fā)布會(huì)上，GPT-4o展示了大幅降低的語(yǔ)言延遲，平均 320 毫秒的反應(yīng)時(shí)間，讓AI與人類的對(duì)話第一次接近人類真實(shí)對(duì)話的反應(yīng)速率。

實(shí)時(shí)的交流和智能的能力是人機(jī)結(jié)合的重中之重，正如賈揚(yáng)清在RTE大會(huì)上所說(shuō)，實(shí)時(shí)可以跟生產(chǎn)力劃等號(hào)。

但要達(dá)到人類可接受范圍內(nèi)的「實(shí)時(shí)」，端到端實(shí)時(shí)多模態(tài)的崛起只是近來(lái)取得技術(shù)突破的一條明顯，它從思考速度上縮短了語(yǔ)音的交互實(shí)踐，而另一條暗線則是 RTC（實(shí)時(shí)音視頻，Real-Time Communications）技術(shù)的進(jìn)步。

而GPT-4o正是在采用RTC方案后，便展現(xiàn)出了自然、流暢的低延時(shí)語(yǔ)音交互體驗(yàn)。而且在實(shí)際應(yīng)用中，用戶的設(shè)備很多時(shí)候不能始終聯(lián)網(wǎng)，所以無(wú)論多強(qiáng)大的模型都要依靠RTC技術(shù)來(lái)實(shí)現(xiàn)實(shí)時(shí)對(duì)話。

因此，RTC是將多模態(tài)大模型跟實(shí)時(shí)互動(dòng)場(chǎng)景連接起來(lái)的關(guān)鍵技術(shù)橋梁。

聲網(wǎng)CEO趙斌稱，生成式AI有一個(gè)大的、清晰的方向就是向多模態(tài)清晰深度進(jìn)化，除了提供GPT-4o發(fā)布會(huì)上令人驚艷的情感擬人對(duì)話之外，更重要的是打開(kāi)大模型進(jìn)一步智能進(jìn)化的數(shù)據(jù)需求。

目前文字訓(xùn)練數(shù)據(jù)基本上已經(jīng)被充分利用，語(yǔ)言本身是一種聲音化的文字，能夠提供的信息和數(shù)據(jù)的空間將會(huì)被放大很多倍，并且超過(guò)文字，自然環(huán)境的聲音和視覺(jué)數(shù)據(jù)的獲取、運(yùn)用，將給大模型提供幾乎無(wú)限的數(shù)據(jù)空間。因此多模態(tài)成為當(dāng)下的重要發(fā)展方向。

在推進(jìn)多模態(tài)清晰深度進(jìn)化上，聲網(wǎng)通過(guò)過(guò)去和多個(gè)行業(yè)伙伴打磨、對(duì)接、深度實(shí)驗(yàn)、測(cè)試、評(píng)估，發(fā)現(xiàn)多模態(tài)對(duì)話體驗(yàn)存在兩個(gè)關(guān)鍵側(cè)面：（1）聲音體驗(yàn)包括延遲、語(yǔ)氣、情感、情緒、口音，這些都是人與大模型進(jìn)行人機(jī)對(duì)話時(shí)體驗(yàn)的關(guān)鍵角度。（2）人與大模型支持的 agent 對(duì)話時(shí)的互動(dòng)體驗(yàn)中，最核心的就是「打斷行為」，如果在對(duì)話中打斷不自然，出現(xiàn)搶話、不知道如何順利開(kāi)展下一段討論等行為，也會(huì)對(duì)人機(jī)交互的效果產(chǎn)生影響。

而這些要通過(guò)對(duì)現(xiàn)有的RTE技術(shù)棧等基礎(chǔ)設(shè)施進(jìn)行改進(jìn)，大模型才有機(jī)會(huì)大規(guī)模參與到與人的各種對(duì)話，在各種場(chǎng)景、形態(tài)、模型下開(kāi)展直接語(yǔ)音對(duì)話。未來(lái)RTE基礎(chǔ)設(shè)施將會(huì)成為多模態(tài)大模型AI Infra的關(guān)鍵部分。（注：RTE在提供RTC音視頻服務(wù)的基礎(chǔ)上進(jìn)一步提供了更加豐富和靈活的實(shí)時(shí)互動(dòng)能力，讓開(kāi)發(fā)者可以根據(jù)不同的場(chǎng)景需求，自由地選擇和組合各種實(shí)時(shí)互動(dòng)能力，打造出更加個(gè)性化和差異化的實(shí)時(shí)互動(dòng)體驗(yàn)）。

趙斌認(rèn)為只有把RTE技術(shù)運(yùn)用地足夠好，部署到全球各個(gè)云和邊緣節(jié)點(diǎn)，大模型的多模態(tài)能力才能普遍地、高質(zhì)量地走進(jìn)各種實(shí)時(shí)互動(dòng)場(chǎng)景。

而在這場(chǎng)多模態(tài)帶來(lái)的實(shí)時(shí)對(duì)話式AI的競(jìng)爭(zhēng)中，由于RTE技術(shù)門檻較高，那么接下來(lái)，只有擁有核心技術(shù)和具備行業(yè)解決方案能力的實(shí)時(shí)音視頻廠商才能接住大模型帶來(lái)的這波新機(jī)遇。

在國(guó)內(nèi)市場(chǎng)，聲網(wǎng)不僅是頭部玩家，還是實(shí)時(shí)音視頻領(lǐng)域的拓荒者，深深扎根行業(yè)已達(dá)十年。

10 月初 OpenAI 發(fā)布了實(shí)時(shí)API公測(cè)版，瞄準(zhǔn)了GPT-4o語(yǔ)音到語(yǔ)音的AI應(yīng)用和智能體，還公布了三家語(yǔ)音API合作者的身份：LiveKit、Twilio，以及 Agora。

其中，Agora的兄弟公司便是聲網(wǎng)，從底層的RTC等音視頻能力來(lái)看，兩個(gè)兄弟公司都有一致且深厚的技術(shù)積累。

相較于市面上大部分 2-3 秒的AI互動(dòng)延遲實(shí)踐，聲網(wǎng)的對(duì)話式AI解決方案將對(duì)話響應(yīng)延時(shí)優(yōu)化至500毫秒，該方案以語(yǔ)音為核心，支持視頻擴(kuò)展，實(shí)現(xiàn)文本/音頻/圖像/視頻的組合輸入&輸出，通過(guò)豐富的功能構(gòu)建真實(shí)、自然的 AI 語(yǔ)音交互體驗(yàn)。

而聲網(wǎng)RTE技術(shù)在AI上的探索，并不是追風(fēng)口的一時(shí)興起，早在四年前，transformer 在學(xué)術(shù)界嶄露頭角不久，聲網(wǎng)是業(yè)內(nèi)首家開(kāi)始把AI技術(shù)引入RTE技術(shù)棧的公司，用于改善音視頻傳輸保障。

不僅如此，緊跟兄弟公司Agora的步伐，聲網(wǎng)跟 MiniMax 正在打磨國(guó)內(nèi)第一個(gè)Realtime API。聲網(wǎng)CEO趙斌在RTE2024上展示了聲網(wǎng)基于 MiniMax Realtime API打造的人工智能體。在演示視頻中，人與智能體能輕松流暢地進(jìn)行實(shí)時(shí)語(yǔ)音對(duì)話，即便人打斷提問(wèn)、進(jìn)行新的提問(wèn)，智能體也能像人一樣反應(yīng)靈敏。

可以預(yù)見(jiàn)的是，AI跟RTE結(jié)合，正給人機(jī)交互帶來(lái)諸多可能，純文字互動(dòng)的大模型無(wú)法實(shí)現(xiàn)AGI，RTC加持下的實(shí)時(shí)多模態(tài)將是必由之路?！咐追寰W(wǎng)(公眾號(hào)：雷峰網(wǎng))消息」

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

張進(jìn)

主筆

發(fā)私信

當(dāng)月熱門文章