0
本文作者: 張進(jìn) | 2024-10-31 10:31 |
2015 年,聲網(wǎng)將WebRTC大會(huì)引入中國(guó),籌辦了第一屆面向國(guó)內(nèi)開發(fā)者、業(yè)務(wù)人員和用戶的RTC(實(shí)時(shí)視音頻)大會(huì)。在大會(huì)開始的前夕,現(xiàn)任聲網(wǎng)市場(chǎng)VP、RTC大會(huì)主策人彭小歡失眠了,她非常擔(dān)心明天會(huì)不會(huì)有人來(lái)。
一晃十年過(guò)去了,當(dāng)年的RTC大會(huì)早已升級(jí)為RTE(實(shí)時(shí)互聯(lián)網(wǎng))大會(huì), 10 月 25 日RTE 2024也如期而至,但早已不用擔(dān)心是否有人光顧,現(xiàn)場(chǎng)可謂是座無(wú)虛席。
圖:RTE2024開幕當(dāng)天的現(xiàn)場(chǎng)
國(guó)內(nèi)大模型領(lǐng)域的「大模型六虎」,其中的智譜、MiniMax、零一萬(wàn)物團(tuán)隊(duì)都出現(xiàn)在2024年RTE大會(huì)上,在ChatGPT發(fā)布后的近兩年時(shí)間里,智譜和MiniMax分別在 tob和 toc兩條路線上越走越深,有許多心得可以分享,通義千問(wèn)團(tuán)隊(duì)也帶著國(guó)內(nèi)最大開發(fā)者生態(tài)的經(jīng)驗(yàn)在RTE大會(huì)上加入討論。
此次RTE大會(huì)也不乏AI大牛創(chuàng)業(yè)者的身影,例如全球最受矚目的AI科學(xué)家之一,一年前從阿里巴巴離職、躬身入局大模型Infra的賈揚(yáng)清也出現(xiàn)在RTE大會(huì)的主論壇上,分享了他在AI Infra領(lǐng)域創(chuàng)業(yè) 18個(gè)月后的經(jīng)驗(yàn)心得以及對(duì)RTE+AI的趨勢(shì)判斷。
除此,谷歌、螞蟻、面壁智能、生數(shù)科技、商湯、曠視、WPS、Soul等也在大會(huì)上分享了團(tuán)隊(duì)過(guò)去一年里在ChatGPT時(shí)代的AI探索。
今年的RTE大會(huì),可謂是大咖云集,AI 內(nèi)容拉滿。
迄今,RTE大會(huì)已經(jīng)是第十屆,十年如一日地每年堅(jiān)持舉辦,從未間隔。恰逢GenAI爆發(fā),聲網(wǎng)深耕的RTC(實(shí)時(shí)音視頻)技術(shù),讓人與AI的交互不再局限于文字,也可以通過(guò)語(yǔ)音通話進(jìn)行生動(dòng)、流暢的低延時(shí)交互,這也成為當(dāng)下國(guó)內(nèi)外大模型廠商新的發(fā)力點(diǎn)——多模態(tài)。
而今年的RTE大會(huì)便提供了一個(gè)交流平臺(tái),憑借在業(yè)界的影響力,吸引各行各業(yè)專家參與,使得業(yè)內(nèi)一起共同探索RTE+AI的未來(lái)潛力,這也將給RTE和聲網(wǎng)帶來(lái)更多機(jī)遇與挑戰(zhàn)。
當(dāng)年,聲網(wǎng)CEO趙斌期待“通過(guò)RTC這樣的大會(huì)讓開發(fā)者使用實(shí)時(shí)音視頻功能像使用水一樣簡(jiǎn)單”,十年后,實(shí)時(shí)音視頻功能成功在各行各業(yè)應(yīng)用,絲滑地融入大眾的工作生活中。在此十年之期,也是聲網(wǎng)創(chuàng)辦的十周年,RTE開始與GenAI結(jié)合。
走到今天,一切都源于RTE大會(huì)以及背后的聲網(wǎng)公司十年前的那份堅(jiān)持與初心。
今天,實(shí)時(shí)音視頻(RTC)互動(dòng)技術(shù)已經(jīng)成為一項(xiàng)基礎(chǔ)設(shè)施,在我們的日常生活中無(wú)處不在。
視頻會(huì)議、在線課堂、社交平臺(tái)直播連線PK等眾多場(chǎng)景都有實(shí)時(shí)音視頻的支撐,才有了低延遲、低卡頓、高清晰度、沉浸式的互動(dòng)體驗(yàn)。
十年前,國(guó)內(nèi)實(shí)時(shí)音視頻還是一片荒原,聲網(wǎng)看到機(jī)會(huì),率先推出RTC PaaS服務(wù)以此來(lái)打開市場(chǎng)。實(shí)時(shí)音視頻技術(shù)門檻較高,僅有WebRTC,開發(fā)者依然很難上手實(shí)踐,而在RTC PaaS模式下,開發(fā)者只需調(diào)用簡(jiǎn)單的API接口就能實(shí)現(xiàn)實(shí)時(shí)音視頻互動(dòng),極大地降低了開發(fā)者的門檻和成本。
彼時(shí)恰逢移動(dòng)互聯(lián)網(wǎng)全面爆發(fā),整個(gè)行業(yè)生機(jī)勃勃,實(shí)時(shí)音視頻也開始尋找落地的契機(jī)。
成立后的第二年,聲網(wǎng)創(chuàng)始人趙斌意識(shí)到實(shí)時(shí)音視頻將是互聯(lián)網(wǎng)企業(yè)必須的工具和功能,聲網(wǎng)作為在這片荒原上第一個(gè)揮鋤頭開荒的人,必須擔(dān)負(fù)起技術(shù)布道者的責(zé)任。
所以在 2015 年,為了讓實(shí)時(shí)音視頻行業(yè)擁有一個(gè)能進(jìn)行技術(shù)交流、行業(yè)趨勢(shì)探討的機(jī)會(huì),聲網(wǎng)將WebRTC大會(huì)引入中國(guó),籌辦了第一屆面向國(guó)內(nèi)開發(fā)者、業(yè)務(wù)人員和用戶的RTC大會(huì),這也是一個(gè)為開發(fā)者而生的純行業(yè)技術(shù)峰會(huì)。
第一屆RTC大會(huì)議程安排上僅由一個(gè)主會(huì)場(chǎng)、一個(gè)分論壇,以及一個(gè) workshop 組成,就吸引了 700 多名觀眾參與。之后,聲網(wǎng)與參會(huì)者約定——一年一會(huì),萬(wàn)象更新。
在第一屆WebRTC大會(huì)上,W3CWebRTC標(biāo)準(zhǔn)中Media Capture和Streams Specifications核心部分的合編者——“WebRTC標(biāo)準(zhǔn)之父”Dan Burnett出席現(xiàn)場(chǎng)會(huì)議,并與伊利諾伊理工學(xué)院客座教授Alan Johnston一起,為開發(fā)者們進(jìn)行了約8個(gè)小時(shí)的培訓(xùn)課程,對(duì)于開發(fā)者來(lái)說(shuō),在當(dāng)時(shí)RTC專業(yè)知識(shí)極度匱乏的年代,猶如久旱逢甘霖。
2015 年的RTC大會(huì)打破了RTC技術(shù)布道在國(guó)內(nèi)「三無(wú)」?fàn)顟B(tài):無(wú)行業(yè)會(huì)議、無(wú)專業(yè)書籍、無(wú)專業(yè)媒體及社區(qū)。而在RTE 大會(huì)邁入第10年之際,聲網(wǎng)也于今年8月正式出版行業(yè)首本系統(tǒng)介紹實(shí)時(shí)互動(dòng)的技術(shù)型科普?qǐng)D書《讀懂實(shí)時(shí)互動(dòng)》,持續(xù)為科普實(shí)時(shí)互動(dòng)添磚加瓦。
十年過(guò)去了,今天RTE大會(huì)已經(jīng)成為業(yè)內(nèi)當(dāng)之無(wú)愧的“全球規(guī)模最大音視頻行業(yè)峰會(huì)”,大會(huì)規(guī)模擴(kuò)張到 20 多個(gè)論壇,觀眾數(shù)上限一度達(dá)到六七千人。
據(jù)聲網(wǎng)官方統(tǒng)計(jì),這些年間,大會(huì)累計(jì)影響了 200 多萬(wàn)開發(fā)者,覆蓋 300 多個(gè)行業(yè)場(chǎng)景,吸引 2000 多名專家講師參與分享,成績(jī)斐然。這期間,RTE大會(huì)似乎每年都能“押題”成功,成為行業(yè)的風(fēng)向標(biāo)。
2015 年,在第一屆RTC大會(huì)上,聲網(wǎng)提出“直播連麥”將成為主流玩法,第二年,連麥互動(dòng)便成為直播風(fēng)口。
2016 年,聲網(wǎng)認(rèn)為在線教育將成為新風(fēng)口,第二年,在線教育迎來(lái)爆發(fā)式增長(zhǎng)。
……
2023 年,大會(huì)主題是智能、高清,再一次成功預(yù)判了未來(lái)趨勢(shì),24 年年初多模態(tài)爆發(fā),Sora、GPT-4o引爆輿論,多模態(tài)成為各大模型玩家最重要的發(fā)力方向。
當(dāng)AI成為科技界的主流,RTE第十屆便是以“AI 愛(ài)”為主題,推出了覆蓋AI、出海、Voice AI等 20+行業(yè)及技術(shù)分論壇。
在此次大會(huì)上,聲網(wǎng)CEO趙斌認(rèn)為生成式AI正在驅(qū)動(dòng)IT行業(yè)發(fā)生大變革,主要體現(xiàn)在四個(gè)層面:終端、軟件、云和人機(jī)界面,其中AI Native Cloud將成為主流。
Lepton AI 創(chuàng)始人兼 CEO 賈揚(yáng)清也認(rèn)為繼 Web 云、數(shù)據(jù)云之后,AI 是云的第三次浪潮。在 AI 云的形態(tài)下,實(shí)時(shí)的交流和智能的結(jié)合在用戶體驗(yàn)環(huán)節(jié)非常重要,可以說(shuō)實(shí)時(shí)將直接與生產(chǎn)力劃上等號(hào)。
作為此次大會(huì)的主論壇演講嘉賓,賈揚(yáng)清分別從 AI 應(yīng)用、云、GPU 算力云技術(shù)以及企業(yè)大模型自主性等層面帶來(lái)了他對(duì) AI 基礎(chǔ)設(shè)施進(jìn)化的解讀。他認(rèn)為,今天是最容易建設(shè)AI應(yīng)用的時(shí)代,越是簡(jiǎn)潔的AI模型思路越容易產(chǎn)生優(yōu)秀的效果。
本次大會(huì)持續(xù)了兩天,大會(huì)上的分享嘉賓集結(jié)了當(dāng)下AI屆的名流,包括「大模型六虎」中的智譜、MiniMax、零一萬(wàn)物,還有谷歌、WPS、Soul這些在AI應(yīng)用落地探索走在前列的企業(yè)。他們結(jié)合自身業(yè)務(wù),分享了過(guò)去兩年里在AI、大模型方向的探索,這將是給與業(yè)界的一筆寶貴經(jīng)驗(yàn)。
本次大會(huì)不僅囊括了RTE+AI發(fā)展的前沿技術(shù)分享,還將關(guān)注點(diǎn)放在了當(dāng)下大家最關(guān)心的AI落地問(wèn)題上。
大會(huì)最精彩的一部分便集中在在圓桌討論環(huán)節(jié),就AI的 6000 億美金難題,Lepton AI 創(chuàng)始人兼 CEO 賈揚(yáng)清、MiniMax 合伙人魏偉、面壁智能聯(lián)合創(chuàng)始人&CTO 曾國(guó)洋、Hugging Face 工程師王鐵震、Agora 聯(lián)合創(chuàng)始人 Tony Wang 五位嘉賓一起探討了從 AI 基礎(chǔ)設(shè)施到 AI 商業(yè)化落地的機(jī)會(huì)與挑戰(zhàn)。
賈揚(yáng)清認(rèn)為基于開源架構(gòu)的應(yīng)用會(huì)越來(lái)越普遍;王鐵震呼吁大家不僅要關(guān)注開源模型本身,還要重視開源模型的基礎(chǔ)設(shè)施和數(shù)據(jù)閉環(huán);魏偉則闡釋了在產(chǎn)品和用戶服務(wù)過(guò)程中,文本、語(yǔ)音、音樂(lè)、視頻這些模型可以很好地幫助藝術(shù)、影視、音樂(lè)等領(lǐng)域的創(chuàng)作者提高效率,并提出新思路;曾國(guó)洋認(rèn)為未來(lái)算力一定會(huì)越來(lái)越便宜,算力成本優(yōu)化最終會(huì)轉(zhuǎn)化為訓(xùn)練更強(qiáng)大的模型。
在大會(huì)上,聲網(wǎng)發(fā)布了他們的RTE+AI能力全景圖,在全景圖中,聲網(wǎng)從實(shí)時(shí) AI 基礎(chǔ)設(shè)施、RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、實(shí)時(shí)多模態(tài)對(duì)話式 AI 解決方案、RTE+AI 應(yīng)用場(chǎng)景五個(gè)維度,清晰呈現(xiàn)了當(dāng)下 RTE 與 AI 相結(jié)合的技術(shù)能力與應(yīng)用方案。
正如CEO趙斌所說(shuō),生成式AI與RTE結(jié)合帶來(lái)的場(chǎng)景創(chuàng)新,將成為下一個(gè)十年的主題。
今年 5 月,GPT-4o一經(jīng)發(fā)布便再次引起業(yè)內(nèi)熱議,其展示出的實(shí)時(shí)語(yǔ)音交互能力讓人印象深刻,開創(chuàng)了AI實(shí)時(shí)語(yǔ)音交互的先河。
在發(fā)布會(huì)上,GPT-4o展示了大幅降低的語(yǔ)言延遲,平均 320 毫秒的反應(yīng)時(shí)間,讓AI與人類的對(duì)話第一次接近人類真實(shí)對(duì)話的反應(yīng)速率。
實(shí)時(shí)的交流和智能的能力是人機(jī)結(jié)合的重中之重,正如賈揚(yáng)清在RTE大會(huì)上所說(shuō),實(shí)時(shí)可以跟生產(chǎn)力劃等號(hào)。
但要達(dá)到人類可接受范圍內(nèi)的「實(shí)時(shí)」,端到端實(shí)時(shí)多模態(tài)的崛起只是近來(lái)取得技術(shù)突破的一條明顯,它從思考速度上縮短了語(yǔ)音的交互實(shí)踐,而另一條暗線則是 RTC(實(shí)時(shí)音視頻,Real-Time Communications)技術(shù)的進(jìn)步。
而GPT-4o正是在采用RTC方案后,便展現(xiàn)出了自然、流暢的低延時(shí)語(yǔ)音交互體驗(yàn)。而且在實(shí)際應(yīng)用中,用戶的設(shè)備很多時(shí)候不能始終聯(lián)網(wǎng),所以無(wú)論多強(qiáng)大的模型都要依靠RTC技術(shù)來(lái)實(shí)現(xiàn)實(shí)時(shí)對(duì)話。
因此,RTC是將多模態(tài)大模型跟實(shí)時(shí)互動(dòng)場(chǎng)景連接起來(lái)的關(guān)鍵技術(shù)橋梁。
聲網(wǎng)CEO趙斌稱,生成式AI有一個(gè)大的、清晰的方向就是向多模態(tài)清晰深度進(jìn)化,除了提供GPT-4o發(fā)布會(huì)上令人驚艷的情感擬人對(duì)話之外,更重要的是打開大模型進(jìn)一步智能進(jìn)化的數(shù)據(jù)需求。
目前文字訓(xùn)練數(shù)據(jù)基本上已經(jīng)被充分利用,語(yǔ)言本身是一種聲音化的文字,能夠提供的信息和數(shù)據(jù)的空間將會(huì)被放大很多倍,并且超過(guò)文字,自然環(huán)境的聲音和視覺(jué)數(shù)據(jù)的獲取、運(yùn)用,將給大模型提供幾乎無(wú)限的數(shù)據(jù)空間。因此多模態(tài)成為當(dāng)下的重要發(fā)展方向。
在推進(jìn)多模態(tài)清晰深度進(jìn)化上,聲網(wǎng)通過(guò)過(guò)去和多個(gè)行業(yè)伙伴打磨、對(duì)接、深度實(shí)驗(yàn)、測(cè)試、評(píng)估,發(fā)現(xiàn)多模態(tài)對(duì)話體驗(yàn)存在兩個(gè)關(guān)鍵側(cè)面:(1)聲音體驗(yàn)包括延遲、語(yǔ)氣、情感、情緒、口音,這些都是人與大模型進(jìn)行人機(jī)對(duì)話時(shí)體驗(yàn)的關(guān)鍵角度。(2) 人與大模型支持的 agent 對(duì)話時(shí)的互動(dòng)體驗(yàn)中,最核心的就是「打斷行為」,如果在對(duì)話中打斷不自然,出現(xiàn)搶話、不知道如何順利開展下一段討論等行為,也會(huì)對(duì)人機(jī)交互的效果產(chǎn)生影響。
而這些要通過(guò)對(duì)現(xiàn)有的RTE技術(shù)棧等基礎(chǔ)設(shè)施進(jìn)行改進(jìn),大模型才有機(jī)會(huì)大規(guī)模參與到與人的各種對(duì)話,在各種場(chǎng)景、形態(tài)、模型下開展直接語(yǔ)音對(duì)話。未來(lái)RTE基礎(chǔ)設(shè)施將會(huì)成為多模態(tài)大模型AI Infra的關(guān)鍵部分。(注:RTE在提供RTC音視頻服務(wù)的基礎(chǔ)上進(jìn)一步提供了更加豐富和靈活的實(shí)時(shí)互動(dòng)能力,讓開發(fā)者可以根據(jù)不同的場(chǎng)景需求,自由地選擇和組合各種實(shí)時(shí)互動(dòng)能力,打造出更加個(gè)性化和差異化的實(shí)時(shí)互動(dòng)體驗(yàn))。
趙斌認(rèn)為只有把RTE技術(shù)運(yùn)用地足夠好,部署到全球各個(gè)云和邊緣節(jié)點(diǎn),大模型的多模態(tài)能力才能普遍地、高質(zhì)量地走進(jìn)各種實(shí)時(shí)互動(dòng)場(chǎng)景。
而在這場(chǎng)多模態(tài)帶來(lái)的實(shí)時(shí)對(duì)話式AI的競(jìng)爭(zhēng)中,由于RTE技術(shù)門檻較高,那么接下來(lái),只有擁有核心技術(shù)和具備行業(yè)解決方案能力的實(shí)時(shí)音視頻廠商才能接住大模型帶來(lái)的這波新機(jī)遇。
在國(guó)內(nèi)市場(chǎng),聲網(wǎng)不僅是頭部玩家,還是實(shí)時(shí)音視頻領(lǐng)域的拓荒者,深深扎根行業(yè)已達(dá)十年。
10 月初 OpenAI 發(fā)布了實(shí)時(shí)API公測(cè)版,瞄準(zhǔn)了GPT-4o語(yǔ)音到語(yǔ)音的AI應(yīng)用和智能體,還公布了三家語(yǔ)音API合作者的身份:LiveKit、Twilio,以及 Agora。
其中,Agora的兄弟公司便是聲網(wǎng),從底層的RTC等音視頻能力來(lái)看,兩個(gè)兄弟公司都有一致且深厚的技術(shù)積累。
相較于市面上大部分 2-3 秒的AI互動(dòng)延遲實(shí)踐,聲網(wǎng)的對(duì)話式AI解決方案將對(duì)話響應(yīng)延時(shí)優(yōu)化至500毫秒,該方案以語(yǔ)音為核心,支持視頻擴(kuò)展,實(shí)現(xiàn)文本/音頻/圖像/視頻的組合輸入&輸出,通過(guò)豐富的功能構(gòu)建真實(shí)、自然的 AI 語(yǔ)音交互體驗(yàn)。
而聲網(wǎng)RTE技術(shù)在AI上的探索,并不是追風(fēng)口的一時(shí)興起,早在四年前,transformer 在學(xué)術(shù)界嶄露頭角不久,聲網(wǎng)是業(yè)內(nèi)首家開始把AI技術(shù)引入RTE技術(shù)棧的公司,用于改善音視頻傳輸保障。
不僅如此,緊跟兄弟公司Agora的步伐,聲網(wǎng)跟 MiniMax 正在打磨國(guó)內(nèi)第一個(gè)Realtime API。聲網(wǎng)CEO趙斌在RTE2024上展示了聲網(wǎng)基于 MiniMax Realtime API打造的人工智能體。在演示視頻中,人與智能體能輕松流暢地進(jìn)行實(shí)時(shí)語(yǔ)音對(duì)話,即便人打斷提問(wèn)、進(jìn)行新的提問(wèn),智能體也能像人一樣反應(yīng)靈敏。
可以預(yù)見的是,AI跟RTE結(jié)合,正給人機(jī)交互帶來(lái)諸多可能,純文字互動(dòng)的大模型無(wú)法實(shí)現(xiàn)AGI,RTC加持下的實(shí)時(shí)多模態(tài)將是必由之路?!咐追寰W(wǎng)(公眾號(hào):雷峰網(wǎng))消息」
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。