丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能 正文
發(fā)私信給張進(jìn)
發(fā)送

0

實(shí)時音視頻領(lǐng)域拓荒者的十年

本文作者: 張進(jìn)   2024-10-31 10:31
導(dǎo)語:誰能抓住這波實(shí)時對話式AI的機(jī)遇?

2015 年,聲網(wǎng)將WebRTC大會引入中國,籌辦了第一屆面向國內(nèi)開發(fā)者、業(yè)務(wù)人員和用戶的RTC(實(shí)時視音頻)大會。在大會開始的前夕,現(xiàn)任聲網(wǎng)市場VP、RTC大會主策人彭小歡失眠了,她非常擔(dān)心明天會不會有人來。

一晃十年過去了,當(dāng)年的RTC大會早已升級為RTE(實(shí)時互聯(lián)網(wǎng))大會, 10 月 25 日RTE 2024也如期而至,但早已不用擔(dān)心是否有人光顧,現(xiàn)場可謂是座無虛席。

實(shí)時音視頻領(lǐng)域拓荒者的十年

圖:RTE2024開幕當(dāng)天的現(xiàn)場

國內(nèi)大模型領(lǐng)域的「大模型六虎」,其中的智譜、MiniMax、零一萬物團(tuán)隊都出現(xiàn)在2024年RTE大會上,在ChatGPT發(fā)布后的近兩年時間里,智譜和MiniMax分別在 tob和 toc兩條路線上越走越深,有許多心得可以分享,通義千問團(tuán)隊也帶著國內(nèi)最大開發(fā)者生態(tài)的經(jīng)驗在RTE大會上加入討論。

此次RTE大會也不乏AI大牛創(chuàng)業(yè)者的身影,例如全球最受矚目的AI科學(xué)家之一,一年前從阿里巴巴離職、躬身入局大模型Infra的賈揚(yáng)清也出現(xiàn)在RTE大會的主論壇上,分享了他在AI Infra領(lǐng)域創(chuàng)業(yè) 18個月后的經(jīng)驗心得以及對RTE+AI的趨勢判斷。

除此,谷歌、螞蟻、面壁智能、生數(shù)科技、商湯、曠視、WPS、Soul等也在大會上分享了團(tuán)隊過去一年里在ChatGPT時代的AI探索。

今年的RTE大會,可謂是大咖云集,AI 內(nèi)容拉滿。

迄今,RTE大會已經(jīng)是第十屆,十年如一日地每年堅持舉辦,從未間隔。恰逢GenAI爆發(fā),聲網(wǎng)深耕的RTC(實(shí)時音視頻)技術(shù),讓人與AI的交互不再局限于文字,也可以通過語音通話進(jìn)行生動、流暢的低延時交互,這也成為當(dāng)下國內(nèi)外大模型廠商新的發(fā)力點(diǎn)——多模態(tài)。

而今年的RTE大會便提供了一個交流平臺,憑借在業(yè)界的影響力,吸引各行各業(yè)專家參與,使得業(yè)內(nèi)一起共同探索RTE+AI的未來潛力,這也將給RTE和聲網(wǎng)帶來更多機(jī)遇與挑戰(zhàn)。

當(dāng)年,聲網(wǎng)CEO趙斌期待“通過RTC這樣的大會讓開發(fā)者使用實(shí)時音視頻功能像使用水一樣簡單”,十年后,實(shí)時音視頻功能成功在各行各業(yè)應(yīng)用,絲滑地融入大眾的工作生活中。在此十年之期,也是聲網(wǎng)創(chuàng)辦的十周年,RTE開始與GenAI結(jié)合。

走到今天,一切都源于RTE大會以及背后的聲網(wǎng)公司十年前的那份堅持與初心。


1

拓荒到蓬勃:技術(shù)布道者到行業(yè)風(fēng)向標(biāo)

今天,實(shí)時音視頻(RTC)互動技術(shù)已經(jīng)成為一項基礎(chǔ)設(shè)施,在我們的日常生活中無處不在。

視頻會議、在線課堂、社交平臺直播連線PK等眾多場景都有實(shí)時音視頻的支撐,才有了低延遲、低卡頓、高清晰度、沉浸式的互動體驗。

十年前,國內(nèi)實(shí)時音視頻還是一片荒原,聲網(wǎng)看到機(jī)會,率先推出RTC PaaS服務(wù)以此來打開市場。實(shí)時音視頻技術(shù)門檻較高,僅有WebRTC,開發(fā)者依然很難上手實(shí)踐,而在RTC PaaS模式下,開發(fā)者只需調(diào)用簡單的API接口就能實(shí)現(xiàn)實(shí)時音視頻互動,極大地降低了開發(fā)者的門檻和成本。

彼時恰逢移動互聯(lián)網(wǎng)全面爆發(fā),整個行業(yè)生機(jī)勃勃,實(shí)時音視頻也開始尋找落地的契機(jī)。

成立后的第二年,聲網(wǎng)創(chuàng)始人趙斌意識到實(shí)時音視頻將是互聯(lián)網(wǎng)企業(yè)必須的工具和功能,聲網(wǎng)作為在這片荒原上第一個揮鋤頭開荒的人,必須擔(dān)負(fù)起技術(shù)布道者的責(zé)任。

所以在 2015 年,為了讓實(shí)時音視頻行業(yè)擁有一個能進(jìn)行技術(shù)交流、行業(yè)趨勢探討的機(jī)會,聲網(wǎng)將WebRTC大會引入中國,籌辦了第一屆面向國內(nèi)開發(fā)者、業(yè)務(wù)人員和用戶的RTC大會,這也是一個為開發(fā)者而生的純行業(yè)技術(shù)峰會。

第一屆RTC大會議程安排上僅由一個主會場、一個分論壇,以及一個 workshop 組成,就吸引了 700 多名觀眾參與。之后,聲網(wǎng)與參會者約定——一年一會,萬象更新。

在第一屆WebRTC大會上,W3CWebRTC標(biāo)準(zhǔn)中Media Capture和Streams Specifications核心部分的合編者——“WebRTC標(biāo)準(zhǔn)之父”Dan Burnett出席現(xiàn)場會議,并與伊利諾伊理工學(xué)院客座教授Alan Johnston一起,為開發(fā)者們進(jìn)行了約8個小時的培訓(xùn)課程,對于開發(fā)者來說,在當(dāng)時RTC專業(yè)知識極度匱乏的年代,猶如久旱逢甘霖。

實(shí)時音視頻領(lǐng)域拓荒者的十年

2015 年的RTC大會打破了RTC技術(shù)布道在國內(nèi)「三無」?fàn)顟B(tài):無行業(yè)會議、無專業(yè)書籍、無專業(yè)媒體及社區(qū)。而在RTE 大會邁入第10年之際,聲網(wǎng)也于今年8月正式出版行業(yè)首本系統(tǒng)介紹實(shí)時互動的技術(shù)型科普圖書《讀懂實(shí)時互動》,持續(xù)為科普實(shí)時互動添磚加瓦。

十年過去了,今天RTE大會已經(jīng)成為業(yè)內(nèi)當(dāng)之無愧的“全球規(guī)模最大音視頻行業(yè)峰會”,大會規(guī)模擴(kuò)張到 20 多個論壇,觀眾數(shù)上限一度達(dá)到六七千人。

據(jù)聲網(wǎng)官方統(tǒng)計,這些年間,大會累計影響了 200 多萬開發(fā)者,覆蓋 300 多個行業(yè)場景,吸引 2000 多名專家講師參與分享,成績斐然。這期間,RTE大會似乎每年都能“押題”成功,成為行業(yè)的風(fēng)向標(biāo)。

2015 年,在第一屆RTC大會上,聲網(wǎng)提出“直播連麥”將成為主流玩法,第二年,連麥互動便成為直播風(fēng)口。

2016 年,聲網(wǎng)認(rèn)為在線教育將成為新風(fēng)口,第二年,在線教育迎來爆發(fā)式增長。

……

2023 年,大會主題是智能、高清,再一次成功預(yù)判了未來趨勢,24 年年初多模態(tài)爆發(fā),Sora、GPT-4o引爆輿論,多模態(tài)成為各大模型玩家最重要的發(fā)力方向。

當(dāng)AI成為科技界的主流,RTE第十屆便是以“AI 愛”為主題,推出了覆蓋AI、出海、Voice AI等 20+行業(yè)及技術(shù)分論壇。

在此次大會上,聲網(wǎng)CEO趙斌認(rèn)為生成式AI正在驅(qū)動IT行業(yè)發(fā)生大變革,主要體現(xiàn)在四個層面:終端、軟件、云和人機(jī)界面,其中AI Native Cloud將成為主流。

實(shí)時音視頻領(lǐng)域拓荒者的十年

Lepton AI 創(chuàng)始人兼 CEO 賈揚(yáng)清也認(rèn)為繼 Web 云、數(shù)據(jù)云之后,AI 是云的第三次浪潮。在 AI 云的形態(tài)下,實(shí)時的交流和智能的結(jié)合在用戶體驗環(huán)節(jié)非常重要,可以說實(shí)時將直接與生產(chǎn)力劃上等號。

作為此次大會的主論壇演講嘉賓,賈揚(yáng)清分別從 AI 應(yīng)用、云、GPU 算力云技術(shù)以及企業(yè)大模型自主性等層面帶來了他對 AI 基礎(chǔ)設(shè)施進(jìn)化的解讀。他認(rèn)為,今天是最容易建設(shè)AI應(yīng)用的時代,越是簡潔的AI模型思路越容易產(chǎn)生優(yōu)秀的效果。

實(shí)時音視頻領(lǐng)域拓荒者的十年

本次大會持續(xù)了兩天,大會上的分享嘉賓集結(jié)了當(dāng)下AI屆的名流,包括「大模型六虎」中的智譜、MiniMax、零一萬物,還有谷歌、WPS、Soul這些在AI應(yīng)用落地探索走在前列的企業(yè)。他們結(jié)合自身業(yè)務(wù),分享了過去兩年里在AI、大模型方向的探索,這將是給與業(yè)界的一筆寶貴經(jīng)驗。

本次大會不僅囊括了RTE+AI發(fā)展的前沿技術(shù)分享,還將關(guān)注點(diǎn)放在了當(dāng)下大家最關(guān)心的AI落地問題上。

大會最精彩的一部分便集中在在圓桌討論環(huán)節(jié),就AI的 6000 億美金難題,Lepton AI 創(chuàng)始人兼 CEO 賈揚(yáng)清、MiniMax 合伙人魏偉、面壁智能聯(lián)合創(chuàng)始人&CTO 曾國洋、Hugging Face 工程師王鐵震、Agora 聯(lián)合創(chuàng)始人 Tony Wang 五位嘉賓一起探討了從 AI 基礎(chǔ)設(shè)施到 AI 商業(yè)化落地的機(jī)會與挑戰(zhàn)。

實(shí)時音視頻領(lǐng)域拓荒者的十年

賈揚(yáng)清認(rèn)為基于開源架構(gòu)的應(yīng)用會越來越普遍;王鐵震呼吁大家不僅要關(guān)注開源模型本身,還要重視開源模型的基礎(chǔ)設(shè)施和數(shù)據(jù)閉環(huán);魏偉則闡釋了在產(chǎn)品和用戶服務(wù)過程中,文本、語音、音樂、視頻這些模型可以很好地幫助藝術(shù)、影視、音樂等領(lǐng)域的創(chuàng)作者提高效率,并提出新思路;曾國洋認(rèn)為未來算力一定會越來越便宜,算力成本優(yōu)化最終會轉(zhuǎn)化為訓(xùn)練更強(qiáng)大的模型。

在大會上,聲網(wǎng)發(fā)布了他們的RTE+AI能力全景圖,在全景圖中,聲網(wǎng)從實(shí)時 AI 基礎(chǔ)設(shè)施、RTE+AI 生態(tài)能力、聲網(wǎng) AI Agent、實(shí)時多模態(tài)對話式 AI 解決方案、RTE+AI 應(yīng)用場景五個維度,清晰呈現(xiàn)了當(dāng)下 RTE 與 AI 相結(jié)合的技術(shù)能力與應(yīng)用方案。

實(shí)時音視頻領(lǐng)域拓荒者的十年

正如CEO趙斌所說,生成式AI與RTE結(jié)合帶來的場景創(chuàng)新,將成為下一個十年的主題。


2

新機(jī)遇:

實(shí)時多模態(tài)是通向AGI的必由之路

今年 5 月,GPT-4o一經(jīng)發(fā)布便再次引起業(yè)內(nèi)熱議,其展示出的實(shí)時語音交互能力讓人印象深刻,開創(chuàng)了AI實(shí)時語音交互的先河。

在發(fā)布會上,GPT-4o展示了大幅降低的語言延遲,平均 320 毫秒的反應(yīng)時間,讓AI與人類的對話第一次接近人類真實(shí)對話的反應(yīng)速率。

實(shí)時的交流和智能的能力是人機(jī)結(jié)合的重中之重,正如賈揚(yáng)清在RTE大會上所說,實(shí)時可以跟生產(chǎn)力劃等號。

但要達(dá)到人類可接受范圍內(nèi)的「實(shí)時」,端到端實(shí)時多模態(tài)的崛起只是近來取得技術(shù)突破的一條明顯,它從思考速度上縮短了語音的交互實(shí)踐,而另一條暗線則是 RTC(實(shí)時音視頻,Real-Time Communications)技術(shù)的進(jìn)步。

而GPT-4o正是在采用RTC方案后,便展現(xiàn)出了自然、流暢的低延時語音交互體驗。而且在實(shí)際應(yīng)用中,用戶的設(shè)備很多時候不能始終聯(lián)網(wǎng),所以無論多強(qiáng)大的模型都要依靠RTC技術(shù)來實(shí)現(xiàn)實(shí)時對話。

因此,RTC是將多模態(tài)大模型跟實(shí)時互動場景連接起來的關(guān)鍵技術(shù)橋梁。

聲網(wǎng)CEO趙斌稱,生成式AI有一個大的、清晰的方向就是向多模態(tài)清晰深度進(jìn)化,除了提供GPT-4o發(fā)布會上令人驚艷的情感擬人對話之外,更重要的是打開大模型進(jìn)一步智能進(jìn)化的數(shù)據(jù)需求。

目前文字訓(xùn)練數(shù)據(jù)基本上已經(jīng)被充分利用,語言本身是一種聲音化的文字,能夠提供的信息和數(shù)據(jù)的空間將會被放大很多倍,并且超過文字,自然環(huán)境的聲音和視覺數(shù)據(jù)的獲取、運(yùn)用,將給大模型提供幾乎無限的數(shù)據(jù)空間。因此多模態(tài)成為當(dāng)下的重要發(fā)展方向。

在推進(jìn)多模態(tài)清晰深度進(jìn)化上,聲網(wǎng)通過過去和多個行業(yè)伙伴打磨、對接、深度實(shí)驗、測試、評估,發(fā)現(xiàn)多模態(tài)對話體驗存在兩個關(guān)鍵側(cè)面:(1)聲音體驗包括延遲、語氣、情感、情緒、口音,這些都是人與大模型進(jìn)行人機(jī)對話時體驗的關(guān)鍵角度。(2) 人與大模型支持的 agent 對話時的互動體驗中,最核心的就是「打斷行為」,如果在對話中打斷不自然,出現(xiàn)搶話、不知道如何順利開展下一段討論等行為,也會對人機(jī)交互的效果產(chǎn)生影響。

而這些要通過對現(xiàn)有的RTE技術(shù)棧等基礎(chǔ)設(shè)施進(jìn)行改進(jìn),大模型才有機(jī)會大規(guī)模參與到與人的各種對話,在各種場景、形態(tài)、模型下開展直接語音對話。未來RTE基礎(chǔ)設(shè)施將會成為多模態(tài)大模型AI Infra的關(guān)鍵部分。(注:RTE在提供RTC音視頻服務(wù)的基礎(chǔ)上進(jìn)一步提供了更加豐富和靈活的實(shí)時互動能力,讓開發(fā)者可以根據(jù)不同的場景需求,自由地選擇和組合各種實(shí)時互動能力,打造出更加個性化和差異化的實(shí)時互動體驗)。

趙斌認(rèn)為只有把RTE技術(shù)運(yùn)用地足夠好,部署到全球各個云和邊緣節(jié)點(diǎn),大模型的多模態(tài)能力才能普遍地、高質(zhì)量地走進(jìn)各種實(shí)時互動場景。

而在這場多模態(tài)帶來的實(shí)時對話式AI的競爭中,由于RTE技術(shù)門檻較高,那么接下來,只有擁有核心技術(shù)和具備行業(yè)解決方案能力的實(shí)時音視頻廠商才能接住大模型帶來的這波新機(jī)遇。

在國內(nèi)市場,聲網(wǎng)不僅是頭部玩家,還是實(shí)時音視頻領(lǐng)域的拓荒者,深深扎根行業(yè)已達(dá)十年。

10 月初 OpenAI 發(fā)布了實(shí)時API公測版,瞄準(zhǔn)了GPT-4o語音到語音的AI應(yīng)用和智能體,還公布了三家語音API合作者的身份:LiveKit、Twilio,以及 Agora。

其中,Agora的兄弟公司便是聲網(wǎng),從底層的RTC等音視頻能力來看,兩個兄弟公司都有一致且深厚的技術(shù)積累。

相較于市面上大部分 2-3 秒的AI互動延遲實(shí)踐,聲網(wǎng)的對話式AI解決方案將對話響應(yīng)延時優(yōu)化至500毫秒,該方案以語音為核心,支持視頻擴(kuò)展,實(shí)現(xiàn)文本/音頻/圖像/視頻的組合輸入&輸出,通過豐富的功能構(gòu)建真實(shí)、自然的 AI 語音交互體驗。

而聲網(wǎng)RTE技術(shù)在AI上的探索,并不是追風(fēng)口的一時興起,早在四年前,transformer 在學(xué)術(shù)界嶄露頭角不久,聲網(wǎng)是業(yè)內(nèi)首家開始把AI技術(shù)引入RTE技術(shù)棧的公司,用于改善音視頻傳輸保障。

不僅如此,緊跟兄弟公司Agora的步伐,聲網(wǎng)跟 MiniMax 正在打磨國內(nèi)第一個Realtime API。聲網(wǎng)CEO趙斌在RTE2024上展示了聲網(wǎng)基于 MiniMax Realtime API打造的人工智能體。在演示視頻中,人與智能體能輕松流暢地進(jìn)行實(shí)時語音對話,即便人打斷提問、進(jìn)行新的提問,智能體也能像人一樣反應(yīng)靈敏。

可以預(yù)見的是,AI跟RTE結(jié)合,正給人機(jī)交互帶來諸多可能,純文字互動的大模型無法實(shí)現(xiàn)AGI,RTC加持下的實(shí)時多模態(tài)將是必由之路。「雷峰網(wǎng)(公眾號:雷峰網(wǎng))消息」








雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知

實(shí)時音視頻領(lǐng)域拓荒者的十年

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說