丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能開(kāi)發(fā)者 正文
發(fā)私信給王悅
發(fā)送

0

打造 24 小時(shí)在線(xiàn)玩家:AIGC 時(shí)代,RTE 的冒險(xiǎn)與突破

本文作者: 王悅 2023-10-31 15:09
導(dǎo)語(yǔ):AIGC 在 RTE 領(lǐng)域掀起一輪新的風(fēng)暴。


作者丨王   悅

編輯丨陳彩嫻

2023 年下半年,產(chǎn)品與應(yīng)用成為 GPT 討論的話(huà)題中心。相比模型的參數(shù)與能力,AIGC 的落地更能考驗(yàn)各個(gè)廠(chǎng)商的“秀肌肉”。

這其中,有著廣大用戶(hù)基礎(chǔ)的實(shí)時(shí)互動(dòng)技術(shù)(RTE)場(chǎng)景順理成章地和 AIGC 進(jìn)行了緊密地耦合,而游戲AI 就是兩者結(jié)合的一次探索和嘗試。

以家喻戶(hù)曉的角色扮演類(lèi)推理游戲《誰(shuí)是臥底》為例,這類(lèi)游戲往往同時(shí)有多位玩家在線(xiàn)互動(dòng),要求玩家實(shí)時(shí)反應(yīng),并輸出符合常識(shí)的邏輯推理,一度被認(rèn)為是 GPT 技術(shù)的“攔路虎”。但現(xiàn)在,也已經(jīng)被國(guó)內(nèi)的技術(shù)廠(chǎng)商完美解決!

在 10 月24-25 日聲網(wǎng)所舉辦的 RTE 2023 實(shí)時(shí)互聯(lián)網(wǎng)大會(huì)上,雷峰網(wǎng)發(fā)現(xiàn),《誰(shuí)是臥底》這種類(lèi)型的游戲已經(jīng)可以用 RTE ? AIGC 的方式“重做一遍”,可支持多名真人玩家實(shí)時(shí)在線(xiàn)互動(dòng),在用 RTE 技術(shù)保障音視頻可以敏捷響應(yīng)的同時(shí),還可以用 AI 驅(qū)動(dòng)虛擬玩家,毫不違和地融入游戲中。

打造 24 小時(shí)在線(xiàn)玩家:AIGC 時(shí)代,RTE 的冒險(xiǎn)與突破

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))觀(guān)察到,即使在游戲中需要實(shí)時(shí)計(jì)算、推理信息然后快速輸出語(yǔ)音的情況下,AI 角色也能應(yīng)對(duì)地游刃有余,沒(méi)有以往的反應(yīng)遲緩或答非所問(wèn),完全融入真人的游戲場(chǎng)景中。

此外,主持人還可以向游戲背后的大模型提出需求,大模型對(duì)其他玩家輸出的信息進(jìn)行理解和處理后,會(huì)將判斷出的線(xiàn)索及時(shí)反饋給主持人,增加了游戲的豐富度與趣味度。

用 AIGC 打造虛擬角色、生成虛擬互動(dòng)對(duì)話(huà)內(nèi)容、進(jìn)行角色之間的情感計(jì)算等,這在過(guò)去是“天方夜譚”,而今卻是觸手可及,這背后離不開(kāi) AI 和 RTE 技術(shù)的雙雙進(jìn)步。

聲網(wǎng)創(chuàng)始人兼 CEO 趙斌感慨,在過(guò)去的一年中,利用 AI 能力對(duì)音視頻領(lǐng)域進(jìn)行賦能,使得沉浸感與真實(shí)感的效果獲得了突飛猛進(jìn)的進(jìn)步。

在 AIGC 技術(shù)的加持下,今年的聲網(wǎng) RTE 大會(huì)除了“高清”,也首次將另一個(gè)目標(biāo)提到了同等高度:智能。

GPT 時(shí)代,RTE 有了新的可能性。



一、顛覆:AIGC 變革 RTE


疫情消散后,RTE 用戶(hù)基數(shù)和用量保持穩(wěn)定增長(zhǎng),RTE 場(chǎng)景用戶(hù)規(guī)模持續(xù)擴(kuò)張。

之前的 RTE 「大戶(hù)」——泛娛樂(lè)領(lǐng)域,用戶(hù)仍然保持持續(xù)增長(zhǎng)狀態(tài),增速跑贏大盤(pán)。

而今年不同的是,流媒體直播領(lǐng)域?qū)?RTC 的使用逐漸增長(zhǎng),其中WebRTC 流媒體直播觀(guān)眾數(shù)日增量 15000 人,聲網(wǎng)極速直播用量相較于 2022 年增長(zhǎng) 400%。

在 RTE 領(lǐng)域保持良好勢(shì)頭的同時(shí),AI 的突飛猛進(jìn)會(huì)給 RTE 的發(fā)展帶來(lái)哪些新機(jī)遇?

趙斌指出了聲網(wǎng)把握住的三個(gè)方面:

一是音頻 + AI ,將以鳳鳴 AI 引擎為支撐,使音頻邁向極致沉浸 + 極致擬真的方向;

二是視頻 + AI,將會(huì)實(shí)現(xiàn)畫(huà)質(zhì)提升、AI 美顏、虛擬背景、AI 驅(qū)動(dòng)表情+動(dòng)作,使視頻更美、更真、更好看;

三是虛擬人 + AIGC ,虛擬人將能解決社交供需不平衡的問(wèn)題,引領(lǐng)交互對(duì)象變化,AI 助理、AI 女友、AI 玩家會(huì)逐漸被接受,最終創(chuàng)造情感和情緒價(jià)值。

AIGC 除了給 RTE 帶來(lái)機(jī)遇外,也切實(shí)提高了應(yīng)用開(kāi)發(fā)效率,同時(shí)產(chǎn)生了對(duì)高質(zhì)量 API 的更強(qiáng)需求,云原生應(yīng)用可能分為 API + APP 兩層。

“AIGC 這么強(qiáng)大,我們一起用它做點(diǎn)什么吧!”會(huì)場(chǎng)屏幕的黑色背景中出現(xiàn)了這樣一句話(huà)。隨即,趙斌一頁(yè)一頁(yè)翻開(kāi) PPT,向大家娓娓道來(lái) AIGC 對(duì) RTE 領(lǐng)域帶來(lái)的顛覆與變革:

聲網(wǎng)首創(chuàng) RTE??AIGC,讓各種大模型都能實(shí)時(shí)語(yǔ)音對(duì)話(huà),進(jìn)而賦能行業(yè)場(chǎng)景下 AIGC 實(shí)時(shí)音頻“聊天”、“自然語(yǔ)言對(duì)話(huà)”玩法;

在提升 QoE 體驗(yàn)層面,AIGC 能展示對(duì)用戶(hù)留存和使用行為的強(qiáng)大影響,比如從表情升級(jí)高清使得打賞率大幅提升、CDN 升級(jí)極速直播使得送禮率增長(zhǎng) 12.3%、AI 降噪開(kāi)啟后可降低音頻流量成本10%+;

RTE + 企業(yè)服務(wù)層面,企業(yè)音視頻眾泰正在改變“煙囪式”系統(tǒng)建設(shè),無(wú)所不達(dá)的實(shí)時(shí)網(wǎng)絡(luò)+無(wú)所不及的音視頻能力,成為企業(yè)數(shù)字化轉(zhuǎn)型的重要支撐;

RTE + IoT 層面,構(gòu)建人、車(chē)、家的智能化生態(tài),實(shí)時(shí)互動(dòng)正在成為智能家居新標(biāo)配;

在主論壇的圓桌對(duì)話(huà)中,喜馬拉雅首席科學(xué)家盧恒也表示,作為全國(guó)最大的有聲內(nèi)容平臺(tái),喜馬拉雅從文本處理到音頻內(nèi)容生成的過(guò)程中都使用了大量的AI技術(shù),目前,AIGC 生成的音頻內(nèi)容日均播放量已超過(guò)250萬(wàn)小時(shí)。

10月24日,在RTE 2023大會(huì)主論壇的首個(gè)演講即將結(jié)束之際,趙斌對(duì) RTE 行業(yè)的未來(lái)提出了六點(diǎn)展望的方向,其中一個(gè)是:AIGC 將為每個(gè)人創(chuàng)造替身、分身。

這一點(diǎn),與隨后演講的聲網(wǎng)首席科學(xué)家、CTO 鐘聲不謀而合。“AGI 將走進(jìn)實(shí)時(shí)互動(dòng),實(shí)現(xiàn)人人可分身,幫助在應(yīng)用場(chǎng)景中復(fù)制名師、網(wǎng)紅,甚至普通人也將通過(guò)AI分身豐富體驗(yàn)、緩解時(shí)間稀缺的瓶頸?!?/p>

Founders Space創(chuàng)始人兼CEO 史蒂夫·霍夫曼在演講中同樣也分享了相似的觀(guān)點(diǎn)。他認(rèn)為,在AI賦能的RTE未來(lái),我們將看到每個(gè)人都會(huì)擁有更加個(gè)性化的體驗(yàn),更加動(dòng)態(tài)的程序?qū)㈦S著圖形、音頻、視頻的實(shí)時(shí)變化而變化,AI將帶來(lái)前所未有的連接方式。在更深層次上,AI還將為人類(lèi)提高生產(chǎn)力水平,帶來(lái)動(dòng)態(tài)的虛擬世界,感受到更多的沉浸體驗(yàn)。

趙斌預(yù)測(cè)的另一個(gè)方向是:AIGC 顛覆主流人機(jī)交互界面,觸屏或鍵盤(pán)鼠標(biāo)將變?yōu)樽匀徽Z(yǔ)言對(duì)話(huà)。

的確,AIGC 和 RTE 正在上演一個(gè)共生、突破和顛覆的篇章。



二、突破:RTE 在多種場(chǎng)景下的新考驗(yàn)


“我們對(duì)音視頻能力的要求是智能化,希望人和設(shè)備的交互性更強(qiáng),對(duì)話(huà)延遲更低,在設(shè)備上呈現(xiàn)的視頻畫(huà)面也能更加清晰、智能?!痹?0月25日舉辦的 RTE??AIGC 閉門(mén)研討會(huì)上,國(guó)內(nèi)某 VR 眼鏡的設(shè)備廠(chǎng)商如是說(shuō)。

的確,當(dāng)下各行業(yè)對(duì)音視頻能力的要求已是今非昔比。

過(guò)去,更加側(cè)重于傳輸?shù)姆€(wěn)定性、清晰度、安全性等方面,傳統(tǒng) RTC 從 Communication 的視角出發(fā),只要能滿(mǎn)足對(duì)語(yǔ)義信息的高質(zhì)量、高效率傳遞,即是優(yōu)秀的表現(xiàn),其使用場(chǎng)景也集中于音視頻通話(huà)、視頻會(huì)議、在線(xiàn)課堂等。

而當(dāng)下,則更加強(qiáng)調(diào)用戶(hù)實(shí)時(shí)互動(dòng)體驗(yàn)的質(zhì)量,RTE  從 Engagement 的視角出發(fā),希望能夠達(dá)到時(shí)空的共享,諸如 K 歌合唱、云蹦迪、虛擬演唱會(huì)等新興場(chǎng)景也不斷涌現(xiàn)。

可以說(shuō),從 RTC 到 RTE、從Communication 到 Engagement,是實(shí)時(shí)交互從基礎(chǔ)能力向場(chǎng)景能力的進(jìn)化。而要實(shí)現(xiàn)這個(gè)進(jìn)化,AI 能力的添加是必不可少的部分。

尤其是疫情以來(lái),用戶(hù)對(duì)實(shí)時(shí)互動(dòng)體驗(yàn)提出了更高要求。諸如教育、泛娛樂(lè)、金融、IoT 等各個(gè)行業(yè)也開(kāi)始探索用 AI 賦能 RTE。

而線(xiàn)上教育尤為甚之。一方面,用戶(hù)期待使用 AI 能力在線(xiàn)上教室中達(dá)到音頻的強(qiáng)降噪和高保真,最好能夠強(qiáng)力抑制 100+ 種突發(fā)噪聲,降噪算法的性能較之前也需得到較大的提升;另一方面,希望看到高畫(huà)質(zhì)、低碼率的高清視頻,能夠?qū)崿F(xiàn) 2K60fps 的視頻和屏幕共享實(shí)時(shí)處理。

針對(duì)線(xiàn)上教育領(lǐng)域,聲網(wǎng)教育行業(yè)負(fù)責(zé)人錢(qián)奮在大會(huì)上分享了智慧教室方案,這是 RTE??AIGC 的實(shí)踐之一。

智慧教室中使用聲網(wǎng)鳳鳴 AI 引擎,擁有AI 降噪能力,獨(dú)創(chuàng)以人聲為對(duì)象的深度學(xué)習(xí)建模算法,能夠精準(zhǔn)分離人聲和噪聲,使得師生聽(tīng)到的聲音更純凈。同時(shí),AI 回聲消除能力可以抑制非線(xiàn)性回聲,回聲殘留率低至0.1%,雙講語(yǔ)音保護(hù)高達(dá) 90%,使得聲音更清晰。

值得一提的是,鳳鳴 AI 引擎也能自適應(yīng) AI 調(diào)試音頻參數(shù),動(dòng)態(tài)預(yù)估回聲延時(shí),讓設(shè)備維護(hù)的過(guò)程更加更簡(jiǎn)單。

除了在線(xiàn)教育之外,泛娛樂(lè)領(lǐng)域也廣泛地運(yùn)用AI能力。

為了使新一代泛娛樂(lè)視頻產(chǎn)品有“超級(jí)畫(huà)質(zhì)”,在保證「人更美」、「溝通更流暢」的基礎(chǔ)上,開(kāi)發(fā)了「AI 攝影師」,通過(guò)視頻算法,可以實(shí)現(xiàn)對(duì)專(zhuān)業(yè)攝像機(jī)移動(dòng)機(jī)位、變焦、模擬燈光效果的模擬。

目前較受歡迎的玩法有 AI 人像邊緣光、 AI 鏡頭律動(dòng)、AI 人像光影、AI 追光打光、AI 虛擬背景打光等,可以通過(guò) AI 算法去增加畫(huà)面中的特效。

打造 24 小時(shí)在線(xiàn)玩家:AIGC 時(shí)代,RTE 的冒險(xiǎn)與突破

「這一系列功能目前在各大APP 上是很受歡迎的,用戶(hù)對(duì)這種功能的使用率幾乎可以達(dá)到100%?!孤暰W(wǎng)泛娛樂(lè)產(chǎn)品總監(jiān)李斯特在論壇上演講時(shí)說(shuō)到。

同時(shí),聲網(wǎng)也在積極用鳳鳴 AI 引擎打造下一代音頻社交的能力。李斯特表示,聲網(wǎng)實(shí)現(xiàn)了百人合唱、一站接入,突破了百人合唱的關(guān)鍵技術(shù),采用云端合流模式,使得主伴唱人聲和 BGM 通過(guò)云端合流轉(zhuǎn)碼同步到觀(guān)眾端。AI 還實(shí)現(xiàn)了「優(yōu)聲優(yōu)唱」功能,能夠?qū)铣哌M(jìn)行打分,優(yōu)選唱得好的進(jìn)入合唱流,以保證聽(tīng)眾體驗(yàn)。

除此之外,聲網(wǎng) IoT 行業(yè)產(chǎn)品總監(jiān)馮曉東分享了智能家居領(lǐng)域 RTE 和 AIGC 結(jié)合的案例、華為云媒體服務(wù)資深產(chǎn)品經(jīng)理盧志航從政企數(shù)字化轉(zhuǎn)型的角度剖析了音視頻底座的重要性。

由此可見(jiàn),用戶(hù)更高的實(shí)時(shí)體驗(yàn)要求催生了聲網(wǎng)更智能化的 RTE,聲網(wǎng) RTE??AIGC 方案也在多個(gè)領(lǐng)域得到了切實(shí)的應(yīng)用。


三、共生:RTE 結(jié)合 AI 之后


「在過(guò)去的12個(gè)月里,我們投入了巨大的精力和時(shí)間,成為了行業(yè)里面第一家能夠提供 RTE??AIGC 能力模塊的服務(wù)商。這個(gè)能力模塊使我們看到,大模型進(jìn)化雖然到了今天這個(gè)程度,但絕大多數(shù)交互界面仍然是文字聊天的方式?!孤暰W(wǎng) CEO 趙斌在10月24日的主論壇演講時(shí)說(shuō)道。

文本交互的技術(shù)門(mén)檻較低,但其總是免不了單調(diào),只能單一、線(xiàn)性地輸入、輸出問(wèn)題,缺少對(duì)情感、語(yǔ)流語(yǔ)調(diào)的感知,人機(jī)之間的互動(dòng)效果也不盡人意。并且,文本輸入相對(duì)于語(yǔ)音輸入,需要持續(xù)手動(dòng)編輯文字,交互頻率和效率也會(huì)大打折扣。

雖然最近 ChatGPT- 4 提供了語(yǔ)音對(duì)話(huà)能力,但基本上只能局限于自身平臺(tái),很難通用地和各種不同的大模型平臺(tái)結(jié)合。

聲網(wǎng)所提供的 RTE??AIGC 模塊,可以跟其他模型平臺(tái)結(jié)合,包括私有化部署的開(kāi)源小規(guī)模模型,能夠把文字交流的互動(dòng)方式轉(zhuǎn)化成接近自然對(duì)話(huà)的語(yǔ)音對(duì)話(huà)。

語(yǔ)音對(duì)話(huà)相比文字對(duì)話(huà)會(huì)提供更強(qiáng)的沉浸感,更自然的交流模式以及接近人與人對(duì)話(huà)的低延遲體驗(yàn)。

「這一方案還能解決 AI 互動(dòng)場(chǎng)景整體開(kāi)發(fā)上線(xiàn)難度大的問(wèn)題,一些開(kāi)發(fā)者缺少 AIGC 所需的開(kāi)發(fā)經(jīng)驗(yàn)和能力儲(chǔ)備,也沒(méi)有足夠的閑暇時(shí)間進(jìn)行場(chǎng)景調(diào)研和玩法設(shè)計(jì),聲網(wǎng)的整體解決方案就可以來(lái)幫助快速上線(xiàn)參考?!孤暰W(wǎng) AIGC 產(chǎn)品負(fù)責(zé)人杜浦對(duì)雷峰網(wǎng)說(shuō)到。

聲網(wǎng) RTE??AIGC SDK 能夠靈活調(diào)用國(guó)內(nèi)外的主流大模型,亦可以進(jìn)行開(kāi)源?模型的私有化部署。

除模型能力以外,RTE??AIGC 的解決方案也擁有較強(qiáng)的語(yǔ)音能力,可以實(shí)現(xiàn) AI 實(shí)時(shí)變聲、聲音克隆,能保留多倫對(duì)話(huà)的記憶,還可以用語(yǔ)音驅(qū)動(dòng)虛擬分身。

基于 AIGC 和 RTE 的合力,聲網(wǎng)能以實(shí)時(shí)音視頻+實(shí)時(shí)消息+虛擬形象的方式,提供相較于其他音視頻解決方案更沉浸的視聽(tīng)體驗(yàn)。

以這些能力為基礎(chǔ),聲網(wǎng) AIGC 產(chǎn)品團(tuán)隊(duì)打通了 1v1 語(yǔ)音聊天、語(yǔ)音群聊、視頻直播的幾個(gè)產(chǎn)品方向。

AI 語(yǔ)音助手是其中的典型代表。從用戶(hù)發(fā)言到 AI 助手響應(yīng)對(duì)話(huà),這其中需要完成級(jí)別所有句子、判斷語(yǔ)音結(jié)束、AI 生成流式回答、語(yǔ)音合成數(shù)據(jù)返回、語(yǔ)音驅(qū)動(dòng)嘴形者五個(gè)過(guò)程,但平均時(shí)延為 1.9 秒,高于行業(yè)內(nèi)平均水平。



打造 24 小時(shí)在線(xiàn)玩家:AIGC 時(shí)代,RTE 的冒險(xiǎn)與突破

無(wú)論是語(yǔ)音助手、語(yǔ)音群聊還是數(shù)字人視頻直播的形式,背后都需要有聲網(wǎng)的 AIGC 能力支持。鳳鳴 AI 引擎無(wú)疑是聲網(wǎng)形成自身獨(dú)特優(yōu)勢(shì)的「功臣」之一。

在24日下午的音視頻技術(shù)專(zhuān)場(chǎng)中,聲網(wǎng)音頻算法專(zhuān)吳渤公布了兼顧強(qiáng)降噪和高保真的損失函數(shù)。為了實(shí)現(xiàn) AI 音頻降噪,還融合了AIVAD 避免抑制人聲,融合了AIMD 以避免損傷伴奏,并分享了噪聲和混響一直一體化的訓(xùn)練策略。

除鳳鳴 AI 引擎之外,人設(shè)對(duì)話(huà)中的大語(yǔ)言模型技術(shù)也是另一位「功臣」。在 AI+RTE專(zhuān)場(chǎng)的演講中,聲網(wǎng) AIGC 算法工程師李忻瑋講解了使用商業(yè)達(dá)模型時(shí)如何構(gòu)建人設(shè)對(duì)話(huà)中人格、記憶、能力者三個(gè)關(guān)鍵要素,并分享了 RTE??AIGC 的解決方案架構(gòu)圖。

打造 24 小時(shí)在線(xiàn)玩家:AIGC 時(shí)代,RTE 的冒險(xiǎn)與突破

RTE 結(jié)合 AIGC 之后,整個(gè)生態(tài)得以「更上一層樓」。


本文作者長(zhǎng)期關(guān)注 AIGC 的落地與應(yīng)用,歡迎添加微信:s1060788086,聊聊行業(yè),互通有無(wú)~




雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

打造 24 小時(shí)在線(xiàn)玩家:AIGC 時(shí)代,RTE 的冒險(xiǎn)與突破

分享:
相關(guān)文章
當(dāng)月熱門(mén)文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話(huà)
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶(hù)安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)