丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給王悅
發(fā)送

0

打造 24 小時在線玩家:AIGC 時代,RTE 的冒險與突破

本文作者: 王悅 2023-10-31 15:09
導語:AIGC 在 RTE 領域掀起一輪新的風暴。


作者丨王   悅

編輯丨陳彩嫻

2023 年下半年,產(chǎn)品與應用成為 GPT 討論的話題中心。相比模型的參數(shù)與能力,AIGC 的落地更能考驗各個廠商的“秀肌肉”。

這其中,有著廣大用戶基礎的實時互動技術(RTE)場景順理成章地和 AIGC 進行了緊密地耦合,而游戲AI 就是兩者結(jié)合的一次探索和嘗試。

以家喻戶曉的角色扮演類推理游戲《誰是臥底》為例,這類游戲往往同時有多位玩家在線互動,要求玩家實時反應,并輸出符合常識的邏輯推理,一度被認為是 GPT 技術的“攔路虎”。但現(xiàn)在,也已經(jīng)被國內(nèi)的技術廠商完美解決!

在 10 月24-25 日聲網(wǎng)所舉辦的 RTE 2023 實時互聯(lián)網(wǎng)大會上,雷峰網(wǎng)(公眾號:雷峰網(wǎng))發(fā)現(xiàn),《誰是臥底》這種類型的游戲已經(jīng)可以用 RTE ? AIGC 的方式“重做一遍”,可支持多名真人玩家實時在線互動,在用 RTE 技術保障音視頻可以敏捷響應的同時,還可以用 AI 驅(qū)動虛擬玩家,毫不違和地融入游戲中。

打造 24 小時在線玩家:AIGC 時代,RTE 的冒險與突破

雷峰網(wǎng)觀察到,即使在游戲中需要實時計算、推理信息然后快速輸出語音的情況下,AI 角色也能應對地游刃有余,沒有以往的反應遲緩或答非所問,完全融入真人的游戲場景中。

此外,主持人還可以向游戲背后的大模型提出需求,大模型對其他玩家輸出的信息進行理解和處理后,會將判斷出的線索及時反饋給主持人,增加了游戲的豐富度與趣味度。

用 AIGC 打造虛擬角色、生成虛擬互動對話內(nèi)容、進行角色之間的情感計算等,這在過去是“天方夜譚”,而今卻是觸手可及,這背后離不開 AI 和 RTE 技術的雙雙進步。

聲網(wǎng)創(chuàng)始人兼 CEO 趙斌感慨,在過去的一年中,利用 AI 能力對音視頻領域進行賦能,使得沉浸感與真實感的效果獲得了突飛猛進的進步。

在 AIGC 技術的加持下,今年的聲網(wǎng) RTE 大會除了“高清”,也首次將另一個目標提到了同等高度:智能。

GPT 時代,RTE 有了新的可能性。



一、顛覆:AIGC 變革 RTE


疫情消散后,RTE 用戶基數(shù)和用量保持穩(wěn)定增長,RTE 場景用戶規(guī)模持續(xù)擴張。

之前的 RTE 「大戶」——泛娛樂領域,用戶仍然保持持續(xù)增長狀態(tài),增速跑贏大盤。

而今年不同的是,流媒體直播領域?qū)?RTC 的使用逐漸增長,其中WebRTC 流媒體直播觀眾數(shù)日增量 15000 人,聲網(wǎng)極速直播用量相較于 2022 年增長 400%。

在 RTE 領域保持良好勢頭的同時,AI 的突飛猛進會給 RTE 的發(fā)展帶來哪些新機遇?

趙斌指出了聲網(wǎng)把握住的三個方面:

一是音頻 + AI ,將以鳳鳴 AI 引擎為支撐,使音頻邁向極致沉浸 + 極致擬真的方向;

二是視頻 + AI,將會實現(xiàn)畫質(zhì)提升、AI 美顏、虛擬背景、AI 驅(qū)動表情+動作,使視頻更美、更真、更好看;

三是虛擬人 + AIGC ,虛擬人將能解決社交供需不平衡的問題,引領交互對象變化,AI 助理、AI 女友、AI 玩家會逐漸被接受,最終創(chuàng)造情感和情緒價值。

AIGC 除了給 RTE 帶來機遇外,也切實提高了應用開發(fā)效率,同時產(chǎn)生了對高質(zhì)量 API 的更強需求,云原生應用可能分為 API + APP 兩層。

“AIGC 這么強大,我們一起用它做點什么吧!”會場屏幕的黑色背景中出現(xiàn)了這樣一句話。隨即,趙斌一頁一頁翻開 PPT,向大家娓娓道來 AIGC 對 RTE 領域帶來的顛覆與變革:

聲網(wǎng)首創(chuàng) RTE??AIGC,讓各種大模型都能實時語音對話,進而賦能行業(yè)場景下 AIGC 實時音頻“聊天”、“自然語言對話”玩法;

在提升 QoE 體驗層面,AIGC 能展示對用戶留存和使用行為的強大影響,比如從表情升級高清使得打賞率大幅提升、CDN 升級極速直播使得送禮率增長 12.3%、AI 降噪開啟后可降低音頻流量成本10%+;

RTE + 企業(yè)服務層面,企業(yè)音視頻眾泰正在改變“煙囪式”系統(tǒng)建設,無所不達的實時網(wǎng)絡+無所不及的音視頻能力,成為企業(yè)數(shù)字化轉(zhuǎn)型的重要支撐;

RTE + IoT 層面,構(gòu)建人、車、家的智能化生態(tài),實時互動正在成為智能家居新標配;

在主論壇的圓桌對話中,喜馬拉雅首席科學家盧恒也表示,作為全國最大的有聲內(nèi)容平臺,喜馬拉雅從文本處理到音頻內(nèi)容生成的過程中都使用了大量的AI技術,目前,AIGC 生成的音頻內(nèi)容日均播放量已超過250萬小時。

10月24日,在RTE 2023大會主論壇的首個演講即將結(jié)束之際,趙斌對 RTE 行業(yè)的未來提出了六點展望的方向,其中一個是:AIGC 將為每個人創(chuàng)造替身、分身。

這一點,與隨后演講的聲網(wǎng)首席科學家、CTO 鐘聲不謀而合?!癆GI 將走進實時互動,實現(xiàn)人人可分身,幫助在應用場景中復制名師、網(wǎng)紅,甚至普通人也將通過AI分身豐富體驗、緩解時間稀缺的瓶頸?!?/p>

Founders Space創(chuàng)始人兼CEO 史蒂夫·霍夫曼在演講中同樣也分享了相似的觀點。他認為,在AI賦能的RTE未來,我們將看到每個人都會擁有更加個性化的體驗,更加動態(tài)的程序?qū)㈦S著圖形、音頻、視頻的實時變化而變化,AI將帶來前所未有的連接方式。在更深層次上,AI還將為人類提高生產(chǎn)力水平,帶來動態(tài)的虛擬世界,感受到更多的沉浸體驗。

趙斌預測的另一個方向是:AIGC 顛覆主流人機交互界面,觸屏或鍵盤鼠標將變?yōu)樽匀徽Z言對話。

的確,AIGC 和 RTE 正在上演一個共生、突破和顛覆的篇章。



二、突破:RTE 在多種場景下的新考驗


“我們對音視頻能力的要求是智能化,希望人和設備的交互性更強,對話延遲更低,在設備上呈現(xiàn)的視頻畫面也能更加清晰、智能?!痹?0月25日舉辦的 RTE??AIGC 閉門研討會上,國內(nèi)某 VR 眼鏡的設備廠商如是說。

的確,當下各行業(yè)對音視頻能力的要求已是今非昔比。

過去,更加側(cè)重于傳輸?shù)姆€(wěn)定性、清晰度、安全性等方面,傳統(tǒng) RTC 從 Communication 的視角出發(fā),只要能滿足對語義信息的高質(zhì)量、高效率傳遞,即是優(yōu)秀的表現(xiàn),其使用場景也集中于音視頻通話、視頻會議、在線課堂等。

而當下,則更加強調(diào)用戶實時互動體驗的質(zhì)量,RTE  從 Engagement 的視角出發(fā),希望能夠達到時空的共享,諸如 K 歌合唱、云蹦迪、虛擬演唱會等新興場景也不斷涌現(xiàn)。

可以說,從 RTC 到 RTE、從Communication 到 Engagement,是實時交互從基礎能力向場景能力的進化。而要實現(xiàn)這個進化,AI 能力的添加是必不可少的部分。

尤其是疫情以來,用戶對實時互動體驗提出了更高要求。諸如教育、泛娛樂、金融、IoT 等各個行業(yè)也開始探索用 AI 賦能 RTE。

而線上教育尤為甚之。一方面,用戶期待使用 AI 能力在線上教室中達到音頻的強降噪和高保真,最好能夠強力抑制 100+ 種突發(fā)噪聲,降噪算法的性能較之前也需得到較大的提升;另一方面,希望看到高畫質(zhì)、低碼率的高清視頻,能夠?qū)崿F(xiàn) 2K60fps 的視頻和屏幕共享實時處理。

針對線上教育領域,聲網(wǎng)教育行業(yè)負責人錢奮在大會上分享了智慧教室方案,這是 RTE??AIGC 的實踐之一。

智慧教室中使用聲網(wǎng)鳳鳴 AI 引擎,擁有AI 降噪能力,獨創(chuàng)以人聲為對象的深度學習建模算法,能夠精準分離人聲和噪聲,使得師生聽到的聲音更純凈。同時,AI 回聲消除能力可以抑制非線性回聲,回聲殘留率低至0.1%,雙講語音保護高達 90%,使得聲音更清晰。

值得一提的是,鳳鳴 AI 引擎也能自適應 AI 調(diào)試音頻參數(shù),動態(tài)預估回聲延時,讓設備維護的過程更加更簡單。

除了在線教育之外,泛娛樂領域也廣泛地運用AI能力。

為了使新一代泛娛樂視頻產(chǎn)品有“超級畫質(zhì)”,在保證「人更美」、「溝通更流暢」的基礎上,開發(fā)了「AI 攝影師」,通過視頻算法,可以實現(xiàn)對專業(yè)攝像機移動機位、變焦、模擬燈光效果的模擬。

目前較受歡迎的玩法有 AI 人像邊緣光、 AI 鏡頭律動、AI 人像光影、AI 追光打光、AI 虛擬背景打光等,可以通過 AI 算法去增加畫面中的特效。

打造 24 小時在線玩家:AIGC 時代,RTE 的冒險與突破

「這一系列功能目前在各大APP 上是很受歡迎的,用戶對這種功能的使用率幾乎可以達到100%?!孤暰W(wǎng)泛娛樂產(chǎn)品總監(jiān)李斯特在論壇上演講時說到。

同時,聲網(wǎng)也在積極用鳳鳴 AI 引擎打造下一代音頻社交的能力。李斯特表示,聲網(wǎng)實現(xiàn)了百人合唱、一站接入,突破了百人合唱的關鍵技術,采用云端合流模式,使得主伴唱人聲和 BGM 通過云端合流轉(zhuǎn)碼同步到觀眾端。AI 還實現(xiàn)了「優(yōu)聲優(yōu)唱」功能,能夠?qū)铣哌M行打分,優(yōu)選唱得好的進入合唱流,以保證聽眾體驗。

除此之外,聲網(wǎng) IoT 行業(yè)產(chǎn)品總監(jiān)馮曉東分享了智能家居領域 RTE 和 AIGC 結(jié)合的案例、華為云媒體服務資深產(chǎn)品經(jīng)理盧志航從政企數(shù)字化轉(zhuǎn)型的角度剖析了音視頻底座的重要性。

由此可見,用戶更高的實時體驗要求催生了聲網(wǎng)更智能化的 RTE,聲網(wǎng) RTE??AIGC 方案也在多個領域得到了切實的應用。


三、共生:RTE 結(jié)合 AI 之后


「在過去的12個月里,我們投入了巨大的精力和時間,成為了行業(yè)里面第一家能夠提供 RTE??AIGC 能力模塊的服務商。這個能力模塊使我們看到,大模型進化雖然到了今天這個程度,但絕大多數(shù)交互界面仍然是文字聊天的方式?!孤暰W(wǎng) CEO 趙斌在10月24日的主論壇演講時說道。

文本交互的技術門檻較低,但其總是免不了單調(diào),只能單一、線性地輸入、輸出問題,缺少對情感、語流語調(diào)的感知,人機之間的互動效果也不盡人意。并且,文本輸入相對于語音輸入,需要持續(xù)手動編輯文字,交互頻率和效率也會大打折扣。

雖然最近 ChatGPT- 4 提供了語音對話能力,但基本上只能局限于自身平臺,很難通用地和各種不同的大模型平臺結(jié)合。

聲網(wǎng)所提供的 RTE??AIGC 模塊,可以跟其他模型平臺結(jié)合,包括私有化部署的開源小規(guī)模模型,能夠把文字交流的互動方式轉(zhuǎn)化成接近自然對話的語音對話。

語音對話相比文字對話會提供更強的沉浸感,更自然的交流模式以及接近人與人對話的低延遲體驗。

「這一方案還能解決 AI 互動場景整體開發(fā)上線難度大的問題,一些開發(fā)者缺少 AIGC 所需的開發(fā)經(jīng)驗和能力儲備,也沒有足夠的閑暇時間進行場景調(diào)研和玩法設計,聲網(wǎng)的整體解決方案就可以來幫助快速上線參考?!孤暰W(wǎng) AIGC 產(chǎn)品負責人杜浦對雷峰網(wǎng)說到。

聲網(wǎng) RTE??AIGC SDK 能夠靈活調(diào)用國內(nèi)外的主流大模型,亦可以進行開源?模型的私有化部署。

除模型能力以外,RTE??AIGC 的解決方案也擁有較強的語音能力,可以實現(xiàn) AI 實時變聲、聲音克隆,能保留多倫對話的記憶,還可以用語音驅(qū)動虛擬分身。

基于 AIGC 和 RTE 的合力,聲網(wǎng)能以實時音視頻+實時消息+虛擬形象的方式,提供相較于其他音視頻解決方案更沉浸的視聽體驗。

以這些能力為基礎,聲網(wǎng) AIGC 產(chǎn)品團隊打通了 1v1 語音聊天、語音群聊、視頻直播的幾個產(chǎn)品方向。

AI 語音助手是其中的典型代表。從用戶發(fā)言到 AI 助手響應對話,這其中需要完成級別所有句子、判斷語音結(jié)束、AI 生成流式回答、語音合成數(shù)據(jù)返回、語音驅(qū)動嘴形者五個過程,但平均時延為 1.9 秒,高于行業(yè)內(nèi)平均水平。



打造 24 小時在線玩家:AIGC 時代,RTE 的冒險與突破

無論是語音助手、語音群聊還是數(shù)字人視頻直播的形式,背后都需要有聲網(wǎng)的 AIGC 能力支持。鳳鳴 AI 引擎無疑是聲網(wǎng)形成自身獨特優(yōu)勢的「功臣」之一。

在24日下午的音視頻技術專場中,聲網(wǎng)音頻算法專吳渤公布了兼顧強降噪和高保真的損失函數(shù)。為了實現(xiàn) AI 音頻降噪,還融合了AIVAD 避免抑制人聲,融合了AIMD 以避免損傷伴奏,并分享了噪聲和混響一直一體化的訓練策略。

除鳳鳴 AI 引擎之外,人設對話中的大語言模型技術也是另一位「功臣」。在 AI+RTE專場的演講中,聲網(wǎng) AIGC 算法工程師李忻瑋講解了使用商業(yè)達模型時如何構(gòu)建人設對話中人格、記憶、能力者三個關鍵要素,并分享了 RTE??AIGC 的解決方案架構(gòu)圖。

打造 24 小時在線玩家:AIGC 時代,RTE 的冒險與突破

RTE 結(jié)合 AIGC 之后,整個生態(tài)得以「更上一層樓」。


本文作者長期關注 AIGC 的落地與應用,歡迎添加微信:s1060788086,聊聊行業(yè),互通有無~




雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

打造 24 小時在線玩家:AIGC 時代,RTE 的冒險與突破

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說