0
本文作者: 陳淑瑜 | 2025-05-30 15:44 |
作者丨王悅
編輯丨陳彩嫻
上個(gè)月,字節(jié)跳動(dòng)旗下 Agent「扣子空間」上線之初,曾經(jīng)一度被擠爆服務(wù)器,全網(wǎng)分享內(nèi)測(cè)碼。
經(jīng)過一個(gè)月時(shí)間的沉淀,AI 科技評(píng)論發(fā)現(xiàn)了扣子空間最新上線了一個(gè)新玩法—— 一鍵生成播客。
相比于主打任務(wù)規(guī)劃與執(zhí)行的通用 Agent,AI 播客 Agent 需要的能力確實(shí)更豐富,內(nèi)容理解、多模態(tài)融合、語(yǔ)音合成、情感表達(dá)、多角色模擬、對(duì)話邏輯等能力都不可或缺,這對(duì)多模態(tài)性能有很大挑戰(zhàn)。
市面上具備一鍵生成播客能力的 AI 產(chǎn)品并不多。谷歌 NotebookLM 的音頻功能也可以將用戶上傳的文檔、筆記、網(wǎng)頁(yè)等內(nèi)容轉(zhuǎn)換為一段類似播客的音頻對(duì)話,但目前在中文語(yǔ)音合成的自然度和情感表達(dá)上尚有不足,相比之下,扣子空間在中文語(yǔ)境中更有優(yōu)勢(shì)。
接下來(lái)一起實(shí)測(cè)一下扣子空間。
1、Agent 一鍵生成播客,比真人還絲滑
以 AI 科技評(píng)論發(fā)布的一篇對(duì) Trans-N.ai 聯(lián)創(chuàng)孫又晗的專訪《前小馬智行孫又晗創(chuàng)立 Trans-N.ai,出海日本獲最大種子輪融資》為例,如果想把文字版的內(nèi)容對(duì)應(yīng)地轉(zhuǎn)化成兼具聲音、文字、圖片的完整的播客形式,則需要經(jīng)歷完整的生產(chǎn)流程。
在內(nèi)容上,需要?jiǎng)?chuàng)作者花費(fèi)時(shí)間尋找創(chuàng)意和構(gòu)思腳本;在音頻制作上,則涉及硬件設(shè)備、剪輯軟件、實(shí)際錄制、手動(dòng)剪輯、降噪處理等多個(gè)環(huán)節(jié),整個(gè)過程需要投入大量的時(shí)間和精力。
而如果用扣子空間打開這期播客,只需直接在對(duì)話框中輸入你的需求:請(qǐng)根據(jù)這篇文章生成一期播客,無(wú)需其他操作,即可一鍵獲得完整的播客內(nèi)容。
扣子空間生成的結(jié)果是:
首先必須要說的是,這段播客語(yǔ)音幾乎100%尊重原文文字,沒有出現(xiàn)胡編亂造的情況。其次,對(duì)話的 AI 主播語(yǔ)氣生動(dòng)自然,對(duì)長(zhǎng)句的拆分準(zhǔn)確,在轉(zhuǎn)折之處還能聽到情緒的變化。并且雙方問答的形式很自然,有對(duì)話感。
原鏈接:
https://space.coze.cn/web?uri=7509674506227892287%2F
面對(duì)幾千字的文字專訪,扣子空間能理解和生成效果生動(dòng)自然的播客,大家也可以自己嘗試一下效果!如果上升一個(gè)難度,發(fā)送一個(gè)幾萬(wàn)字的長(zhǎng)文檔,并且語(yǔ)言相對(duì)學(xué)術(shù)、艱深,扣子空間又該如何應(yīng)對(duì)?
喂給扣子空間如下一篇論文,主題為《晚清天文學(xué)譯詞考察——以五種天文學(xué)譯著為中心》,共17頁(yè)P(yáng)DF的篇幅,其中包含大量天文學(xué)專業(yè)術(shù)語(yǔ):
論文鏈接:
https://wap.cnki.net/touch/web/Journal/Article/YWZS202404003.html
將這篇論文生成一期播客,扣子給出的答案是:
整段播客對(duì)話可以說是專業(yè)電臺(tái)主播的即視感。從內(nèi)容理解和表達(dá)方面,口語(yǔ)化表達(dá)平衡了學(xué)術(shù)內(nèi)容的嚴(yán)肅感,且邏輯清晰,循序漸進(jìn)地探討了譯詞的特點(diǎn)、來(lái)源、演變及研究意義,信息密度高。AI 男女主播問答配合自然,語(yǔ)氣輕松。
原鏈接:https://space.coze.cn/s/gVBbqAmdDNI/
跳出專業(yè)性強(qiáng)的內(nèi)容,如果是生活化、輕松的通用話題,扣子空間能否準(zhǔn)確get到五花八門的prompt要求,并生成富有表現(xiàn)力的內(nèi)容。
喂給扣子空間如下一篇小紅書筆記,要求根據(jù)這篇筆記生成一個(gè)“彩虹屁“播客。
扣子空間生成了如下播客:
拌面天才的故事,AI科技評(píng)論,1分鐘
這段音頻中,不僅尊重了字?jǐn)?shù)有限的小紅書文案,還能自動(dòng)合理化生成一些非原文的內(nèi)容,如男主播調(diào)侃“這話題聽著就餓”,更加貼合人類語(yǔ)境。而且,音頻對(duì)話節(jié)奏明快,符合播客的娛樂屬性,營(yíng)造了人類主播的氛圍感。
原鏈接:
https://space.coze.cn/task/7509671279084535819
再上升一個(gè)難度,讓扣子空間圍繞“2025端午節(jié)龍舟賽”這樣的實(shí)時(shí)熱點(diǎn)話題,生成一期新聞熱點(diǎn)的時(shí)評(píng)播客:
從實(shí)時(shí)熱點(diǎn)的內(nèi)容捕捉上來(lái)看,扣子空間能捕捉到南昌國(guó)際賽、深圳福田邀請(qǐng)賽等賽事,信息豐富且數(shù)據(jù)翔實(shí)。并且,AI主播在講解時(shí)的表現(xiàn)富有感染力,語(yǔ)氣詞的增加也跟自然擬真。
原鏈接:
https://space.coze.cn/task/7509769633264795699
2、不止「一鍵生成播客」
經(jīng)過數(shù)十個(gè)案例的測(cè)評(píng),AI 科技評(píng)論發(fā)現(xiàn),扣子空間的能力并不局限于一鍵生成播客,它更像是一個(gè),精通各項(xiàng)技能的「通用實(shí)習(xí)生」,并且這個(gè)「實(shí)習(xí)生」背后有各行各業(yè)的專家作為支持,無(wú)論是在生活、學(xué)習(xí)還是工作場(chǎng)景,扣子空間都能專業(yè)、及時(shí)地響應(yīng)你的個(gè)性化需求。
Agent 搜圖
AI 圖像處理技術(shù)雖然在現(xiàn)階段已被大量使用,但在特定場(chǎng)景下生成的圖片仍存在「AI味兒」過重、與文字搭配不自然、與真實(shí)場(chǎng)景差距大、無(wú)法滿足嚴(yán)肅創(chuàng)作需求的問題。最終,不得不手工使用搜索引擎,一張一張地去尋找與需求相關(guān)的圖片
扣子空間的 Agent 搜圖能力則更全面、準(zhǔn)確。輸入prompt:寫一篇詳細(xì)的烏蘭察布的旅游指南,重點(diǎn)介紹值得一去的景點(diǎn)和當(dāng)?shù)氐奶厣朗?,要求圖文并茂。得到的答案是:
在這份攻略中,美食、美景圖片能夠和文字準(zhǔn)確對(duì)應(yīng)??圩涌臻g不僅能夠在海量的圖片資源中搜到高質(zhì)量的真實(shí)圖片,還具備強(qiáng)大的視覺理解能力,準(zhǔn)確地理解每張圖片所包含的內(nèi)容。
再拿云南毒蘑菇宣傳科普文為例,要將毒蘑菇圖片和文字介紹準(zhǔn)確對(duì)應(yīng),扣子空間給出的結(jié)果是:
點(diǎn)擊查看完整內(nèi)容:
https://space.coze.cn/task/7509763333772394535
不僅圖片和文字對(duì)應(yīng)正確,扣子空間生成的內(nèi)容更全面,共給出了39種蘑菇圖片和介紹。
深度分析、多種形式呈現(xiàn)能力
工作或?qū)W習(xí)過程中,針對(duì)某一話題展開調(diào)研是常見需求,通常需要快速針對(duì)某一事件進(jìn)行調(diào)研、收集海量信息,再條理清晰地呈現(xiàn)出來(lái)。
例如,電商運(yùn)營(yíng)場(chǎng)景中,將特定產(chǎn)品在某電商平臺(tái)的1000條用戶評(píng)論給到扣子空間,要求進(jìn)行深度分析,用可視化的方式呈現(xiàn),得到的結(jié)果是:
再拋給扣子空間一個(gè)數(shù)十頁(yè) PDF 的智能眼鏡訪談?dòng)涗浳臋n:
提出的需求僅為“幫我總結(jié)訪談?dòng)涗洝保瑹o(wú)需進(jìn)行更多的交互,扣子空間就能輸出如下結(jié)果:
完整結(jié)果可查看:
https://space.coze.cn/share/7494547494739640339?share_id=7494545764463558696&secret=DCttdruU&from=landingpage
在這兩個(gè)案例中,扣子空間既能快速地處理海量文檔,同時(shí)也能用多種圖表的多種方式進(jìn)行呈現(xiàn),起碼完成 80% 的任務(wù)。
無(wú)門檻寫代碼、開發(fā)工具
扣子空間能幫助小白用戶寫程序、代碼,隨心所欲打造生活場(chǎng)景中的小工具。
以開發(fā)一個(gè)健康營(yíng)養(yǎng)計(jì)算器為例,在扣子空間中輸入prompt:幫我寫一個(gè)程序,讓用戶輸入身高體重年齡性別,這些值最好是讓用戶自己輸入,不要給默認(rèn)值,然后計(jì)算出基礎(chǔ)代謝,最好這個(gè)值計(jì)算之后可以人為去修改。
在這一過程中,開發(fā)者在扣子空間進(jìn)行了多輪調(diào)優(yōu),完整交互過程:https://space.coze.cn/share-coding-expert/7504570762884956199
扣子空間呈現(xiàn)的是:
最終效果可點(diǎn)擊鏈接進(jìn)行體驗(yàn):
https://space.coze.cn/coding-expert-runtime/23316497154
在這一過程中,扣子空間能夠自主規(guī)劃開發(fā)任務(wù)、智能生成優(yōu)質(zhì)代碼、自動(dòng)進(jìn)行完整測(cè)試,還能根據(jù)開發(fā)者需求精準(zhǔn)修改代碼。
多種實(shí)用網(wǎng)站開發(fā)
扣子空間也能幫助非技術(shù)人員,自行開發(fā)出高質(zhì)量的多種類型網(wǎng)站,如游戲網(wǎng)站、機(jī)構(gòu)官方網(wǎng)站、教學(xué)互動(dòng)網(wǎng)站。
以游戲網(wǎng)站為例,prompt 的要求是:幫我做一個(gè)治愈島·心靈小憩小網(wǎng)站,具體圖片使用給定鏈接,整體風(fēng)格偏治愈系和可愛。旨在放松身心,鼓舞人心,每一個(gè)畫面的大小請(qǐng)自動(dòng)調(diào)節(jié)到適應(yīng)不同設(shè)備。
完整交互過程可參考:
https://space.coze.cn/share-coding-expert/7505408659062112292
可點(diǎn)擊鏈接進(jìn)行體驗(yàn):
https://space.coze.cn/coding-expert-runtime/50873856770
工作場(chǎng)景中制作小而美的交互性網(wǎng)站,扣子空間也能輕松拿捏。
輸入prompt:請(qǐng)根據(jù)高中物理必修2的拋物線運(yùn)動(dòng),總結(jié)不同題型,設(shè)計(jì)一個(gè)html語(yǔ)言的教學(xué)演示。必要的結(jié)果需包括:手動(dòng)設(shè)置初速度、角度、重力加速度、風(fēng)力,演示過程中要留下拋物線痕跡(虛線)。請(qǐng)你再分析不同情況,完善需求,制作 html。得到的結(jié)果是:
、
完整效果可查看:
https://space.coze.cn/coding-expert-runtime/213626924546
3、結(jié)語(yǔ)
縱觀市面上的 Agent 操作系統(tǒng),一類是通用型 AI 智能體,主打任務(wù)規(guī)劃與執(zhí)行、信息收集與處理、自主操作能力;另一類是低代碼或無(wú)代碼開發(fā)平臺(tái)型 Agent,主打降低開發(fā)門檻,讓普通用戶也能快速構(gòu)建定制化智能體。字節(jié)的扣子空間則兼具了通用能力和低代碼、易開發(fā)的特點(diǎn)。
扣子空間生產(chǎn)力的進(jìn)一步提升,加之專家Agent生態(tài)的加持、集成MCP后的能力邊界拓展,都讓其更加成為工作、學(xué)習(xí)、生活的最佳AI拍檔。
而一個(gè)強(qiáng)大的Agent背后,是多模態(tài)能力和推理能力在支撐。
扣子空間「一鍵生成播客」能力的表現(xiàn),既凸顯了字節(jié)在多模態(tài)方面的強(qiáng)勢(shì),也展現(xiàn)了字節(jié)在 Agent 這一賽道的產(chǎn)品化、工程化實(shí)力。
雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。