0
本文作者: Nemo | 2025-05-23 16:56 |
近日,豆包APP上線實時視頻通話功能,用戶在電話界面開啟視頻畫面后,豆包能基于真實場景與用戶進行實時問答互動。
(豆包打電話界面點擊視頻按鈕,即可實時視頻通話)
旅行過程中,用戶可打開視頻通話,詢問所處景點的歷史背景、特色內(nèi)容或路線規(guī)劃等。例如,用戶在故宮參觀時,可以通過視頻向“豆包”展示景點畫面,了解特定宮殿的歷史故事、建筑特色,實現(xiàn)“邊走邊聊”。在博物館、美術(shù)館等場景,也可以打開視頻通話功能,隨時問豆包展品的背景信息。
該功能基于最新的豆包視覺理解模型。模型擁有較好的內(nèi)容識別、理解推理和內(nèi)容描述能力,能夠融合視覺與語言輸入,進行綜合的深度思考和創(chuàng)作。根據(jù)圖像信息,豆包視覺理解模型還能完成諸多復雜的邏輯計算任務,包括解微積分題、分析論文圖表、診斷真實代碼問題等挑戰(zhàn)性任務。
此外,為進一步提升對話的準確性與時效性,豆包視頻通話功能還接入了聯(lián)網(wǎng)搜索能力,實時獲取互聯(lián)網(wǎng)最新信息。
去年底,豆包上線圖片理解功能,支持上傳圖片后識別內(nèi)容,包括理解梗圖等。如今,豆包進一步升級,將視覺理解能力延伸到視頻場景,讓用戶在生活場景中直接互動,大幅降低用戶的交互門檻,打造邊看邊聊的智能化體驗。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。