0
本文作者: Nemo | 2025-06-02 15:45 |
5月31日,敦煌研究院宣布“數字藏經洞”數據庫平臺正式上線,9900多卷敦煌文書經卷、60700多幅圖像的數字化版本將與全球用戶零距離接觸,內容涵蓋佛經、律典、契約、絹畫等。
騰訊基于混元大模型和智能檢索技術,助力網站實現更智能化的平臺能力,為用戶提供了古籍檢索、多語言翻譯、文白互譯、智能問答、AI歸納等功能,讓豐富而深厚的敦煌文化內容,被更好地展現和理解。
即日起,全球用戶可登錄官網,踏上這場跨越時空的數字文化之旅。
(網站鏈接:https://cave17.e-dunhuang.com/)
敦煌研究院自2017年開始與騰訊達成戰(zhàn)略合作,推出了“敦煌數字供養(yǎng)人”、“敦煌詩巾”、“云游敦煌”小程序、QQ音樂“古樂重聲”音樂會、《王者榮耀》“遇見飛天”“遇見神鹿”“遇見胡旋”“遇見神鼓”系列游戲皮膚、敦煌動畫劇等數字文創(chuàng)精品內容。2022年,雙方進一步成立“騰訊互娛×數字敦煌文化遺產數字創(chuàng)意技術聯合實驗室”,推出全球首個基于區(qū)塊鏈的數字文化遺產開放共享平臺“數字敦煌開放素材庫”,基于游戲技術的超時空參與式博物館“數字藏經洞”、“尋境敦煌”VR沉浸展、敦煌官莫高窟官方虛擬人“伽瑤”等亮點項目。此次,深度結合AI技術助力“數字藏經洞”數據庫平臺上線,是雙方在探索前沿數字技術創(chuàng)新應用于文化遺產保護和傳承中的又一次具有開拓性的重要嘗試。
全流程AI智能體驗,數萬件珍貴經卷和圖像數字新生
進入“數字藏經洞”數據庫平臺,用戶可直觀閱讀到千年文明精華。平臺不僅收錄了世界上最早的印本書籍《金剛經》、柳公權真跡拓本等傳世珍寶,還能一睹唐代的《放妻書》、中國最早的育兒教材《太公家教》、現存唐詩中的第一巨制《秦婦吟》等珍貴內容。
以《金剛經》為例,卷首的版畫描繪了釋迦牟尼在祇樹給孤獨園講法的場景,卷尾清晰標注了868年的刊印日期。借助騰訊數字技術能力,用戶不僅能欣賞到這些古籍的細節(jié),還能與背后的故事進行深度互動。
(網站中展示的部分絹畫和經卷)
AI技術帶來了“解讀”這一文化和歷史的全新方式。點擊平臺的“AI歸納”功能,網站即刻提煉出《金剛經》的核心思想:“破除執(zhí)念,通達智慧”,并通過智能推理將其與同期壁畫中的佛陀說法場景進行關聯。
此外,面對繁體字、無標點、豎排的原文,AI可一鍵將內容轉換為簡體字,并且自動生成白話文翻譯,如:“如是我聞,一時佛在舍衛(wèi)國祇樹給孤獨園”將被轉化為“我曾聽佛這樣說:那時,佛陀住在舍衛(wèi)國的祇樹給孤獨園”。
平臺的AI小助手24小時營業(yè),用戶可以隨時就古籍當中的疑惑“問AI”,AI小助手陪你逛一千多年前的圖書館。
更令人驚嘆的是,平臺還為學者們提供了全鏈路的學術支持系統(tǒng)。通過智能檢索引擎,支持語音與手寫輸入,結合中國圖書館分類法與多條件篩選,文獻的精準定位可在秒級完成。
經卷瀏覽模塊采用了“字-列-文”三維解析工具,幫助學者逐字查閱生僻字、恢復原卷結構、跨版本對照,同時利用百億像素圖像識別與人工校驗確保學術嚴謹性。
此外,平臺還支持中、英、法、日等多語言互譯,幫助敦煌文化在全球范圍內無障礙傳播。
大模型RAG技術把經卷“天書”變?yōu)榇蟀自?/strong>
從千年前沉睡的殘卷,到如今觸手可及的古籍解讀,這一切都離不開前沿AI技術對敦煌古籍的“量身定制”。
作為“數字藏經洞”數據庫平臺的技術支持方,騰訊通過智能檢索平臺(騰訊云ES)實現了古籍數據的智能化處理和精準檢索。
首先,平臺對古籍數據進行了重新分詞,確保文本能夠被AI系統(tǒng)理解并有效處理。由于敦煌經卷中存在大量繁體字、異形字、豎排、無標點和生僻字,這些都為傳統(tǒng)文本處理帶來挑戰(zhàn)。
為此,技術團隊引入了“古籍專屬詞典”,并與敦煌專家團合作優(yōu)化了復雜詞匯的分詞方式。例如,將“佛在舍衛(wèi)國祗樹給孤獨園”拆解為“佛 / 在 / 舍衛(wèi)國 / 祗樹 / 給孤獨園”,使其成為AI可識別的最小數據單元。
接著,平臺無縫集成大模型,將其強大的推理能力與智能檢索平臺結合,形成雙模驅動的RAG(檢索增強生成)技術架構。根據騰訊云大數據專家介紹,這是當前AI技術中最成熟和前沿的技術范式——大模型協(xié)同智能檢索平臺構建的RAG技術體系。
該體系應用的大模型騰訊混元和DeepSeek,是當今最“聰明”的國產AI大腦,全球權威評測平臺Chatbot Arena顯示,這兩款模型在全球前八名中排名前列。
該技術體系的優(yōu)勢在于,首先通過騰訊云ES進行精準的混合檢索(文本+向量),同時結合其提供的全鏈路智能搜索開發(fā)服務,可高效定位用戶查詢的相關文獻或上下文信息;然后,基于檢索結果,大模型利用其強大的生成能力,為用戶提供準確的解答。這一雙模驅動架構不僅提升了檢索精準度,還確保了智能生成的答案具有高度相關性和準確性。
在處理復雜的古籍內容時,RAG技術能夠將歷史文獻與現代技術相結合,實現“從海量文獻中秒級鎖定真知”。經敦煌專家團測試,該技術體系生成的答案準確率高達95%,顯著提高了信息的準確性和用戶體驗。
“數字藏經洞”數據庫平臺平臺發(fā)布,將集中展示“流失海外敦煌文物數字化復原項目”成果,持續(xù)擴大與世界各地敦煌學收藏和研究機構的合作,為全球學術界和社會公眾了解、獲取敦煌文化藝術資源貢獻一項統(tǒng)一完整、權威準確、開放共享、便捷智能的國際性公共文化服務產品。
未來,騰訊將繼續(xù)探索與敦煌研究院的深入合作,聚焦數字技術在文化遺產傳承上的創(chuàng)新型應用,為廣大學者和大眾打開一扇扇敦煌文化的新窗口。
雷峰網版權文章,未經授權禁止轉載。詳情見轉載須知。