0
本文作者: Nemo | 2025-07-04 17:11 |
國(guó)產(chǎn)Agent進(jìn)入“NL2SQL全球最難榜單”前三。
7月4日,據(jù)國(guó)際權(quán)威評(píng)測(cè)基準(zhǔn)BIRD-Bench官網(wǎng)消息,騰訊云自研的數(shù)據(jù)分析智能體TCDataAgent斬獲全球第三的成績(jī),超越IBM、Meta等眾多國(guó)際廠商,同時(shí)也是目前國(guó)內(nèi)在該榜單上排名最高的排名。
來源:BIRD-Bench官網(wǎng)
BIRD-Bench以其嚴(yán)苛性被譽(yù)為“NL2SQL全球最難榜單”。它不僅要求系統(tǒng)將自然語言問題(如“找出未通過質(zhì)檢的訂單”)準(zhǔn)確翻譯成SQL語句,更要求生成的SQL在真實(shí)、龐大且含“臟數(shù)據(jù)”的企業(yè)級(jí)數(shù)據(jù)庫上執(zhí)行結(jié)果精準(zhǔn)且運(yùn)行高效,對(duì)模型的深層語義理解和數(shù)據(jù)庫真實(shí)內(nèi)容感知能力提出了極高挑戰(zhàn)。
在這個(gè)以真實(shí)業(yè)務(wù)數(shù)據(jù)庫為基礎(chǔ)的測(cè)試中,覆蓋金融、醫(yī)療、體育等37個(gè)行業(yè)場(chǎng)景,數(shù)據(jù)庫總?cè)萘窟_(dá)33GB,查詢問題超過1萬條。TCDataAgent在官方不公開數(shù)據(jù)集的封閉測(cè)試環(huán)境下,最終獲得了75.74分,位居全球第三, 國(guó)內(nèi)第一。
相比于傳統(tǒng)NL2SQL方案往往只能依賴有限信息“猜測(cè)”用戶意圖,易因數(shù)據(jù)結(jié)構(gòu)復(fù)雜或語義模糊出錯(cuò)。TCDataAgent登榜的技術(shù)創(chuàng)新來源于引入了數(shù)據(jù)庫約束驗(yàn)證機(jī)制,能夠自動(dòng)識(shí)別并修正SQL中潛在的結(jié)構(gòu)性或語義性錯(cuò)誤(如錯(cuò)誤連接、冗余條件)。
更重要的是,它緊密結(jié)合數(shù)據(jù)庫的真實(shí)內(nèi)容對(duì)生成的SQL進(jìn)行優(yōu)化,顯著提升了用戶意圖識(shí)別的準(zhǔn)確率和翻譯結(jié)果的可靠性。值得一提的是,TCDataAgent還引入了后訓(xùn)練(post-training)技術(shù),通過優(yōu)先篩選并復(fù)用效果最優(yōu)的SQL樣本進(jìn)行模型迭代訓(xùn)練,有效提升了訓(xùn)練樣本的質(zhì)量和模型學(xué)習(xí)的穩(wěn)定性。
騰訊云TCDataAgent在NL2SQL領(lǐng)域的技術(shù)研究成果也獲得了國(guó)際學(xué)術(shù)界的認(rèn)可,相關(guān)論文已被今年的數(shù)據(jù)庫領(lǐng)域頂級(jí)國(guó)際會(huì)議VLDB接收。論文中的實(shí)驗(yàn)表明,TCDataAgent的“數(shù)據(jù)庫內(nèi)容感知”核心技術(shù)模塊,可以無縫集成到其他NL2SQL系統(tǒng)中,最高能將查詢執(zhí)行準(zhǔn)確率提升18.3%,并在多個(gè)主流方法上實(shí)現(xiàn)了超過5%的性能提升。
作為騰訊云新一代企業(yè)級(jí)智能分析Agent,TCDataAgent致力于讓用戶直接使用自然語言對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)據(jù)查詢、報(bào)表生成和趨勢(shì)分析等任務(wù),目前已開啟內(nèi)測(cè)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。