全球權(quán)威評(píng)測榜單BIRD：螞蟻數(shù)科超越谷歌等公司位居第一

本文作者：小七

2025-09-26 16:57

專題：2025 Inclusion·外灘大會(huì)

導(dǎo)語：螞蟻數(shù)科Agentar - SQL評(píng)測全球奪魁。

9月26日，據(jù)全球權(quán)威評(píng)測基準(zhǔn)BIRD-Bech官網(wǎng)，螞蟻數(shù)科的數(shù)據(jù)分析智能體Agentar-SQL超越AT&T（美國電話電報(bào)公司）、谷歌云、騰訊云、阿里云等諸多國內(nèi)外廠商，位居全球第一。這也是中國公司在該榜單上取得的最高成績。

全球權(quán)威評(píng)測榜單BIRD：螞蟻數(shù)科超越谷歌等公司位居第一

BIRD-Bench是公認(rèn)的全球最具權(quán)威性的自然語言轉(zhuǎn)SQL評(píng)測基準(zhǔn)，要求AI大模型將自然語言查詢轉(zhuǎn)換為結(jié)構(gòu)化查詢語言（SQL），并且在真實(shí)復(fù)雜的大規(guī)模生產(chǎn)級(jí)數(shù)據(jù)庫中穩(wěn)定執(zhí)行。BIRD--Bench數(shù)據(jù)集覆蓋金融、電力、醫(yī)療等37個(gè)行業(yè)場景，總量33GB，包含超過1萬條高復(fù)雜度查詢?nèi)蝿?wù)，是全球頂級(jí)AI團(tuán)隊(duì)展示技術(shù)實(shí)力的權(quán)威平臺(tái)。

值得一提的是，螞蟻數(shù)科Agentar-SQL在BIRD榜單的執(zhí)行準(zhǔn)確率排行榜（81.67分）以及執(zhí)行效率榜上（77分）上均取得第一的成績。這意味著螞蟻數(shù)科在智能問數(shù)領(lǐng)域的技術(shù)創(chuàng)新實(shí)現(xiàn)全球領(lǐng)先。

據(jù)介紹，Agentar-SQL智能體基于螞蟻數(shù)科的SQL大模型Agentar-Scale-SQL構(gòu)建，旨在讓用戶可以通過自然語言輕松完成復(fù)雜的數(shù)據(jù)查詢?nèi)蝿?wù)。它通過GSPO（組序列策略優(yōu)化）強(qiáng)化學(xué)習(xí)訓(xùn)練方法，能夠增強(qiáng)SQL內(nèi)在推理，讓大模型在推理階段，深度思考SQL框架，避免潛在的邏輯錯(cuò)誤，提升SQL邏輯準(zhǔn)確性；此外，Agentar-SQL具備多輪反思修正的能力，讓模型對(duì)生成的SQL進(jìn)行多輪次的審視和修正，提升SQL語言的精準(zhǔn)性；Agentar-SQL還通過獨(dú)創(chuàng)的兩階段生成法，讓大模型生成多個(gè)SQL候選，再對(duì)SQL進(jìn)行兩兩PK的“錦標(biāo)賽”，篩選出最優(yōu)的SQL。

螞蟻數(shù)科持續(xù)深耕AI大模型技術(shù)與應(yīng)用，此前其自研的金融推理大模型Agentar-Fin-R1，在多項(xiàng)主流金融基準(zhǔn)測試實(shí)現(xiàn)領(lǐng)先。專為新能源行業(yè)定制的能源電力垂類時(shí)序大模型在行業(yè)評(píng)測集上的發(fā)電量預(yù)測準(zhǔn)確率超越谷歌（TimesFM-V2.0）、亞馬遜（Chronos-Large）等行業(yè)主流的通用時(shí)序模型。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

專題

2025 Inclusion·外灘大會(huì)

本專題其他文章

小七

編輯

發(fā)私信

當(dāng)月熱門文章