0
本文作者: 小七 | 2025-09-26 16:57 | 專題:2025 Inclusion·外灘大會(huì) |
9月26日,據(jù)全球權(quán)威評(píng)測(cè)基準(zhǔn)BIRD-Bech官網(wǎng),螞蟻數(shù)科的數(shù)據(jù)分析智能體Agentar-SQL超越AT&T(美國(guó)電話電報(bào)公司)、谷歌云、騰訊云、阿里云等諸多國(guó)內(nèi)外廠商,位居全球第一。這也是中國(guó)公司在該榜單上取得的最高成績(jī)。
BIRD-Bench是公認(rèn)的全球最具權(quán)威性的自然語(yǔ)言轉(zhuǎn)SQL評(píng)測(cè)基準(zhǔn),要求AI大模型將自然語(yǔ)言查詢轉(zhuǎn)換為結(jié)構(gòu)化查詢語(yǔ)言(SQL),并且在真實(shí)復(fù)雜的大規(guī)模生產(chǎn)級(jí)數(shù)據(jù)庫(kù)中穩(wěn)定執(zhí)行。BIRD--Bench數(shù)據(jù)集覆蓋金融、電力、醫(yī)療等37個(gè)行業(yè)場(chǎng)景,總量33GB,包含超過(guò)1萬(wàn)條高復(fù)雜度查詢?nèi)蝿?wù),是全球頂級(jí)AI團(tuán)隊(duì)展示技術(shù)實(shí)力的權(quán)威平臺(tái)。
值得一提的是,螞蟻數(shù)科Agentar-SQL在BIRD榜單的執(zhí)行準(zhǔn)確率排行榜(81.67分)以及執(zhí)行效率榜上(77分)上均取得第一的成績(jī)。這意味著螞蟻數(shù)科在智能問(wèn)數(shù)領(lǐng)域的技術(shù)創(chuàng)新實(shí)現(xiàn)全球領(lǐng)先。
據(jù)介紹,Agentar-SQL智能體基于螞蟻數(shù)科的SQL大模型Agentar-Scale-SQL構(gòu)建,旨在讓用戶可以通過(guò)自然語(yǔ)言輕松完成復(fù)雜的數(shù)據(jù)查詢?nèi)蝿?wù)。它通過(guò)GSPO(組序列策略優(yōu)化)強(qiáng)化學(xué)習(xí)訓(xùn)練方法,能夠增強(qiáng)SQL內(nèi)在推理,讓大模型在推理階段,深度思考SQL框架,避免潛在的邏輯錯(cuò)誤,提升SQL邏輯準(zhǔn)確性;此外,Agentar-SQL具備多輪反思修正的能力,讓模型對(duì)生成的SQL進(jìn)行多輪次的審視和修正,提升SQL語(yǔ)言的精準(zhǔn)性;Agentar-SQL還通過(guò)獨(dú)創(chuàng)的兩階段生成法,讓大模型生成多個(gè)SQL候選,再對(duì)SQL進(jìn)行兩兩PK的“錦標(biāo)賽”,篩選出最優(yōu)的SQL。
螞蟻數(shù)科持續(xù)深耕AI大模型技術(shù)與應(yīng)用,此前其自研的金融推理大模型Agentar-Fin-R1,在多項(xiàng)主流金融基準(zhǔn)測(cè)試實(shí)現(xiàn)領(lǐng)先。專為新能源行業(yè)定制的能源電力垂類時(shí)序大模型在行業(yè)評(píng)測(cè)集上的發(fā)電量預(yù)測(cè)準(zhǔn)確率超越谷歌(TimesFM-V2.0)、亞馬遜(Chronos-Large)等行業(yè)主流的通用時(shí)序模型。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章