丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能開發(fā)者 正文
發(fā)私信給黃善清
發(fā)送

0

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕,冠軍方案全解讀

本文作者: 黃善清 2019-10-29 17:39
導(dǎo)語:國內(nèi)首場 NL2SQL 挑戰(zhàn)賽

雷鋒網(wǎng)開發(fā)者按:10 月 12 日下午,由追一科技主辦、南京大學(xué)計算機軟件新技術(shù)國家重點實驗室協(xié)辦的「首屆中文 NL2SQL 挑戰(zhàn)賽」總決賽答辯暨頒獎典禮在南京大學(xué)舉行。經(jīng)過最終決賽的 5 強選手隊伍精彩分享、答辯和現(xiàn)場評委考評,決出最終名次。來自國防科技大學(xué)的選手團隊「不上 90 不改名字」奪得冠軍。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕,冠軍方案全解讀

值得一提的是,此次 NL2SQL 挑戰(zhàn)賽是國內(nèi)首次舉辦,NL2SQL(自然語言轉(zhuǎn)結(jié)構(gòu)化查詢語句)作為新興的研究領(lǐng)域,在國外由 SalesForce 耶魯大學(xué)等發(fā)布了 WikiSQL 和 Spider 數(shù)據(jù)集,但在國內(nèi)市場,目前還處于起步階段。

經(jīng)過選手的不斷努力與探索,比賽任務(wù)短期內(nèi)就達到與英文數(shù)據(jù)集上相當(dāng)水平的分數(shù),并持續(xù)刷新記錄。比賽初期,準(zhǔn)確率尚為 60% 多,至 8 月份初賽結(jié)束時,榜上頭部分數(shù)已經(jīng)達到 89%,接近 WikiSQL 成績。復(fù)賽結(jié)束時,選手最高成績達到 92%,并且,最終晉級決賽的 5 支隊伍,個個都在「90 分」以上。

比賽期間,追一科技發(fā)布了業(yè)內(nèi)首個大規(guī)模的中文數(shù)據(jù)集,包括 4870 張表格數(shù)據(jù)、近 50000 條標(biāo)注數(shù)據(jù)以及相應(yīng)的 SQL 語句,并獲得很多學(xué)界專家、產(chǎn)業(yè)界伙伴的支持,通過「產(chǎn)學(xué)研」等多方聯(lián)動,希望提供一個平臺,來推動 NL2SQL 的研究和應(yīng)用。

NL2SQL 有什么用?

簡單來說,NL2SQL 可以讓非專業(yè)人士,不需要學(xué)習(xí)和掌握數(shù)據(jù)庫程序語言,就可以自由地查詢各種豐富的數(shù)據(jù)庫,主要體現(xiàn)在:

  • 說句話就行。

  • 沒有條條框框的限制,內(nèi)容和信息更加豐富。以前是程序員寫一個「模板」,在這個模板里查詢內(nèi)容。

  • NL2SQL 的實現(xiàn),運用了大量前沿的人工智能算法模型,比如運用了多個預(yù)訓(xùn)練語言模型,相當(dāng)于 AI 大腦,讓 AI 讀懂用戶語言;運用了圖神經(jīng)網(wǎng)絡(luò),讓 AI「看到」數(shù)據(jù)庫,一目十行過目不忘,而且更加清晰地分清每個表。

在具體使用場景上,NL2SQL 可以用在基于結(jié)構(gòu)化知識的智能交互(問答),比如用戶問「我上個月在南京的差旅住宿,花了多少錢?」這里面有時間上個月,地點南京,項目差旅等多個維信息檢索需求,甚至更復(fù)雜、更多維的問題,AI 也可以解答。

此外,NL2SQl 也可以用在搜索引擎的優(yōu)化上,讓搜索引擎更「聰明」?,F(xiàn)在的信息檢索技術(shù),在檢索文本時,對于文本中存在的表格內(nèi)容是無區(qū)別對待的,也當(dāng)做普通的文本來處理;結(jié)合 NL2SQL,可以讓檢索模型結(jié)合普通文本及表格類文本進行更智能的檢索。

冠軍方案解讀

據(jù)了解,本次 1457 支參賽隊伍中,院校和企業(yè)參與者各占「半壁江山」。

其中,學(xué)生及科研人員占比 48%,企業(yè)技術(shù)員工占比 52%。學(xué)生參賽隊伍來自眾多知名院校,如北京大學(xué)、清華大學(xué)、復(fù)旦大學(xué)、上海交通大學(xué)、南京大學(xué)、浙江大學(xué)、中國科學(xué)技術(shù)大學(xué)、哈爾濱工業(yè)大學(xué)、西安交通大學(xué)等。

而本場賽事冠軍隊伍「不上 90 不改名字」的組員都來自國防科技大學(xué),分別由隊長張嘯宇(負責(zé)模型設(shè)計、方案調(diào)優(yōu))、隊員賽斌(負責(zé)模型設(shè)計)以及隊員王蘇宏(負責(zé)數(shù)據(jù)預(yù)處理)組成。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕,冠軍方案全解讀

據(jù)介紹,為了準(zhǔn)備這場比賽,張嘯宇與隊員們預(yù)先花了 2、3 天時間把 nl2sql 相關(guān)論文均看一遍,最終發(fā)現(xiàn)X-SQL 是 WikiSQL 表現(xiàn)最好的模型。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕,冠軍方案全解讀

由于 X-SQL 作者并未開源代碼,因此他們只能嘗試自己復(fù)現(xiàn),結(jié)果在復(fù)現(xiàn)過程中發(fā)現(xiàn) X-SQL 有一個顯著性問題:value 抽取時,字段特征并不明顯。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕,冠軍方案全解讀

針對此問題,他們提出了兩個子模型——value抽取和value匹配,來替換 X-SQL 中原有的 value 抽取方式。當(dāng)中,value抽取用于抽取所有的value,而value匹配用于判斷value和表字段的所屬關(guān)系。這也就是他們在賽事中提出的 M-SQL 模型,無論精度還是運行效率都達到了商用水平。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕,冠軍方案全解讀

據(jù)他們介紹,在沒有進行任何調(diào)優(yōu)的情況下,X-SQL 的 baseline 就達到了 83+,在此基礎(chǔ)上, M-SQL 模型的訓(xùn)練以及推理效率都非常高,是所有參賽選手中最快的,訓(xùn)練時每個 epoch 只要 20 分鐘,大概 3~4 個 epoch 即可收斂。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕,冠軍方案全解讀

不過該模型也并非盡善盡美,當(dāng)中最關(guān)鍵的不足之處,是從query中抽取的value需要和數(shù)據(jù)表中內(nèi)容進行匹配,因為采用的是基于字符串匹配特征的邏輯回歸模型,導(dǎo)致該模型無法處理語義匹配問題(如騰訊vs企鵝)。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕,冠軍方案全解讀

為此,他們曾在比賽時嘗試使用神經(jīng)網(wǎng)絡(luò)的方式做語義匹配,然而最終結(jié)果精度尚可,但運行效率偏低,因此最終并未在復(fù)賽方案進行采用。

如何又好又快的做語義匹配,是他們認為該模型未來可以進行改進的點。

詳細方案解讀可查看:https://github.com/nudtnlp/tianchi-nl2sql-top1

雷鋒網(wǎng)開發(fā)者 雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

追一科技中文 NL2SQL 挑戰(zhàn)賽圓滿落幕,冠軍方案全解讀

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說