0
雷鋒網(wǎng) AI 科技評(píng)論按:隨著機(jī)器學(xué)習(xí)蓬勃發(fā)展,新的研究領(lǐng)域不停出現(xiàn)。除了創(chuàng)造并解決新的問(wèn)題之外,現(xiàn)有的應(yīng)用其實(shí)也可以從機(jī)器學(xué)習(xí)中大為受益。Salesforce 近期的一篇論文就介紹了利用機(jī)器學(xué)習(xí),無(wú)需學(xué)習(xí)SQL語(yǔ)言就可以在數(shù)據(jù)庫(kù)中進(jìn)行查詢。雷鋒網(wǎng) AI 科技評(píng)論把相關(guān)報(bào)道編譯如下。
SQL在編程領(lǐng)域越來(lái)越少被提及,但是SQL語(yǔ)言的學(xué)習(xí)曲線仍然陡峭,這就讓很多人放棄了嘗試直接和關(guān)系型數(shù)據(jù)庫(kù)打交道。CRM 軟件服務(wù)商 Salesforce 的人工智能研究團(tuán)隊(duì)就從自己的業(yè)務(wù)開(kāi)始下手,探索如何讓不具備 SQL 知識(shí)的人通過(guò)機(jī)器學(xué)習(xí)打開(kāi)數(shù)據(jù)庫(kù)操作的大門(mén)。
在他們近期的論文「Seq2SQL: Generating Structured Queries from Natural Language using Reinforcement Learning」(Seq2SQL:用強(qiáng)化學(xué)習(xí)從自然語(yǔ)言生成結(jié)構(gòu)化查詢語(yǔ)句)中,構(gòu)建了一個(gè)機(jī)器學(xué)習(xí)中典型的序列到序列模型。在其中用到的強(qiáng)化學(xué)習(xí)讓模型在翻譯自然語(yǔ)言到SQL數(shù)據(jù)庫(kù)查詢語(yǔ)句任務(wù)中取得了讓人眼前一亮的成果。
這就意味著,在實(shí)際應(yīng)用中用戶可以直接問(wèn)系統(tǒng):“橄欖球高校巡回賽排名第一的是哪支隊(duì)伍”,系統(tǒng)就會(huì)自動(dòng)查詢對(duì)應(yīng)的數(shù)據(jù)庫(kù),然后告訴你答案是密歇根大學(xué)隊(duì)。正如下面這張動(dòng)圖示意的?
Salesforce 研究員 Victor Zhong,也是這篇論文的第一作者,介紹說(shuō):“一個(gè)正確的查詢語(yǔ)句其實(shí)可以有好幾種寫(xiě)法。如果給系統(tǒng)里輸入一個(gè)自然語(yǔ)言的問(wèn)題,對(duì)應(yīng)的查詢語(yǔ)句可能會(huì)有兩三種。我們用強(qiáng)化學(xué)習(xí)來(lái)鼓勵(lì)系統(tǒng)選用能夠查詢到相同結(jié)果的語(yǔ)句?!?/p>
隨著自然語(yǔ)言的提問(wèn)里包含的單詞變多,可以想象這種機(jī)器翻譯任務(wù)也會(huì)很快變得非常復(fù)雜。應(yīng)對(duì)方式就是,對(duì)于每一個(gè)缺失單詞的可能翻譯數(shù)目施加的限制越多,翻譯任務(wù)就會(huì)變得越簡(jiǎn)單。Salesforce 的研究人員們就利用了這種想法,他們對(duì)系統(tǒng)的提問(wèn)里、數(shù)據(jù)庫(kù)標(biāo)簽里和典型 SQL 查詢語(yǔ)句里能夠包含的單詞做了一些限制,從而簡(jiǎn)化了翻譯系統(tǒng)的設(shè)計(jì)難度。
讓 SQL 平民化其實(shí)也不是新鮮事了,Tableau 最近收購(gòu)了創(chuàng)業(yè)公司 ClearGraph,后者的業(yè)務(wù)就是提供用英語(yǔ)而不是SQL語(yǔ)言查詢數(shù)據(jù)的方案。
Victor Zhong 補(bǔ)充說(shuō):“有的模型直接在數(shù)據(jù)庫(kù)上做操作,但是如果提問(wèn)一個(gè)關(guān)于身份證號(hào)的問(wèn)題就會(huì)有潛在的隱私問(wèn)題?!?/p>
除了論文里的方案本身,Salesforce 的這項(xiàng)研究還有一個(gè)貢獻(xiàn)是他們構(gòu)建的 WikiSQL 數(shù)據(jù)集,他們的翻譯模型就是用這個(gè)數(shù)據(jù)集訓(xùn)練出來(lái)的。他們首先從 Wikipedia 采集了HTML表單,這些表單就成為了隨機(jī)生成的 SQL 查詢語(yǔ)句的基礎(chǔ);他們從這些查詢生成了對(duì)應(yīng)的問(wèn)題,然后把問(wèn)題放到亞馬遜 Mechanical Turk 眾包平臺(tái)上讓人類(lèi)把它們改寫(xiě)成自然語(yǔ)言。每個(gè)改寫(xiě)后的句子都會(huì)被確認(rèn)兩次,而且還安排了單獨(dú)的人指導(dǎo)這些確認(rèn)過(guò)程。最終構(gòu)成的 WikiSQL 數(shù)據(jù)集也是目前所有同類(lèi)數(shù)據(jù)集中最大的一個(gè)。
via TechCrunch,雷鋒網(wǎng) AI 科技評(píng)論編譯
論文地址:https://einstein.ai/static/images/layouts/research/seq2sql/seq2sql.pdf
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。