丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給木子
發(fā)送

0

乂學教育-松鼠AI獲KDD國際圖深度學習研討會最佳論文 & 最佳學生論文

本文作者: 木子 2019-08-09 23:26 專題:KDD 2019
導語:中國摘冠!KDD 國際圖深度學習研討會最佳論文 & 最佳學生論文花落乂學教育-松鼠AI

KDD,國際數(shù)據(jù)挖掘與知識發(fā)現(xiàn)大會,全稱:ACM SIGKDD Conference on Knowledge Discovery and DataMining,是數(shù)據(jù)挖掘領域國際最高級別會議。

KDD“圖深度學習國際研討會:方法與應用(DLG 2019)”于2019年8月5日在美國阿拉斯加安克雷奇市舉辦。值得一提的是,國內(nèi)人工智能獨角獸乂學教育-松鼠AI深度參與的研究項目包攬了研討會的最佳論文和最佳學生論文獎項。

深度學習是當今人工智能研究的核心。不過,由于這項技術無法直接應用于圖形結(jié)構(gòu)數(shù)據(jù)上,這也推動了學界對圖深度學習的探索。過去幾年,基于圖形結(jié)構(gòu)數(shù)據(jù)的神經(jīng)網(wǎng)絡在社交網(wǎng)絡、生物信息學和醫(yī)學信息學等領域取得了顯著的成果。

自1995年以來,KDD大會連續(xù)舉辦了二十余屆,每年的接收率不超過20%,今年的接收率不到15%。

值得一提的是,今年也是KDD采用雙盲評審的第一年。依然分為研究賽道和應用賽道。

其中,據(jù)已公開消息,KDD研究賽道共收到1179篇投稿,其中111篇被接收為Oral論文,63篇被接收為Poster論文,入選率14.8%。

應用賽道收到700余篇論文,其中大45篇被接收為Oral論文,100篇被接收為Poster論文,接收率20.7%。

相較而言,KDD 2018年研究賽道接收181篇,接收率為18.4%,應用賽道接受112篇,接收率22.5%。

作為全球頂尖數(shù)據(jù)挖掘會議—第25屆ACM SIGKDD知識發(fā)現(xiàn)和數(shù)據(jù)挖掘會議(KDD)— 的分支,DLG 2019旨在匯聚自不同背景和觀點的學術研究人員和從業(yè)者,分享在圖神經(jīng)網(wǎng)絡領域的前沿技術。

最佳論文:利用圖神經(jīng)網(wǎng)絡解決基于RDF數(shù)據(jù)的文本生成問題

獲得最佳論文的是來自華中師范大學、IBM研究院和乂學教育-松鼠AI的研究《Exploiting Graph Neural Networks with Context Information for RDF-to-Text Generation 》,這篇論文研究的是基于RDF數(shù)據(jù)的文本生成,該任務是在給定一組RDF三元組的情況下生成相應的描述性文本。

大多數(shù)先前的方法要么將此任務轉(zhuǎn)換為序列到序列(Seq2Seq)的問題,要么使用基于圖形的編碼器對RDF三元組進行建模并解碼文本序列。但這些方法都不能明確地模擬三元組內(nèi)和三元組之間的全局和局部結(jié)構(gòu)信息。此外,它們沒有利用目標文本作為建模復雜RDF三元組的附加上下文內(nèi)容。 

為了解決這些問題,論文作者提出通過將圖編碼器和基于圖形的三重編碼器進行組合,從而學習RDF三元組的局部信息和全局結(jié)構(gòu)信息。此外,研究者還使用基于Seq2Seq的自動編碼器,利用目標文本作為上下文監(jiān)督圖編碼器的學習。

WebNLG數(shù)據(jù)集的實驗結(jié)果表明,研究團隊提出的模型優(yōu)于最先進(state of the art)的基線方法。

論文作者:

高含寧,吳凌飛,胡佰,許芳麗 (吳凌飛來自IBM研究院,許芳麗來自乂學教育-松鼠AI,其余作者來自華中師范大學)

為什么這項研究重要:

資源描述框架(Resource Description Frameworks) 是在結(jié)構(gòu)化知識庫中表達實體及其關系的常用框架。 基于W3C標準,每個RDF數(shù)據(jù)是由三個元素組成的三元組,形式為(主語,謂語,賓語)。

在自然語言生成(NLG)中,基于RDF數(shù)據(jù)的文本生成是一項具有挑戰(zhàn)性的任務,因其廣泛的工業(yè)應用而備受研究者的關注,包括基于知識的問答系統(tǒng)、實體摘要、數(shù)據(jù)驅(qū)動的新聞生成等等。

“比如你有一個知識圖譜,然后你需要做一個問答系統(tǒng)。比如你有一個SparQL(RDF開發(fā)的一種查詢語言),然后你去查詢這個知識圖譜,這樣會返回一個RDF。RDF人是很難看懂的,所以這篇論文的初衷是可不可以把這個RDF返回的答案轉(zhuǎn)換成自然語言,這樣就能很自然的讀懂返回的答案是什么意思。”論文作者之一、來自IBM研究院的吳凌飛博士解釋說。

挑戰(zhàn)何在:

隨著端到端深度學習取得了巨大進展,尤其是各種Seq2Seq模型,基于RDF數(shù)據(jù)的文本生成已經(jīng)取得了實足的進步。然而,如果簡單地將RDF三元組轉(zhuǎn)換為序列,可能會丟失重要的高階信息。

由于RDF三元組可以被表達為知識圖,因此研究人員最近提出了兩種基于圖網(wǎng)絡的方法,但都分別存在缺陷:比如基于循環(huán)神經(jīng)網(wǎng)絡的模型無法表達實體和關系之間豐富的局部結(jié)構(gòu)信息,而基于改進的圖卷積網(wǎng)絡(GCN)的圖編碼器無法表達三元組內(nèi)和三元組之間的全局信息。

核心貢獻:

為了解決上述問題,論文作者提出了一種新穎的神經(jīng)網(wǎng)絡架構(gòu),它利用基于圖神經(jīng)網(wǎng)絡和上下文信息,試圖提高模型基于RDF數(shù)據(jù)生成文本的能力。

研究團隊提出了一種新的基于圖結(jié)構(gòu)的編碼器模型,它結(jié)合了GCN編碼器和GTR-LSTM三重編碼器,為RDF三元組的多個視角輸入建模,學習RDF三元組的局部和全局結(jié)構(gòu)信息。

兩個編碼器都生成一組節(jié)點表征,GCN生成的節(jié)點更好地捕捉RDF三元組內(nèi)的局部結(jié)構(gòu)信息,而GTR-LSTM生成的節(jié)點主要關注全局結(jié)構(gòu)信息,研究團通過結(jié)合GCN和GTR-LSTM的節(jié)點,通過平均池化獲得圖嵌入。

由于目標參考文本包含與三元組幾乎相同的信息,因此,研究團隊繼而使用基于Seq2Seq的自動編碼器,利用目標文本作為輔助上下文來監(jiān)督圖編碼器的學習。

實驗結(jié)果:

研究團隊使用WEBNLG數(shù)據(jù)集,該數(shù)據(jù)集由資源側(cè)三元數(shù)據(jù)集和目標側(cè)參考文本組成。 每個RDF三元組表達為(主語,關系,賓語)。

整個數(shù)據(jù)集分為18102個訓練對,2495個驗證對和2269個測試對。實驗采用WebNLG挑戰(zhàn)的標準評估指標,包括BLEU和METEOR。

實驗結(jié)果表明,研究團隊提出的模型能夠更好地對RDF三元組的全局和局部圖結(jié)構(gòu)進行編碼,模型比WebNLG數(shù)據(jù)集上的其他基線模型高出約2.0 BLEU點。

此外,研究團隊也手動評估了不同模型的結(jié)果。他們發(fā)現(xiàn)涉及GCN編碼器的模型在表達實體之間的正確關系方面時表現(xiàn)更好;目標文本自動編碼器和GTR-LSTM編碼器在生成與RDF三元組之間的上下文信息相關聯(lián)的文本方面表現(xiàn)更好。

在進一步的研究中,研究團隊發(fā)現(xiàn),他們提出的模型中有四個關鍵因素可能會影響生成文本的質(zhì)量。它們分別是目標文本自動編碼器,它將有助于集成目標測上下文信息;因子Ldis,能最小化圖形表達和文本表達之間的距離;GCN編碼器和GTR-LSTM編碼器,它們對三元組的本地和全局信息進行編碼。

最佳學生論文:基于圖神經(jīng)網(wǎng)絡的語義分析實證研究

獲得最佳學生論文的是來自南京大學、IBM研究院和乂學教育-松鼠AI的研究《An Empirical Study of Graph Neural Networks Based Semantic Parsing》,這篇論文研究的是基于圖神經(jīng)網(wǎng)絡語義解析。

現(xiàn)有的神經(jīng)語義解析器要么只考慮用于編碼或解碼的單詞序列,要么忽略對解析目的有用的重要語法信息。 在本文中,論文作者提出了一種新的基于圖神經(jīng)網(wǎng)絡(GNN)的神經(jīng)語義解析器,即由圖形編碼器和分層樹解碼器組成的Graph2Tree。 

論文作者:

李書城,吳凌飛,馮詩偉,許芳麗,許封元,仲盛  (吳凌飛來自IBM研究院,許芳麗來自乂學教育-松鼠AI,其余作者來自南京大學)

為什么這項研究重要:

作為自然語言處理(NLP)中的一個經(jīng)典任務,語義解析(Sematic Parsing)是將自然語言的句子轉(zhuǎn)換為機器可解析的語義表征。工業(yè)界有大量基于語義解析的成熟應用,如問答系統(tǒng)、語音助手和代碼生成等等。

在過去的兩年間,隨著神經(jīng)編解碼方法的引入,語義分析模型也隨之發(fā)生了巨大的變化。近年來,研究者開始開發(fā)具有Seq2Seq模型的神經(jīng)語義解析器,這些解析器已經(jīng)取得了顯著的成果。

挑戰(zhàn)何在:

由于語義表征通常是結(jié)構(gòu)化對象(例如樹形結(jié)構(gòu)),因此研究人員投入了大量精力來開發(fā)基于結(jié)構(gòu)的解碼器,包括樹形解碼器、語法約束解碼器、語義圖生成的動作序列、以及基于抽象語法樹的模塊化解碼器。 

盡管這些方法取得了令人印象深刻的成果,但它們只考慮單詞序列信息,而忽略了編碼器端可用的其他豐富的語法信息,如依存樹(dependency tree)或短語結(jié)構(gòu)樹(constituency tree)。

最近,研究人員已經(jīng)證明了圖神經(jīng)網(wǎng)絡在各種NLP任務中的重要應用,包括神經(jīng)機器翻譯、信息提取、和基于AMR的文本生成。 在語義解析中,研究人員曾提出過Graph2Seq模型,將依存樹和短語結(jié)構(gòu)樹與單詞序列結(jié)合起來,然后創(chuàng)建一個語法圖作為編碼輸入。 然而,這種方法只是將邏輯形式視為一個序列,而忽略了解碼器體系結(jié)構(gòu)中結(jié)構(gòu)化對象(如樹)中的豐富信息。

核心貢獻:

論文作者提出了一種新的基于圖網(wǎng)絡的神經(jīng)語義解析器,即由一個圖形編碼器和一個分層樹形解碼器組成的Graph2Tree。

圖形編碼器將語法圖(syntactic graph)有效地編碼為矢量表征,而該語法圖是從單詞序列和相應的依存解析樹或短語結(jié)構(gòu)樹構(gòu)建的。具體而言,研究團隊先將原始文本數(shù)據(jù)相應的語法關系自然地結(jié)合到輸入序列中,形成一個圖形數(shù)據(jù)結(jié)構(gòu),然后用圖形編碼器從這個圖形架構(gòu)中學習到高質(zhì)量的矢量表征。

樹形解碼器從學習好的圖級矢量表征中解碼邏輯形式,充分學習邏輯形式表征的組成性質(zhì)。同時,研究團隊還提出在對應原始單詞令牌和解析樹節(jié)點的不同節(jié)點表征上計算單獨的注意機制,以計算用于解碼樹結(jié)構(gòu)化輸出的最終上下文向量。 然后通過聯(lián)合訓練,在給定語法圖的情況下來最大化正確描述的條件對數(shù)概率。

這篇論文一個比較大特點是自然語言的input和邏輯形式的output,兩邊都是結(jié)構(gòu)化對象,把輸入語句變成語法圖,然后做input,邏輯形式是一個結(jié)構(gòu)化ouput,用樹形解碼器來解碼,可以最好的利用隱含的結(jié)構(gòu)化信息和輸出的時候?qū)ο蟮奶攸c。

此外,研究團隊還研究了不同語法圖架構(gòu)對GNN語義分析性能的影響。它們發(fā)現(xiàn),由于依存樹解析器或復雜短語結(jié)構(gòu)樹的不完美性,圖形架構(gòu)引入的噪聲信息和結(jié)構(gòu)復雜性都可能導致對基于GNN的語義解析器性能的顯著不利影響。

實驗結(jié)果:

研究團隊通過實驗希望回答幾個問題:i)使用什么語法圖能讓基于圖網(wǎng)絡的方法表現(xiàn)良好? ii)通過正確構(gòu)建的圖形輸入,Graph2Tree與基線方法相比表現(xiàn)會更好嗎?

研究團隊在三個基準數(shù)據(jù)集JOBS、GEO和ATIS上評估了Graph2Tree框架。第一個是個工作列表數(shù)據(jù)庫JOBS,第二個是美國地理數(shù)據(jù)庫GEO,最后一個是航班預訂系統(tǒng)數(shù)據(jù)集ATIS。 

在數(shù)據(jù)集JOBS和GEO的比較結(jié)果中,研究團隊觀察到,無論使用何種類型的圖形結(jié)構(gòu),Graph2Tree在基于圖形輸入生成高質(zhì)量邏輯形式方面要優(yōu)于Graph2Seq模型。

在圖架構(gòu)方面,如果由CoreNLP工具產(chǎn)生的噪音導致語義解析錯誤,那么兩個解析器的性能都會降低,甚至不能與只有Word Order的解析器相比。

類似地,短語結(jié)構(gòu)樹的跳躍大小 — 即結(jié)構(gòu)復雜性 — 也對性能有很大影響。如果結(jié)構(gòu)信息壓倒性或極少,解析器的性能也會下降。

相反,當通過某種方法控制或減少輸入引起的噪聲時,可以顯著提高Word Order + 依存數(shù)的性能;選擇正確的圖層時,也可以提高Word Order + 短語結(jié)構(gòu)樹的表現(xiàn)。例如,單層切割中的Word Order + 短語結(jié)構(gòu)樹的邏輯形式精度分別高于Word Order。

乂學教育-松鼠AI崔煒:自適應學習的圖深度學習和知識圖

當天的研討會由SIGKDD主席、京東集團副總裁裴健發(fā)表開場詞,并邀請了來自斯坦福大學、清華大學、UCLA、UIUC等高校的學者發(fā)表演講。

乂學教育-松鼠AI首席科學家崔煒博士也受大會邀請,介紹了目前圖深度學習和知識圖在自適應學習中的進展。

乂學教育-松鼠AI獲KDD國際圖深度學習研討會最佳論文 & 最佳學生論文

乂學教育自主研發(fā)的松鼠AI智適應在線學習系統(tǒng),能不斷地監(jiān)測和評估學生個體的能力,發(fā)現(xiàn)他們學習中的弱點與不足,并讓學生按照自己的步伐進步,提高學習成果。該系統(tǒng)提供優(yōu)化的學習解決方案和同步的輔導支持,最大限度地提高學習效率,并提高學生的知識、技能和能力。

多年來,中國教育存在的高級教師資源短缺和地緣問題都影響優(yōu)質(zhì)教育的普及。松鼠AI的愿景是通過人工智能打造超級教師,給成千上萬的學生提供量身教學。“每一個孩子讀值得擁有一位一對一的超級教師,”崔煒說。

從2014年開始,乂學教育-松鼠AI就在自主研發(fā)針對中國K12學生的智適應學習系統(tǒng),它的主要目標是精確地診斷學生的知識點掌握情況,然后推薦個性化的學習內(nèi)容和學習路徑規(guī)劃。

首先是學生知識點的掌握。下圖是某位松鼠AI學生對物理知識點的熟練掌握程度,可以看到藍色的部分是該學生已經(jīng)掌握的部分,占80%;黃色的部分是學生相對 比較薄弱的知識點,占20%。

乂學教育-松鼠AI獲KDD國際圖深度學習研討會最佳論文 & 最佳學生論文

如何精確地獲悉學生的知識點掌握情況?松鼠AI從數(shù)據(jù)維度考量,可以通過學生的測試結(jié)果、測試時長、該測試的難度和涵蓋哪些知識點,甚至是學生選擇不同的錯誤選項和學生劃鼠標的行為,都可以被用來當做行為數(shù)據(jù)判斷。

具體到松鼠AI的工作原理,崔煒介紹說,這套智適應引擎共分為三層架構(gòu):本體層、算法層、交互系統(tǒng)。

本體層以內(nèi)容為主,包括學習目標的本體、學習內(nèi)容的本體和錯因分析本體。松鼠AI自主研發(fā)了超納米級的知識點拆分,可以對學生知識點更精準地判斷。以初中數(shù)學為例,松鼠AI可以將300個知識點細化為3萬個。

同時,松鼠AI基于貝葉斯網(wǎng)絡狀的圖譜,把相關的知識點關聯(lián)起來。通過這種技術,可以模擬優(yōu)秀老師教學的順序和關系,這種教學方法符合學生認知的規(guī)律和知識點層次難易上的關系。

算法層包含內(nèi)容推薦引擎、學生用戶畫像引擎、目標管理引擎等。松鼠AI會結(jié)合用戶狀態(tài)評估引擎和知識推薦引擎,構(gòu)建出數(shù)據(jù)模型,精準高效地測出每個學生的知識漏洞,根據(jù)學生的知識漏洞推薦相應的學習內(nèi)容。

交互系統(tǒng)通過采集交互數(shù)據(jù)了解更多學生的信息,包括管理系統(tǒng),檢測預警系統(tǒng)和實時的事件收集器。

崔煒強調(diào),基于人工智能的智適應學習系統(tǒng)采取了和傳統(tǒng)教育完全不同的教學過程。

比如,在知識狀態(tài)診斷方面,傳統(tǒng)診斷是基于高頻的考試,而松鼠AI的系統(tǒng)擁有基于信息論和知識空間理論的知識狀態(tài)診斷,能精確定位知識漏洞。

傳統(tǒng)的測評是基于成績或排名,傳統(tǒng)的智適應測評是基于 IRT、DINA、BKT、DKT模型,這些模型的缺陷是無法進行實時評測。松鼠AI的系統(tǒng)基于貝葉斯理論是能基于學生過去所有的記錄來進行持續(xù)性的、實時的評估。

在內(nèi)容推薦上,傳統(tǒng)的推薦算法采用的是協(xié)同過濾算法,但在教育領域該算法并不適用,因為每個學生盡管學習情況類似,但知識點掌握各不相同,協(xié)同過濾算法不夠精準,無法保證推薦內(nèi)容的效果。

松鼠AI采用的是神經(jīng)網(wǎng)絡,基于學生的學習成果實現(xiàn)個性化的推薦,并通過深度學習的算法進一步提升個性化學習的精準性和推薦的精準性。

算法的優(yōu)越性也體現(xiàn)在結(jié)果上。過去兩年,松鼠AI已經(jīng)在四次人機大戰(zhàn)中戰(zhàn)勝了優(yōu)秀教師。截至目前,松鼠AI已經(jīng)全國400多個城市開設近2000家線下學校,累計學生近200萬。

乂學教育-松鼠AI目前累計融資近10億人民幣。去年,松鼠AI還捐贈了100萬個賬號,給數(shù)百萬貧困家庭的孩子,來促進教育的公平化。

乂學教育-松鼠AI將在今年11月12-13日在上海中心舉辦第四屆全球人工智能智適應教育峰會(AIAED),本次大會組委會主席是CMU計算機學院院長、機器學習教父Tom Mitchell教授。崔煒希望相關的從業(yè)者能在此契機下匯聚一堂,共同推動人工智能教育的進步。

第四屆AIAED大會網(wǎng)址:

https://www.aiaed.net/

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說