0
本文作者: 楊曉凡 | 2018-02-08 10:12 | 專題:AAAI 2018 |
雷鋒網(wǎng) AI 科技評論按:正在美國新奧爾良召開的 AAAI 2018 的經(jīng)典論文獎頒給了《Algorithm and Tool for Automated Ontology Merging and Alignment》。這篇論文發(fā)表在 2000 年的第 17 屆 AAAI 大會上。這次頒獎是為了表彰這篇論文在本體匹配和集成研究方面的先驅(qū)性貢獻,論文中分析了這個問題的具體情況,并提出了首個創(chuàng)新的解決方案。組委會認為這篇論文直到今天也有重要意義,它非常清晰地定義了本體合并問題,并創(chuàng)造了啟發(fā)式的工具來應(yīng)對這個問題。
根據(jù)維基百科介紹,在計算機科學與信息科學領(lǐng)域,理論上,本體是指一種「形式化的,對于共享概念體系的明確而又詳細的說明」。本體提供的是一種共享詞表,也就是特定領(lǐng)域之中那些存在著的對象類型或概念及其屬性和相互關(guān)系;或者說,本體就是一種特殊類型的術(shù)語集,具有結(jié)構(gòu)化的特點,且更加適合于在計算機系統(tǒng)之中使用;或者說,本體實際上就是對特定領(lǐng)域之中某套概念及其相互之間關(guān)系的形式化表達(formal representation)。本體是人們以自己興趣領(lǐng)域的知識為素材,運用信息科學的本體論原理而編寫出來的作品。本體一般可以用來針對該領(lǐng)域的屬性進行推理,亦可用于定義該領(lǐng)域(也就是對該領(lǐng)域進行建模)。作為一種關(guān)于現(xiàn)實世界或其中某個組成部分的知識表達形式,本體論目前的應(yīng)用領(lǐng)域包括:人工智能、語義網(wǎng)、軟件工程、 生物醫(yī)學信息學、圖書館學以及信息架構(gòu)。
趁獲獎機會,AAAI 組委會邀請了論文作者之一的 Natasha Noy 進行演講。當年論文發(fā)表時 Natasha Noy 還在斯坦福大學攻讀,如今她就職于谷歌研究院。
雷鋒網(wǎng) AI 科技評論把演講主要內(nèi)容整理如下,并做了不改變原意的編輯和修改。
Natasha Noy:謝謝邀請我演講,這是一次很有趣的機會。
當時研究這個問題的時候我還在斯坦福大學研究生物醫(yī)學信息,當我們在研究神經(jīng)細胞的時候遇到了這個問題。論文完成后投到 AAAI ,當告知被接收之時,我們也覺得很驚喜。在座的各位如果對自己的論文不是很有信心,其實也可以投投看,最壞還能怎么樣呢。今天演講主要包含以下四部分內(nèi)容:
其實本體論的研究由來已久,它可以研究任何實物上的任何一個組成部分。它的定義可以看作是世界上任意兩個事物之間的關(guān)系。到了上世紀 80-90 年代,人工智能的出現(xiàn)重新統(tǒng)一化了問題的形式。
這是當年的論文,也有那個時代定義的框架用來交換知識、正式地定義問題。如果讓智能體能夠?qū)κ澜缃⑵鹫降拿枋?,而且理解這些描述,它們就有可能可以合作解決問題。
這種分享知識的想法在當時還很初級,現(xiàn)在已經(jīng)迅速發(fā)展到了知識圖譜;雖然聽起來不太一樣,但是其實和谷歌知識庫是一回事?,F(xiàn)在許多公司都有知識圖譜,用它來描述關(guān)系和實體。
最初的本體論方法并不正式,現(xiàn)在已經(jīng)發(fā)展得很正式。當時有兩個問題在各種論壇上反復(fù)被討論提及,一個是「本體論是什么?它需要變得有多正式?什么時候才能提取出確定性的內(nèi)容?」在 AAAI 1999 的論壇上就討論了這個問題。
另一個問題是「是否每個領(lǐng)域都需要一個獨立的本體論,還是可以有一組共通的理論在所有領(lǐng)域內(nèi)共享」,比如在金融、生物、醫(yī)療中的本體論是否相同。這個問題的兩種觀點當時都有很多人強烈支持,有一些針對單個領(lǐng)域的本體論提出后就得到了很多人支持,典型的例子比如基因領(lǐng)域,表達基因和生物函數(shù)的時候,不需要考慮別的麻煩的東西,直接使用基因的本體論就好了。
到了我們寫論文的時候,我們關(guān)心的是創(chuàng)造出一個足夠規(guī)律化的、足夠哲理化的本體論理論作為知識分享的描述方法的全部內(nèi)容,不僅很適合閱讀,也會構(gòu)建出我們自己的本體論,從而有更多的研究和項目可以建立在上面,我們自己也會有一些交互性的工具可以使用。
現(xiàn)在看這篇論文的話,這確實是一次有趣的實踐,嘗試為這個問題的研究做出貢獻。而且反正當時也有很多人在做本體合并和對齊研究,不管我們到底有沒有發(fā)表這篇論文,我們也就是剛好碰上了這個熱門的研究課題。
不過有幾件我們嘗試做的事情到現(xiàn)在都還有意義,我們嘗試給本體合并和對齊下定義。當時人們只能做到:這是一件事情,這是另一件事情,然后有一些公共知識的表征。
我們也設(shè)計并實現(xiàn)了一個算法 PROMPT,作為廣泛使用的開發(fā)工具 Protege 的插件,有不少研究者用它來幫助解決他們的問題。
另一件我們做到了、但當時并不那么流行的事情,就是這個工具是交互式的,我們其實花了很多心血開發(fā)它。它的規(guī)模并不大,我們當時并沒有很多資源,不過我們還是在考慮如何評估一個這樣的交互式系統(tǒng),要問哪些問題,我們?nèi)绾卧u估它確實有所不同。
合并還是對齊,這是我們當時主要考慮的問題之一,這真的是兩個不同的過程嗎?我們必須有一個基于本體論的工具來處理它們。在研究了一些案例之后我們覺得,確實不能把合并和對齊兩件事混為一談,必須各自獨立。我們就給它們做了不同的定義,雖然它們內(nèi)部的機理很相似,但確實是兩件不同的任務(wù)。
據(jù)此我們也就提出了我們的算法 PROMPT,它首先提出初步的建議,然后進入這個逐步選擇、提議、驗證的過程。
這是我們的軟件界面,作為 Protege 的插件。
我們需要考慮如何評估它。首先我們考慮了把人做實體合并的表現(xiàn)和工具的表現(xiàn)做對比,一個人用 PROMPT,一個人不用,把做出的動作和工具建議的部分做對比,據(jù)此計算準確率和召回率。在 2000 的時候還很少有人考慮這些問題,這可能也是我們的論文顯得突出的原因。
這一點在今天的意義就是,我們需要考慮我們的交互式系統(tǒng)實際上要做什么、我們要解決的問題到底是什么、是交互的部分更重要還是算法的部分更重要。
論文本身就說這么多。當時就有很多不同的本體論理論在發(fā)展,到現(xiàn)在這個領(lǐng)域的研究內(nèi)容非常的豐富,在谷歌上搜索都是上萬個結(jié)果。幾乎任何相關(guān)學術(shù)會議都有本體論對齊的會場或者論壇。
這么多年發(fā)展下來,本體論的方法方面也出現(xiàn)了很多有意思的點子,最初有詞法相似性、結(jié)構(gòu)相似性;也有了使用外部資源的方法;最新的還有機器學習的方法。
之所以這個領(lǐng)域有這么多的研究成果,我覺得本體對齊評估組織(OAEI)也功不可沒。它從 2004 年開始運轉(zhuǎn),每年都會設(shè)計不同的任務(wù)對各種方法進行評估,基本上創(chuàng)建了許多對齊任務(wù)的黃金標準。這些任務(wù)里也是有的更正式一些,有的不正式一些,有基于不同語言的本體對齊對比,尤其也有我們當時研究的生物醫(yī)學的。
參與 OAEI 評估的系統(tǒng)在前幾年也不斷增多。
我近期看了 OAEI 上的最新結(jié)果,醫(yī)學的這個是唯一一個大規(guī)模實驗得到的結(jié)果,不過 2017 年的最佳表現(xiàn)的系統(tǒng)并沒有比 2004 年的系統(tǒng)提高太多。
也有過新的互動式評估的匹配測試。
本體論的研究方面這些年來確實有各種各樣的進步,提升了準確率和召回率、能解決更復(fù)雜的問題、有交互式評估的工具、學術(shù)會議也有本體論的會場等等。
不過工業(yè)界運用本體論的例子還非常少,工業(yè)級會議幾乎不討論本體對齊,他們確實有知識圖譜,但用的方法不是本體對齊。
我自己也在思考為什么。我也嘗試查資料了解實際應(yīng)用的真實需求,想到了這些問題,但還沒有確切的答案。再過 15 年,本體論有更好的發(fā)展的時候可能我們會有更好的答案。
不過挑戰(zhàn)可能也并不在于找到更好的對齊算法,而是讓讓更多的實際應(yīng)用能夠使用算法。
謝謝大家!
(完)
AAAI 2018 還在繼續(xù)進行中,更多會議內(nèi)容報道請繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評論。
相關(guān)文章:
AAAI 2018 五個論文獎全部揭曉,「記憶增強的蒙特卡洛樹搜索」獲杰出論文
AAAI 2018全揭秘:1242篇中國投遞論文領(lǐng)跑全球,錄用數(shù)和美國平分秋色
AAAI 2018 第一天,在新奧爾良體驗學術(shù)頂會的魅力
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。