0
本文作者: 楊曉凡 | 2018-02-08 10:12 | 專題:AAAI 2018 |
雷鋒網(wǎng) AI 科技評(píng)論按:正在美國新奧爾良召開的 AAAI 2018 的經(jīng)典論文獎(jiǎng)?lì)C給了《Algorithm and Tool for Automated Ontology Merging and Alignment》。這篇論文發(fā)表在 2000 年的第 17 屆 AAAI 大會(huì)上。這次頒獎(jiǎng)是為了表彰這篇論文在本體匹配和集成研究方面的先驅(qū)性貢獻(xiàn),論文中分析了這個(gè)問題的具體情況,并提出了首個(gè)創(chuàng)新的解決方案。組委會(huì)認(rèn)為這篇論文直到今天也有重要意義,它非常清晰地定義了本體合并問題,并創(chuàng)造了啟發(fā)式的工具來應(yīng)對(duì)這個(gè)問題。
根據(jù)維基百科介紹,在計(jì)算機(jī)科學(xué)與信息科學(xué)領(lǐng)域,理論上,本體是指一種「形式化的,對(duì)于共享概念體系的明確而又詳細(xì)的說明」。本體提供的是一種共享詞表,也就是特定領(lǐng)域之中那些存在著的對(duì)象類型或概念及其屬性和相互關(guān)系;或者說,本體就是一種特殊類型的術(shù)語集,具有結(jié)構(gòu)化的特點(diǎn),且更加適合于在計(jì)算機(jī)系統(tǒng)之中使用;或者說,本體實(shí)際上就是對(duì)特定領(lǐng)域之中某套概念及其相互之間關(guān)系的形式化表達(dá)(formal representation)。本體是人們以自己興趣領(lǐng)域的知識(shí)為素材,運(yùn)用信息科學(xué)的本體論原理而編寫出來的作品。本體一般可以用來針對(duì)該領(lǐng)域的屬性進(jìn)行推理,亦可用于定義該領(lǐng)域(也就是對(duì)該領(lǐng)域進(jìn)行建模)。作為一種關(guān)于現(xiàn)實(shí)世界或其中某個(gè)組成部分的知識(shí)表達(dá)形式,本體論目前的應(yīng)用領(lǐng)域包括:人工智能、語義網(wǎng)、軟件工程、 生物醫(yī)學(xué)信息學(xué)、圖書館學(xué)以及信息架構(gòu)。
趁獲獎(jiǎng)機(jī)會(huì),AAAI 組委會(huì)邀請(qǐng)了論文作者之一的 Natasha Noy 進(jìn)行演講。當(dāng)年論文發(fā)表時(shí) Natasha Noy 還在斯坦福大學(xué)攻讀,如今她就職于谷歌研究院。
雷鋒網(wǎng) AI 科技評(píng)論把演講主要內(nèi)容整理如下,并做了不改變?cè)獾木庉嫼托薷摹?/p>
Natasha Noy:謝謝邀請(qǐng)我演講,這是一次很有趣的機(jī)會(huì)。
當(dāng)時(shí)研究這個(gè)問題的時(shí)候我還在斯坦福大學(xué)研究生物醫(yī)學(xué)信息,當(dāng)我們?cè)谘芯可窠?jīng)細(xì)胞的時(shí)候遇到了這個(gè)問題。論文完成后投到 AAAI ,當(dāng)告知被接收之時(shí),我們也覺得很驚喜。在座的各位如果對(duì)自己的論文不是很有信心,其實(shí)也可以投投看,最壞還能怎么樣呢。今天演講主要包含以下四部分內(nèi)容:
其實(shí)本體論的研究由來已久,它可以研究任何實(shí)物上的任何一個(gè)組成部分。它的定義可以看作是世界上任意兩個(gè)事物之間的關(guān)系。到了上世紀(jì) 80-90 年代,人工智能的出現(xiàn)重新統(tǒng)一化了問題的形式。
這是當(dāng)年的論文,也有那個(gè)時(shí)代定義的框架用來交換知識(shí)、正式地定義問題。如果讓智能體能夠?qū)κ澜缃⑵鹫降拿枋?,而且理解這些描述,它們就有可能可以合作解決問題。
這種分享知識(shí)的想法在當(dāng)時(shí)還很初級(jí),現(xiàn)在已經(jīng)迅速發(fā)展到了知識(shí)圖譜;雖然聽起來不太一樣,但是其實(shí)和谷歌知識(shí)庫是一回事?,F(xiàn)在許多公司都有知識(shí)圖譜,用它來描述關(guān)系和實(shí)體。
最初的本體論方法并不正式,現(xiàn)在已經(jīng)發(fā)展得很正式。當(dāng)時(shí)有兩個(gè)問題在各種論壇上反復(fù)被討論提及,一個(gè)是「本體論是什么?它需要變得有多正式?什么時(shí)候才能提取出確定性的內(nèi)容?」在 AAAI 1999 的論壇上就討論了這個(gè)問題。
另一個(gè)問題是「是否每個(gè)領(lǐng)域都需要一個(gè)獨(dú)立的本體論,還是可以有一組共通的理論在所有領(lǐng)域內(nèi)共享」,比如在金融、生物、醫(yī)療中的本體論是否相同。這個(gè)問題的兩種觀點(diǎn)當(dāng)時(shí)都有很多人強(qiáng)烈支持,有一些針對(duì)單個(gè)領(lǐng)域的本體論提出后就得到了很多人支持,典型的例子比如基因領(lǐng)域,表達(dá)基因和生物函數(shù)的時(shí)候,不需要考慮別的麻煩的東西,直接使用基因的本體論就好了。
到了我們寫論文的時(shí)候,我們關(guān)心的是創(chuàng)造出一個(gè)足夠規(guī)律化的、足夠哲理化的本體論理論作為知識(shí)分享的描述方法的全部?jī)?nèi)容,不僅很適合閱讀,也會(huì)構(gòu)建出我們自己的本體論,從而有更多的研究和項(xiàng)目可以建立在上面,我們自己也會(huì)有一些交互性的工具可以使用。
現(xiàn)在看這篇論文的話,這確實(shí)是一次有趣的實(shí)踐,嘗試為這個(gè)問題的研究做出貢獻(xiàn)。而且反正當(dāng)時(shí)也有很多人在做本體合并和對(duì)齊研究,不管我們到底有沒有發(fā)表這篇論文,我們也就是剛好碰上了這個(gè)熱門的研究課題。
不過有幾件我們嘗試做的事情到現(xiàn)在都還有意義,我們嘗試給本體合并和對(duì)齊下定義。當(dāng)時(shí)人們只能做到:這是一件事情,這是另一件事情,然后有一些公共知識(shí)的表征。
我們也設(shè)計(jì)并實(shí)現(xiàn)了一個(gè)算法 PROMPT,作為廣泛使用的開發(fā)工具 Protege 的插件,有不少研究者用它來幫助解決他們的問題。
另一件我們做到了、但當(dāng)時(shí)并不那么流行的事情,就是這個(gè)工具是交互式的,我們其實(shí)花了很多心血開發(fā)它。它的規(guī)模并不大,我們當(dāng)時(shí)并沒有很多資源,不過我們還是在考慮如何評(píng)估一個(gè)這樣的交互式系統(tǒng),要問哪些問題,我們?nèi)绾卧u(píng)估它確實(shí)有所不同。
合并還是對(duì)齊,這是我們當(dāng)時(shí)主要考慮的問題之一,這真的是兩個(gè)不同的過程嗎?我們必須有一個(gè)基于本體論的工具來處理它們。在研究了一些案例之后我們覺得,確實(shí)不能把合并和對(duì)齊兩件事混為一談,必須各自獨(dú)立。我們就給它們做了不同的定義,雖然它們內(nèi)部的機(jī)理很相似,但確實(shí)是兩件不同的任務(wù)。
據(jù)此我們也就提出了我們的算法 PROMPT,它首先提出初步的建議,然后進(jìn)入這個(gè)逐步選擇、提議、驗(yàn)證的過程。
這是我們的軟件界面,作為 Protege 的插件。
我們需要考慮如何評(píng)估它。首先我們考慮了把人做實(shí)體合并的表現(xiàn)和工具的表現(xiàn)做對(duì)比,一個(gè)人用 PROMPT,一個(gè)人不用,把做出的動(dòng)作和工具建議的部分做對(duì)比,據(jù)此計(jì)算準(zhǔn)確率和召回率。在 2000 的時(shí)候還很少有人考慮這些問題,這可能也是我們的論文顯得突出的原因。
這一點(diǎn)在今天的意義就是,我們需要考慮我們的交互式系統(tǒng)實(shí)際上要做什么、我們要解決的問題到底是什么、是交互的部分更重要還是算法的部分更重要。
論文本身就說這么多。當(dāng)時(shí)就有很多不同的本體論理論在發(fā)展,到現(xiàn)在這個(gè)領(lǐng)域的研究?jī)?nèi)容非常的豐富,在谷歌上搜索都是上萬個(gè)結(jié)果。幾乎任何相關(guān)學(xué)術(shù)會(huì)議都有本體論對(duì)齊的會(huì)場(chǎng)或者論壇。
這么多年發(fā)展下來,本體論的方法方面也出現(xiàn)了很多有意思的點(diǎn)子,最初有詞法相似性、結(jié)構(gòu)相似性;也有了使用外部資源的方法;最新的還有機(jī)器學(xué)習(xí)的方法。
之所以這個(gè)領(lǐng)域有這么多的研究成果,我覺得本體對(duì)齊評(píng)估組織(OAEI)也功不可沒。它從 2004 年開始運(yùn)轉(zhuǎn),每年都會(huì)設(shè)計(jì)不同的任務(wù)對(duì)各種方法進(jìn)行評(píng)估,基本上創(chuàng)建了許多對(duì)齊任務(wù)的黃金標(biāo)準(zhǔn)。這些任務(wù)里也是有的更正式一些,有的不正式一些,有基于不同語言的本體對(duì)齊對(duì)比,尤其也有我們當(dāng)時(shí)研究的生物醫(yī)學(xué)的。
參與 OAEI 評(píng)估的系統(tǒng)在前幾年也不斷增多。
我近期看了 OAEI 上的最新結(jié)果,醫(yī)學(xué)的這個(gè)是唯一一個(gè)大規(guī)模實(shí)驗(yàn)得到的結(jié)果,不過 2017 年的最佳表現(xiàn)的系統(tǒng)并沒有比 2004 年的系統(tǒng)提高太多。
也有過新的互動(dòng)式評(píng)估的匹配測(cè)試。
本體論的研究方面這些年來確實(shí)有各種各樣的進(jìn)步,提升了準(zhǔn)確率和召回率、能解決更復(fù)雜的問題、有交互式評(píng)估的工具、學(xué)術(shù)會(huì)議也有本體論的會(huì)場(chǎng)等等。
不過工業(yè)界運(yùn)用本體論的例子還非常少,工業(yè)級(jí)會(huì)議幾乎不討論本體對(duì)齊,他們確實(shí)有知識(shí)圖譜,但用的方法不是本體對(duì)齊。
我自己也在思考為什么。我也嘗試查資料了解實(shí)際應(yīng)用的真實(shí)需求,想到了這些問題,但還沒有確切的答案。再過 15 年,本體論有更好的發(fā)展的時(shí)候可能我們會(huì)有更好的答案。
不過挑戰(zhàn)可能也并不在于找到更好的對(duì)齊算法,而是讓讓更多的實(shí)際應(yīng)用能夠使用算法。
謝謝大家!
(完)
AAAI 2018 還在繼續(xù)進(jìn)行中,更多會(huì)議內(nèi)容報(bào)道請(qǐng)繼續(xù)關(guān)注雷鋒網(wǎng) AI 科技評(píng)論。
相關(guān)文章:
AAAI 2018 五個(gè)論文獎(jiǎng)全部揭曉,「記憶增強(qiáng)的蒙特卡洛樹搜索」獲杰出論文
AAAI 2018全揭秘:1242篇中國投遞論文領(lǐng)跑全球,錄用數(shù)和美國平分秋色
AAAI 2018 第一天,在新奧爾良體驗(yàn)學(xué)術(shù)頂會(huì)的魅力
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。
本專題其他文章