丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
人工智能學(xué)術(shù) 正文
發(fā)私信給MrBear
發(fā)送

0

以史為鑒:從數(shù)字計算機到知識圖譜的這 60 多年

本文作者: MrBear 編輯:幸麗娟 2019-12-24 23:50
導(dǎo)語:「忘記過去的人注定要重蹈覆轍」- George Santayana

雷鋒網(wǎng)AI科技評論按:以史為鑒,可以知興替??v觀近期包括 AAAI、NeurIPS、IJCAI 在內(nèi)的人工智能頂級會議,對圖結(jié)構(gòu)模型的研究是一個繞不開的話題,大量的學(xué)者紛紛涌入了這個賽道,想一試身手。

然而,作為一類古老的理論,人們對圖論的研究實際上貫穿于計算機科學(xué)發(fā)展的始終。如今我們看來耀眼輝煌的人工智能技術(shù),實際上也是離散數(shù)學(xué)、統(tǒng)計理論、邏輯推理、數(shù)據(jù)庫、分布式計算等基礎(chǔ)理論厚積薄發(fā)的產(chǎn)物。

本文是智利大學(xué)教授 Claudio Gutierrez 為今年的 ISWC 大會所撰寫的主題文章,從人工智能的起源開始,循序漸進地介紹了知識圖譜誕生的歷史,也探討了該學(xué)科未來的研究方向。

引言

「忘記過去的人注定要重蹈覆轍」

—— George Santayana

從某種程度上來說,我們可以認(rèn)為知識圖譜實現(xiàn)了計算機科學(xué)早期的愿景:創(chuàng)造智能化的系統(tǒng),從而大規(guī)模集成知識和數(shù)據(jù)。本世紀(jì)初,研究者們提出了「知識圖譜」這一術(shù)語,谷歌自 2012 年起便大力推廣「知識圖譜」技術(shù),讓它在學(xué)術(shù)界和工業(yè)界迅速流行了起來。

不過要務(wù)必注意的是,無論人們對「知識圖譜」如何定義、進行怎樣的討論,客觀地說,它都是各個研究領(lǐng)域(例如,語義 Web,數(shù)據(jù)庫,知識表征和推理,自然語言處理,機器學(xué)習(xí)等等)科學(xué)進展的結(jié)晶。

將這些來自不同學(xué)科的思想和技術(shù)融合起來,極大豐富了知識圖譜的概念,但同時也給相關(guān)從業(yè)人員和研究人員提出了挑戰(zhàn):他們需要知道當(dāng)前的研究進展如何根植于早期的技術(shù),并從中發(fā)展而來。

本文將討論什么?

作者選擇從知識圖譜學(xué)科歷史發(fā)展的角度進行介紹,并且突出相關(guān)的重點內(nèi)容。本文為讀者展示了該領(lǐng)域的知識結(jié)構(gòu),引導(dǎo)讀者跟進最新的相關(guān)思想、理論,以及我們認(rèn)為具有標(biāo)志性意義、并推動了當(dāng)前學(xué)科發(fā)展的學(xué)術(shù)事件。本文旨在幫助讀者理解哪些思想有效、哪些無效,并反映出它如何啟發(fā)人們得出下一個想法。

為什么要寫這篇文章?

對于一名研究者來說,了解研究領(lǐng)域的歷史背景對于推斷出通往未來的可能途徑至關(guān)重要。今天,這種重要性尤其凸顯了出來,因為人們每天都淹沒在了無窮無盡的信息的海洋中。這些歷史背景堪稱科研方法的「DNA」:為站在巨人的肩膀上而進行背景調(diào)研。

對于語義 Web 研究領(lǐng)域來說,尤其是其中前景最為光明的一個發(fā)展領(lǐng)域——知識圖譜,我們注意到學(xué)生和初級研究者并沒有完全地熟知他們所掌握的思想、概念和技術(shù)的來源。我們認(rèn)為本文將是為克服這一缺點所邁出的一小步。

本文作者根據(jù)自己的經(jīng)驗提出了撰寫這篇文章的想法。Juan 在以「Integrating Semantic Web in the Real World: A journey between two cities」為主題的演講(http://www.juansequeda.com/blog/2019/01/07/my-most-memorable-event-of-2018/)中,對邏輯和數(shù)據(jù)的歷史進行了簡要的介紹。

在 2018 年的 15 場演講中,Juan 向聽眾提出了以下問題:「如果你知道在 1956 年夏天舉行的達特茅斯人工智能暑期研究項目,請舉手」以及「你是否聽說過上世紀(jì) 80 年代日本發(fā)布的第五代計算機計劃」?

而每次,都只有很少的聽眾舉手,并且這些聽眾往往是參加講座的高級研究者。

另一方面,出于類似的動機,Claudio 在一些場合也簡短地介紹了知識圖譜的歷史(「知識圖譜概念的簡明敘述」),激發(fā)了年輕研究者的興趣。這些反復(fù)發(fā)生的事件也促使作者撰寫了本文和相關(guān)教程。

據(jù)我們所知,我們?nèi)匀粵]有深刻理解知識圖譜概念長期以來背后的思想、概念和技術(shù)[1]。我們希望本文可以對此作出貢獻。

本文的內(nèi)容和組織結(jié)構(gòu)

知識圖譜的概念所包含的基本要素可以追溯到古代。如果你想要深入挖掘它們的起源,應(yīng)該同時考慮多個學(xué)科,其中包括數(shù)學(xué)、哲學(xué)、語言學(xué)和心理學(xué)[2]。然而,我們沒有時間追溯回遠古時代 [3],重新審視廣泛的科學(xué)領(lǐng)域。

因此,從時間的角度來看,我們將集中討論現(xiàn)代意義上的計算出現(xiàn)之后(上世紀(jì) 50 年代),知識圖譜的演變。此外,我們將每個時代劃分為「數(shù)據(jù)」,「知識」和「數(shù)據(jù)+知識」來組織相關(guān)的思想、技術(shù)和系統(tǒng)。 我們以幾十年為一個周期,但我們也意識到,周期之間的界限實際上較為模糊[4]。

文中參考的相關(guān)論文,本文都會一一列出。

一、數(shù)字時代的來臨(20世紀(jì) 50、60年代) 

數(shù)字計算機的出現(xiàn)和普及、第一代編程語言(LISP、FORTRAN、COBOL、ALGOL 等最具代表性的語言)、一個新的科學(xué)和技術(shù)領(lǐng)域(即計算機科學(xué))的誕生,標(biāo)志著數(shù)字時代的開端。

接下來,我們將重點介紹這一時代的五條發(fā)展路線:

(1)第一條發(fā)展路線是自動推理。

Newell、Shaw 和 Simon 在 1956 年發(fā)明的「Logic Theorist」是第一個標(biāo)志性的處理復(fù)雜信息的程序。在這之后,他們于 1958 年開發(fā)的「通用解題程序」,很好地闡釋了研究人員奉為圭臬的研究范式:「該程序是作者的研究工作的一部分,目的是理解人類智能、適應(yīng)能力和創(chuàng)造能力背后的信息處理機制」。其目標(biāo)為:「構(gòu)建可以解決對智能和適應(yīng)性有所需求的計算機程序,并探索這些程序中有哪些可以與人類處理問題的方式相匹配」。

此后,研究者們繼續(xù)在自動推理領(lǐng)域取得了一系列進展,其中較為突出的工作有:Robinson 第一定理(歸結(jié)原理)[5]、Green 和 Raphael 通過開發(fā)問答系統(tǒng)將數(shù)據(jù)庫中的定理證明和演繹聯(lián)系起來[6][7]。

在實踐層面上,「推理」特征的實現(xiàn)是多種多樣的。Joseph Weizenbaum 的 ELIZA 系統(tǒng)就是一個很好的例子,只要程序編寫正確,該程序就可以用英語進進行關(guān)于任何話題的對話。

(2)第二條發(fā)展路線就是我們今天所說的「在空間中搜索」。

很早,人們就意識到在某種空間中進行搜索是所謂的「智能」或「推理」的努力的重要部分。為這樣的空間建立一種好的表征可以使搜索更加容易?!概判颉咕褪且粋€很直觀的例子(70 年代以前,有 25% 的計算時間被用來對數(shù)據(jù)進行排序,使任何搜索過程都變得可行[8])。

甚至在計算機出現(xiàn)之前,對于從事數(shù)據(jù)處理的人來說,搜索的概念就廣為人知。但是,對于在多樣且復(fù)雜的空間(特別是在國際象棋、跳棋、圍棋等游戲中產(chǎn)生的搜索空間)中進行搜索和表征的思想還是很新穎的。迪杰斯特拉(Dijkstra)于 1956 年提出了著名的最短路徑算法,而這一算法在 1968 年被擴展,從而產(chǎn)生了 A* 算法。

(3)第三條發(fā)展路線是從非結(jié)構(gòu)化數(shù)據(jù)源中檢索信息。

一旦具備了一定的計算能力,人們就可以從傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)之外的數(shù)據(jù)源中獲取數(shù)據(jù)。其中,具有里程碑意義的工作是:Bertram Raphael 于 1964 年發(fā)表的「SIR: A Computer Program for Semantic Information Retrieval」(論文地址:https://dspace.mit.edu/handle/1721.1/6904)。

該系統(tǒng)展示了可以合理地被稱為「理解」語義信息的能力。它使用單詞關(guān)聯(lián)和屬性列表來建模對話語句中傳達的關(guān)系信息。同時,他們通過格式匹配處理程序從英語句子中提取語義內(nèi)容。

(4)第四條發(fā)展路線是處理數(shù)據(jù)的語言和系統(tǒng)。

這一方向具有標(biāo)志性的工作是:Charles Bachman 于 1963 年提出的集成數(shù)據(jù)存儲(IDS)系統(tǒng)[9]。IDS 系統(tǒng)在磁盤上維護共享文件的集合,擁有構(gòu)造和維護這些集合的工具和一種操作數(shù)據(jù)的應(yīng)用程序語言。

這種做法保證了工作的效率,但是犧牲了后來被稱為「數(shù)據(jù)獨立性」的特性。IDS 成為了「CODASYL」標(biāo)準(zhǔn)的基礎(chǔ),后來還演變成了人們熟知的數(shù)據(jù)庫管理系統(tǒng)(DBMS)。

此外,人們認(rèn)為應(yīng)該有更多的專用語言來處理數(shù)據(jù),從而催生了 COBOL(1959)。COBOL 是一種早期的面向數(shù)據(jù)處理的編程語言,其語法看上去與英語類似。

(5)第五條發(fā)展路線是知識的圖表征。

由 Richard H.Richens 于 1956 年提出的「語義網(wǎng)絡(luò)」是知識圖譜領(lǐng)域最重要的概念之一,起初人們將它作為自然語言機器翻譯的一種工具[10]。

然而,只有少數(shù)研究人員獨立地進行了進一步的研究,其中較為有影響力的工作有:Ross Quillian 于 1963 年發(fā)表的「A notation for representing conceptual information: An application to semantics and mechanical English paraphrasing」(論文地址:https://apps.dtic.mil/docs/citations/AD0425486),他于 1967 年發(fā)表的博士論文「Word concepts: A theory and simulation of some basic semantic capabilities」(論文地址:https://onlinelibrary.wiley.com/doi/abs/10.1002/bs.3830120511)也對此進行了說明[11]。

在上世紀(jì) 50 年年代和 60 年代期間,人們意識到:

  •  自動推理的重要性和可行性

  • 處理大型搜索空間的問題

  • 對理解自然語言和其它人類對于知識的表征的需要

  • 語義網(wǎng)絡(luò)(和更加通用的圖表征)作為抽象層的潛力

  • 系統(tǒng)和高級語言對于管理數(shù)據(jù)的相關(guān)性

當(dāng)時技術(shù)的局限性則包括:

  • 硬件的物理、技術(shù)和成本限制

  • 圖表征和線性實現(xiàn)之間的差異

  • 人類語言邏輯和計算機系統(tǒng)處理的數(shù)據(jù)之間的差異

參考文獻

主要文獻:

  • Bachman, MIACS 1962; See: Charles W. Bachman. The Origin of the Integrated Data Store (IDS): The First Direct-Access DBMS.  IEEE Annals of the History of Computers, 2009, vol. 31, pp. 42-54.

  • Newell, A.; Shaw, J.C.; Simon, H.A. (1958-9).?Report on a general problem-solving program.?Proceedings of the International Conference on Information Processing. pp. 256–264.

  • Bertram Raphael. SIR: A Computer Program for Semantic Information Retrieval. (1964)

  • Robinson, J. Alan (1965). "A Machine-Oriented Logic Based on the Resolution Principle".?Journal of the ACM. 12 (1): 23–41

次要文獻:

  • Stuart Russel & Peter Norvig.  Artificial Intelligence, A Modern Approach, 1995. Chps. 1.2, 1.3

  • Paul E. Ceruzzi, History of Modern Computing, 2nd. Edit. MIT Press, 2003.

  • Minker, J., Gallaire, H., and Nicolas, J.-M., Logic and Databases: A Deductive Approach, ACM Computing Surveys 16(2):153-185 (1984).

二、數(shù)據(jù)和知識的基石(20 世紀(jì) 70 年代

上世紀(jì) 70 年代,計算機在工業(yè)界得到了更加廣泛的應(yīng)用。在這十年間,諸如蘋果和微軟等著名的公司紛紛成立。同時,像「Wordstar」和「Visicalc」等數(shù)據(jù)處理系統(tǒng)也誕生了。此時,存儲和處理能力不斷提升,人類的專業(yè)知識漸漸積累,從而推動了大型公司對改進數(shù)據(jù)管理方法的需求。

1、數(shù)據(jù)

對數(shù)據(jù)處理需求的增長帶來了通過「表征獨立性」(Representational Independence)概念體現(xiàn)的勞動分工。 這個時候,程序員和應(yīng)用程序現(xiàn)在「忘掉」為了訪問數(shù)據(jù)而對數(shù)據(jù)進行物理上的組織的方法。

這一想法是 Edgar Codd 的論文「A Relational Model of Data for Large Shared Data Banks」的核心,該論文描述了利用關(guān)系作為一種數(shù)學(xué)模型來提供表征獨立性(Codd 將其稱之為「數(shù)據(jù)獨立性」)。這種理念促進了數(shù)據(jù)庫管理系統(tǒng)和建模工具的發(fā)展。

在建模層面上,Peter Chen 在他的論文「The Entity-Relationship Model - Toward a Unified View of Data」中介紹了「關(guān)系-實體」(ER)數(shù)據(jù)模型,提倡基于實體和它們之間的關(guān)系對數(shù)據(jù)建模。這樣的 ER 模型以圖的形式包含了現(xiàn)實世界的語義信息。這是早期嘗試將概念設(shè)計與數(shù)據(jù)模型(在本例中是關(guān)系數(shù)據(jù)模型)聯(lián)系起來的嘗試之一。

在系統(tǒng)層面上,人們基于關(guān)系模型,開發(fā)并實現(xiàn)了用于管理數(shù)據(jù)的軟件應(yīng)用程序,即關(guān)系型數(shù)據(jù)庫數(shù)據(jù)庫管理系統(tǒng)(RDBMS)。在這十年間,出現(xiàn)了兩個關(guān)鍵系統(tǒng):

(1)IBM 的 System R,詳情請參閱論文「System R: Relational Approach to Database Management」,論文地址:http://daslab.seas.harvard.edu/reading-group/papers/astrahan-1976.pdf

(2)加州大學(xué)伯克利分校的 INGRES 系統(tǒng),詳情請參閱論文「The Design and Implementation of INGRES」。論文地址:https://www.seas.upenn.edu/~zives/cis650/papers/INGRES.PDF

這些系統(tǒng)首次實現(xiàn)了 Codd 所描述的關(guān)系模型查詢系統(tǒng)的「愿景」,包括關(guān)系查詢語言(如最終催生了當(dāng)今最成功的聲明式查詢語言 SQL 的 SEQUEL 和 QUEL)。

2、知識

雖然「數(shù)據(jù)」流派重點關(guān)注數(shù)據(jù)結(jié)構(gòu),并創(chuàng)建系統(tǒng)以最好地管理數(shù)據(jù),但「知識」流派則重點關(guān)注數(shù)據(jù)的意義。

S. C. Shapiro 的工作便是這一方向的早期探索,他提出了一種網(wǎng)絡(luò)數(shù)據(jù)結(jié)構(gòu)(一種存儲方式)來組織和檢索語義信息[13]。這些想法在語義網(wǎng)絡(luò)和處理系統(tǒng)(SNePS)中得以實現(xiàn),它可以被認(rèn)為是第一個獨立的 KRR 系統(tǒng)。

在這十年間,對語義網(wǎng)絡(luò)結(jié)構(gòu)的批評甚囂塵上,主要都是針對其較弱的邏輯基礎(chǔ)。在這些批評的聲音中,具有代表性的工作是 Wood 于 1975 年發(fā)表的論文「What's in a Link: Foundations for Semantic Networks」,論文地址:https://apps.dtic.mil/dtic/tr/fulltext/u2/a022584.pdf

在這十年間,研究者們通過意義和形式化語義對語義網(wǎng)絡(luò)進行了拓展。另一種代表性的人工智能語言是 Marvin Minsky 于 1974 年在論文「A Framework for Representing Knowledge」中提出的 Frames,它是一種為局部和微觀的數(shù)據(jù)賦予結(jié)構(gòu)和可擴展性的方式,即給出一種「統(tǒng)一且連貫的理論」。其中,我們將一個由節(jié)點和關(guān)系組成的網(wǎng)絡(luò)定義為一個「幀」。論文地址:https://dspace.mit.edu/bitstream/handle/1721.1/6089/AIM-306.pdf?sequence=2&isAllowed=y

1976 年,John Sowa 在他的論文「Conceptual Graphs for a Data Base Interface」中引入了概念圖,作為一種將自然語言查詢和斷言映射到關(guān)系型數(shù)據(jù)庫中的中間語言。這種形式化的體系體現(xiàn)為概念和關(guān)系類型的有序邏輯。論文地址:https://pdfs.semanticscholar.org/2ae6/ac8fc13710d9c086c0e5cb952eef52c9b3cd.pdf

幾乎在同一時間,Patrick Hayes 于 1977 年在其論文「In Defense of Logic」中認(rèn)識到,可以使用一階邏輯對 Frame 網(wǎng)絡(luò)進行形式化處理。論文地址:https://pdfs.semanticscholar.org/1fd7/d9517c41f3102aedf6dba01f3572ec34ad0d.pdf

這份工作后來影響了 Brachman 和 Levesque,啟發(fā)他們確定了一個易處理的一階邏輯的子集,而這后來成為了描述邏輯領(lǐng)域的第一個研究進展。(詳見 1980 年代)

3、數(shù)據(jù)+知識

在這十年間,我們開始經(jīng)歷數(shù)據(jù)和知識的融合。Robert Kowalski 在論文「Predicate Logic?as Programming?Language」中提出將邏輯同時作為聲明式的和過程式的知識表征,這一領(lǐng)域目前被稱為「邏輯編程」。Alain Colmerauer 在 PROLOG 語言中實現(xiàn)了這些思想。論文地址:https://www.researchgate.net/publication/221330242_Predicate_Logic_as_Programming_Language                          

在構(gòu)建一個基于知識的系統(tǒng)時,一個重要的問題是「從哪里獲取知識」,該領(lǐng)域被稱為「知識獲取」。專家系統(tǒng)是對特定領(lǐng)域人類專家的知識(特別是規(guī)則)進行編碼的程序,它解決了知識獲取的問題。

上世紀(jì) 60 年代后期,Edward Shortliffe 開始開發(fā)第一個專家系統(tǒng),該系統(tǒng)在 70 年代逐漸流行了起來。MYCIN 是專家系統(tǒng)的一個經(jīng)典范例,它是一個識別引起嚴(yán)重感染的細(xì)菌的專家系統(tǒng)[14]。           

于 1977 年在法國的圖盧茲舉行的邏輯和數(shù)據(jù)庫研討會是這十年中的一個里程碑事件,它由  Herve Gallaire,Jack Minker,和 Jean-Marie Nicolas 組織。

在這次研討會上,出現(xiàn)了諸如 Ray Reiter 提出的「封閉世界假設(shè)」和 Keith Clark 提出的「失敗即否定」原則等重要的概念,這次會議可以被認(rèn)為標(biāo)志著數(shù)據(jù)邏輯方法的誕生,對該領(lǐng)域產(chǎn)生了深遠的影響。人們普遍認(rèn)為,這次研討會形式化定義了邏輯和數(shù)據(jù)庫之間的聯(lián)系,并將其作為一個單獨的字段。

在這十年間,人們意識到:

  • 需要保證表征獨立性,關(guān)系模型就是第一個例子,而這種方法也可以在實際的系統(tǒng)中被實現(xiàn)。

  • 需要通過形式化邏輯的工具,形式化定義語義網(wǎng)絡(luò)。

  • 可以通過網(wǎng)絡(luò)的方法將邏輯和數(shù)據(jù)融合起來。

當(dāng)時技術(shù)的局限性包括:

  • 在數(shù)據(jù)方面,需要有更靈活的數(shù)據(jù)結(jié)構(gòu)來表征新型的數(shù)據(jù),從而產(chǎn)生了面向?qū)ο蟮乃枷牒蛨D數(shù)據(jù)結(jié)構(gòu)。

  • 在知識方面,需要進一步理解邏輯中知識的形式化,從而產(chǎn)生了描述邏輯。

參考文獻

主要文獻:

  • Shortliffe, E. Computer-Based Medical Consultations: MYCIN. 1976

  • E. F. Codd: A Relational Model of Data for Large Shared Data Banks. Commun. ACM 13(6): 377-387 (1970)

  • Peter P. Chen: The Entity-Relationship Model - Toward a Unified View of Data. ACM Trans. Database Syst. 1(1): 9-36 (1976)

  • Michael Stonebraker, Eugene Wong, Peter Kreps, Gerald Held: The Design and Implementation of INGRES. ACM Trans. Database Syst. 1(3): 189-222 (1976)

  • Robert Kowalski 74  Predicate Logic as Programming Language. ?Information Processing 1974.

  • Patrick Hayes 1979.  In Defense of Logic. IJCAI 1977

  • Patrick Hayes 1981. The Logic of Frames. January 1979.

  • Marvin Minsky. A Framework for Representing Knowledge. MIT-AI Laboratory Memo 306, June,  1974. Reprinted in The Psychology of Computer Vision, P. Winston (Ed.), McGraw-Hill, 1975.

  • J-M. Nicolas, J. Minker, H. Gallaire. Logic and Data Bases Workshop 1977

  • Sowa, John F. (1976) “Conceptual graphs for a database interface,” IBM Journal of Research and Development 20:4, 336-357.

  • Buchanan and Feigenbaum. 1978?Dendral and meta-dendral: Their applications dimension

  • Shortliffe 1976.?Computer-based medical consultations: MYCIN

次要文獻:

  • Alain Colmerauer and Philippe Roussel. 1993. The birth of Prolog. SIGPLAN Not. 28, 3 (March 1993), 37-52

  • F. Puppe, Systematic Introduction to Expert Systems. Springer-Verlag Berlin Heidelberg 1993. Ch. 1. Characterization and History of Expert Systems.

  • Edward A. Feigenbaum. Expert Systems: Principles and Practice. In: The Encyclopedia of Computer Science and Engineering, 1992.

三、管理數(shù)據(jù)和知識(20 世紀(jì) 80 年代)

20 世紀(jì) 80 年代,隨著個人電腦的蓬勃發(fā)展,計算任務(wù)逐漸從工業(yè)界發(fā)展到家庭。在數(shù)據(jù)管理領(lǐng)域,關(guān)系型數(shù)據(jù)庫工業(yè)發(fā)展迅速(Oracle、Sybase、IBM 等公司紛紛入場)。面向?qū)ο蟮某橄笞鳛橐环N新的表征獨立性的形式而發(fā)展起來。與此同時,互聯(lián)網(wǎng)開始改變?nèi)藗兘涣骱徒粨Q信息的方式。

1、數(shù)據(jù)

不斷增長的計算能力推動了新計算領(lǐng)域和相關(guān)產(chǎn)品的發(fā)展。這些反過來又生成了需要管理的復(fù)雜數(shù)據(jù)。此外,假定表征獨立性需要的關(guān)系演變導(dǎo)致了軟件程序與數(shù)據(jù)的分離,促使人們想方設(shè)法將編程語言(特別是像 Smalltalk 這樣的面向?qū)ο笳Z言)與數(shù)據(jù)庫結(jié)合起來。這導(dǎo)致了面向?qū)ο蟮臄?shù)據(jù)庫(OODB)的發(fā)展。

該領(lǐng)域研究如何通過引入將成為未來數(shù)據(jù)中心的功能(如對象、標(biāo)識符、關(guān)系、繼承對象相等[15]),處理復(fù)雜的數(shù)據(jù)。許多來自學(xué)術(shù)界和工業(yè)界的系統(tǒng)在這個時期得到了蓬勃發(fā)展,例如 Encore-Observer(布朗大學(xué))、EXODUS(威斯康星大學(xué)麥迪遜分校)、IRIS(惠普)、ODE (貝爾實驗室)、ORION(MCC)和 Zeitgeist(德州儀器),這些系統(tǒng)衍生了一系列商業(yè)產(chǎn)品。

在這一時期,人們開始將圖作為面向?qū)ο髷?shù)據(jù)、圖形化和可視化界面、超文本系統(tǒng)等的表征方式,對其進行研究。

一個早期的例子是 Harel 于 1988 年提出的圖形化編程語言「HiGraph」[16]。Alberto Mendelzon 和他的學(xué)生針對該領(lǐng)域的而研究工作產(chǎn)出了有影響力的成果。他們使用圖上的遞歸式來開發(fā)查詢語言,這是現(xiàn)代圖查詢語言的基礎(chǔ)[17]。

然而,目前仍然沒有一種成熟的技術(shù)能夠讓這些圖系統(tǒng)真正實用[18]。研究人員提出了一些方法試圖解決這些難題,例如在超圖上引入操作來彌補「對象-關(guān)系」之間的差距等[19]。由于一些值得進一步研究的原因,OODB 和圖數(shù)據(jù)庫系統(tǒng)未能戰(zhàn)勝 RDBMS 的激烈競爭。

2、知識

20世紀(jì)80年代最重要的成就是形式化定義了語言表達能力和計算復(fù)雜度或推理任務(wù)之間的根本上的平衡。這在 Brachman 和 Levesque 的論文「The Tractability of Subsumption in Frame-Based Description Languages」(https://aaai.org/Papers/AAAI/1984/AAAI84-036.pdf)中得到了首次展示。

要想提升語言的表達能力,就必須在計算效率上付出代價。這導(dǎo)致研究人員開展一系列工作尋找表達性連續(xù)體(Expressivity Continuum)的平衡點,從而產(chǎn)生了一套名為「描述邏輯」的新邏輯理論。最突出的系統(tǒng)有「KL-ONE」、「LOOM」、「CLASSIC」等。除了描述邏輯,另一個形式化體系在此期間也得到了發(fā)展: 「F-邏輯」,它深受對象(Object)和幀(Frame)的影響。

盡管這些早期的邏輯系統(tǒng)在當(dāng)時并沒有得到大規(guī)模的工業(yè)應(yīng)用,但它們表明邏輯推理可以在易于處理的軟件中實現(xiàn)。最終,它們將成為當(dāng)今應(yīng)用最廣泛的本體建模語言 OWL 和語義網(wǎng)絡(luò)的基礎(chǔ)(詳見 2000 年代)。

在這里,值得一提的是,非單調(diào)推理技術(shù)在這十年間也得以發(fā)展。例如,許多形式化體系(包括限定推理、缺省邏輯、自認(rèn)知邏輯、以及條件邏輯)被引入到非單調(diào)推理中[20]。

3、數(shù)據(jù)+知識

在這十年間,人們對融合數(shù)據(jù)和知識的興趣日益濃厚。在這個發(fā)展過程中,一個重要的事件是:日本的第五代計算機計劃對人工智能的大力宣傳。鑒于日本在汽車和電子工業(yè)上的成功,他們也希望在軟件領(lǐng)域取得成功。

他們的目標(biāo)是創(chuàng)造人工智能硬件和軟件,將邏輯和數(shù)據(jù)結(jié)合起來,并能像人類一樣進行對話、翻譯語言、解釋圖片并進行推理。其采用邏輯編程作為邏輯和數(shù)據(jù)結(jié)合的基礎(chǔ)[21]。

日本的這一計劃引發(fā)了世界范圍內(nèi)人工智能活動的浪潮,催生了諸如美國的微電子學(xué)和計算機技術(shù)聯(lián)盟(MCC)[22]、慕尼黑的歐洲計算機研究中心(ECRC)和英國的 Alvey 計劃等競爭項目。在整個80年代和90年代,MCC 都是硬件和軟件領(lǐng)域重要的研究中心。例如,MCC 開展的 Cyc 計劃旨在創(chuàng)建世界上最大的常識知識庫,用于執(zhí)行類人推理的應(yīng)用程序[23]。

作為一種在計算機中編纂知識的實用手段,專家系統(tǒng)在此期間迅速發(fā)展,成為了人工智能風(fēng)口浪尖上的話題。諸如「OPS5」和「Rate algorithm」等產(chǎn)生式規(guī)則系統(tǒng)在此期間也取得了進展,從而高效地實現(xiàn)基于規(guī)則的系統(tǒng)。

為了將專家系統(tǒng)提升到更高的水平上,人們認(rèn)為專家系統(tǒng)應(yīng)該被部署到并行處理的計算機集群上。因此,我們看到了像「DADO 并行計算機」、「大規(guī)模并行機」(Connection Machine)、「PARKA 計劃」這樣的系統(tǒng)紛紛出現(xiàn)。專家系統(tǒng)開始展現(xiàn)出其商業(yè)價值(請參考 Xcon、ACE 的例子)。

風(fēng)險投資人逐漸開始為諸如「IntelliCorp」[25]、「ILOG」、「Neuron Data」、「Haley 系統(tǒng)」等人工智能公司注資。

從學(xué)術(shù)的角度來說,將邏輯與數(shù)據(jù)相結(jié)合的初步方法是:在關(guān)系型數(shù)據(jù)庫的基礎(chǔ)上進行邏輯編程。在邏輯編程中,人們指定程序的功能(「是什么」)而不指定算法(「怎么做」),因此優(yōu)化起著關(guān)鍵作用。

在這段時間里,我們認(rèn)識到優(yōu)化問題比關(guān)系查詢優(yōu)化問題要困難得多。這催生了演繹數(shù)據(jù)庫系統(tǒng),它們用遞歸規(guī)則和優(yōu)化自然地擴展了關(guān)系型數(shù)據(jù)庫。 

「Datalog」是 Prolog 的一個子集,它可以被看作是通過將關(guān)系型數(shù)據(jù)庫語言形式化,為邏輯編程創(chuàng)造簡潔的語義。 Datalog 成為了演繹數(shù)據(jù)庫的查詢語言(詳情請參閱 Ceri 等人的論文「What you always wanted to know about Datalog (and never dared to ask)」,論文地址:https://personal.utdallas.edu/~gupta/courses/acl/papers/datalog-paper.pdf

Bancelhon 等人在他們的論文「Magic sets and other strange ways to implement logic programs」中提出的「魔法集」(Magic Set)是對 Datalog 的一項重要優(yōu)化,它重寫了邏輯規(guī)則,以減少產(chǎn)生的無關(guān)事實。論文地址:https://dl.acm.org/citation.cfm?id=15399&dl=ACM&coll=DL

LDL 系統(tǒng)是最早的演繹數(shù)據(jù)庫系統(tǒng)之一,在 Tsur 和 Zaniolo 的論文「LDL: A Logic-Based Data-Language」中介紹了這一系統(tǒng)。其中許多思想直接體現(xiàn)在當(dāng)時被稱為主動數(shù)據(jù)庫的關(guān)系型數(shù)據(jù)庫中[26]。論文地址:http://www.vldb.org/conf/1986/P033.PDF

在 1990 年代初,事實證明專家系統(tǒng)成本高昂,難以更新和維護。演繹推理也很難解釋,并十分脆弱,且局限于特定領(lǐng)域。

因此,IT 世界改變了發(fā)展策略,將這種經(jīng)驗從 IBM、SAP、Oracle 等供應(yīng)商那里轉(zhuǎn)移到主流 IT 工具中。在日本第五代計算機項目啟動十年之后,它最初令人印象深刻的一系列目標(biāo)還沒有實現(xiàn)。資金逐漸枯竭了(除了 Cyc 之外),這些因素導(dǎo)致了人工智能走向「冬天」。

在這十年間,人們意識到:

  • 邏輯和數(shù)據(jù)的結(jié)合需要緊密耦合(而不僅僅是數(shù)據(jù)庫基礎(chǔ)上的層 prolog/專家系統(tǒng))。

  • 需要平衡邏輯語言的表達能力與推理任務(wù)的計算復(fù)雜度。

當(dāng)時技術(shù)的局限性包括:

  • 否定邏輯很難處理。那時人們還沒有很好地理解它。

  • 大規(guī)模推理很困難,硬件還不能滿足該任務(wù)的需求。

  • 知識獲取的瓶頸客觀存在。

參考文獻

主要文獻:

  • Cruz, I. F., Mendelzon A. O., and Wood, P. T. A graphical query language supporting recursion. In Proc. ACM SIGMOD, pages 323–330, 1987.

  • Mariano P. Consens, Alberto O. Mendelzon. GraphLog: a visual formalism for real life recursion. PODS '90, pp. 404-416.

  • Brachman, R. The Future of Knowledge Representation. Proceedings of AAAI-90.

  • Brachman and Levesque. 1984. The Tractability of Subsumption in Frame-Based Description Languages

  • Salvatore J.Stolfo Daniel P.Miranker. The DADO production system machine. Journal of Parallel and Distributed Computing. Volume 3, Issue 2, June 1986, Pages 269-296.

  • Stokman F.N., de Vries P.H. (1988) Structuring Knowledge in a Graph. In: van der Veer G.C., Mulder G. (eds) Human-Computer Interaction. Springer, Berlin, Heidelberg

  • Won Kim: Object-Oriented Databases: Definition and Research Directions. IEEE Trans. Knowl. Data Eng. 2(3): 327-341 (1990)

  • Shalom Tsur, Carlo Zaniolo: LDL: A Logic-Based Data Language. VLDB 1986: 33-41

  • Fran?ois Bancilhon, David Maier, Yehoshua Sagiv, Jeffrey D. Ullman: Magic Sets and Other Strange Ways to Implement Logic Programs. PODS 1986: 1-15

  • Stefano Ceri, Georg Gottlob, Letizia Tanca: What you Always Wanted to Know About Datalog (And Never Dared to Ask). IEEE Trans. Knowl. Data Eng. 1(1): 146-166 (1989)

· 1988. Readings in Artificial Intelligence and Databases (1st ed.). John Mylopoulos and Michael L. Brodie (Eds.). Morgan Kaufmann Publishers Inc., San Francisco, CA, USA.

次要文獻:

  • Renzo Angles, Claudio Gutierrez. Survey of Graph Database Models. ACM Computing Surveys, Vol. 40, No. 1, Article 1, Publication date: February 2008

四、數(shù)據(jù)、知識和網(wǎng)絡(luò)(20 世紀(jì) 90 年代)

20世紀(jì)90年代,兩種改變世界的現(xiàn)象級技術(shù)誕生了。

首先,萬維網(wǎng)橫空出世。這種全球信息基礎(chǔ)設(shè)施徹底改變了傳統(tǒng)的數(shù)據(jù)、信息和知識實踐。在通用信息空間的概念下,任何人都可以發(fā)布信息和閱讀(從文本和圖像等形式開始),它以分布式的方式完全改變了知識和數(shù)據(jù)管理的哲學(xué)和實踐。

其次,我們社會幾乎所有的方面都被數(shù)字化(從紙張到電子,從電子模擬信號到電子數(shù)字信號)。這些現(xiàn)象為我們今天所知的大數(shù)據(jù)鋪平了道路[27]??茖W(xué)研究和工業(yè)生產(chǎn)都轉(zhuǎn)向了這些新的發(fā)展領(lǐng)域。

1、數(shù)據(jù)

那時,數(shù)據(jù)庫行業(yè)正忙于開發(fā) RDBMS,并對其進行調(diào)優(yōu),以滿足通過 Web 漸漸普及的電子商務(wù)所提出的需求。這導(dǎo)致我們產(chǎn)生了大量需要綜合并分析的數(shù)據(jù),在這一勢頭之上開展的研究重點關(guān)注網(wǎng)絡(luò)數(shù)據(jù)、數(shù)據(jù)集成和數(shù)據(jù)倉庫/OLAP 等領(lǐng)域。

慢慢地,數(shù)據(jù)研究社區(qū)也轉(zhuǎn)而研究網(wǎng)絡(luò)數(shù)據(jù)。許多工作提升了人們對網(wǎng)絡(luò)上數(shù)據(jù)和計算的理解,例如 Mendelzon 和 Milo 的論文「Formal Models of the Web」(論文地址:https://dl.acm.org/citation.cfm?id=263677)[18] 以及 Abiteboul 和 Vianu 的論文「Queries and Computation on the Web」(論文地址:http://ilpubs.stanford.edu:8090/146/1/1996-20.pdf)。

此外,網(wǎng)絡(luò)激發(fā)了分發(fā)數(shù)據(jù)和自我描述數(shù)據(jù)的需求。在實現(xiàn)這些目標(biāo)的過程中,一個關(guān)鍵的研究成果是:用于半結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)模型和查詢語言,如 XML、 OEM、 RDF 和 XQUERY 等。

在此期間,研究和工業(yè)機構(gòu)需要集成多個分布式、異構(gòu)的數(shù)據(jù)源,以便進行業(yè)務(wù)決策。聯(lián)邦數(shù)據(jù)庫在 80 年代就開始著手解決這個問題(詳見 Sheth 和 Larson 的綜述「Federated Database Systems for Managing Distributed, Heterogeneous, and Autonomous Databases」,論文地址:http://static.cs.brown.edu/courses/csci2270/papers/federated.pdf)。 

然而,這是一個數(shù)據(jù)集成達到巔峰的時代,許多產(chǎn)學(xué)結(jié)合的項目誕生了,包括 TSIMMIS 和斯坦福/ IBM 的 Lore,南加州大學(xué)的 SIMS,MCC 的 InfoSleuth 等。這些系統(tǒng)引入了介質(zhì)(Mediators)[29]和包裝器的概念,諸如 SIMS 和 InfoSleuth 之類的系統(tǒng)也將本體引入到了數(shù)據(jù)集成組合中[30]。

此時,我們也漸漸看到需要使用正在生成和集成的數(shù)據(jù)來驅(qū)動業(yè)務(wù)決策報告的生成。這就衍生出了數(shù)據(jù)倉庫,它可以支持對多維數(shù)據(jù)立方體的分析,即聯(lián)機分析處理(OLAP)。與此同時,大部分的研究著眼于提出啟發(fā)式算法來實現(xiàn)數(shù)據(jù)立方體的查詢優(yōu)化[31]。

2、知識

從知識的角度來說,研究者們意識到,實現(xiàn)專家系統(tǒng)主要的瓶頸是從領(lǐng)域?qū)<夷抢铽@取知識。這催生了一個被稱為「知識管理和獲取」的研究領(lǐng)域,后來它發(fā)展為人們熟知的「知識工程」,最終演變?yōu)椤副倔w工程」(ontology engineering)。

由 Brain Gaines 組織的,在 Banff 舉辦的「知識獲取研討會」,就是在此期間發(fā)生的一系列開創(chuàng)性事件的代表。在這里,研究者們的目標(biāo)仍然是:將關(guān)于世界的信息編碼為計算機可以理解的形式。然而,終端產(chǎn)品的性質(zhì)已經(jīng)在不斷改變和發(fā)展——包括概念數(shù)據(jù)模型、產(chǎn)生式規(guī)則、語義網(wǎng)絡(luò)和邏輯。

網(wǎng)絡(luò)使人們意識到知識應(yīng)該被反復(fù)共享和重復(fù)使用。Gruber 在他的論文「A translation approach to portable ontology specifications」中將術(shù)語「本體」在計算上的意義定義為「概念化的明確說明」。知識獲取的主要焦點是設(shè)計和維護本體的方法。論文地址:https://pdfs.semanticscholar.org/5120/f65919f77859a974fcc1ad08f72b2918b8ec.pdf)

Uschold 和 Gruninger 在他們的論文「Ontologies: principles, methods and applications」中開創(chuàng)了本體工程的研究領(lǐng)域。 論文地址:http://www.aiai.ed.ac.uk/publications/documents/1996/96-ker-intro-ontologies.pdf

此后,一些衍生的方法論陸續(xù)出現(xiàn),如馬德里大學(xué)人工智能實驗室開發(fā)的「Methontology」,知識獲取和文檔結(jié)構(gòu)化(KADS)方法論,CommonKADS,以及一些專用的方法(例如,OntoClean)。與此同時,我們也開始看到第一批本體工程工具(例如 Ontolingua、WebODE、Protege 等)陸續(xù)出現(xiàn)。

3、數(shù)據(jù)+知識

在此期間,演繹數(shù)據(jù)庫體現(xiàn)了傳統(tǒng)數(shù)據(jù)庫上數(shù)據(jù)和知識的融合達到了巔峰。

1990 年- 1999 年舉辦的「演繹數(shù)據(jù)庫研討會」和1994 年到 2003 年舉辦的「表征與數(shù)據(jù)庫研討會」等學(xué)術(shù)活動是該領(lǐng)域研究活動的中心,這些研究進展催生了 Datalog 的一些改進版本(例如 Datalog +/-)。      

這些研究的主要挑戰(zhàn)是如何在大規(guī)模網(wǎng)絡(luò)數(shù)據(jù)上進行形式化推理。事實上,將網(wǎng)絡(luò)視為一個通用的信息空間,引起了開發(fā)語言來描述、查詢和推理海量數(shù)據(jù)、信息和知識的需求。在這十年間,最雄心勃勃的計劃就是將網(wǎng)絡(luò)上的知識和數(shù)據(jù)結(jié)合起來,這一想法并最終命名為「語義網(wǎng)絡(luò)」。

諸如簡單 HTML 本體擴展(SHOE)、語義 Web 中間件「Ontobroker」[32]、本體推理層(OIL)和 DARPA 智能體標(biāo)記語言(DAML)、知識查詢與操作語言(KQML)和歐盟資助的專題網(wǎng)絡(luò)「OntoWeb」[33](用于知識管理和電子商務(wù)的基于本體的信息交換)等等的研究進展對語義網(wǎng)絡(luò)項目產(chǎn)生了強烈的影響,并為其定下了框架,最終融合在了網(wǎng)絡(luò)本體語言 OWL 的定義中。其目標(biāo)是匯聚網(wǎng)絡(luò)上的諸如知識表征、本體、邏輯、數(shù)據(jù)庫、信息檢索等技術(shù)。這些發(fā)展催生了一個圍繞網(wǎng)絡(luò)及其可能性的研究和實踐的新領(lǐng)域。            

在這十年間,人們意識到:

  • 網(wǎng)絡(luò)迅速地改變了數(shù)據(jù)、信息和知識的世界。

  • 新型的額數(shù)據(jù)正在傳播開來(特別是通過各種媒體:圖像、視頻、聲音)。

  • 數(shù)據(jù)需要被(而且現(xiàn)在已經(jīng)可以被)連接起來,從而獲取價值。

當(dāng)時技術(shù)的局限性包括:

  • 為了處理網(wǎng)絡(luò)產(chǎn)生的新的數(shù)量級的數(shù)據(jù),需要更大的算力。

  • 單純的邏輯技術(shù)在復(fù)雜度上有限制,這會使可擴展性難以實現(xiàn)。

參考文獻

主要文獻:

  • Tim Berners-Lee. Proposal for CERN

  • Alberto Mendelzon and Tova Milo, Formal Models of the Web, in Proc. PODS'97, Tucson, May 1997. Full version in Information Systems 23(8): 615-637 (1998).

  • Serge Abiteboul,?Victor Vianu: Queries and Computation on the Web.?ICDT 1997: 262-275

  • Mauricio A. Hernández, Salvatore J. Stolfo: The Merge/Purge Problem for Large Databases. SIGMOD Conference 1995: 127-138

  • Sudarshan S. Chawathe, Hector Garcia-Molina, Joachim Hammer, Kelly Ireland, Yannis Papakonstantinou, Jeffrey D. Ullman, Jennifer Widom: The TSIMMIS Project: Integration of Heterogeneous Information Sources. IPSJ 1994: 7-18

  • Yigal Arens, Craig A. Knoblock: SIMS: Retrieving and Integrating Information From Multiple Sources. SIGMOD Conference 1993: 562-563

  • Roberto J. Bayardo Jr., William Bohrer, Richard S. Brice, Andrzej Cichocki, Jerry Fowler, Abdelsalam Helal, Vipul Kashyap, Tomasz Ksiezyk, Gale Martin, Marian H. Nodine, Mosfeq Rashid, Marek Rusinkiewicz, Ray Shea, C. Unnikrishnan, Amy Unruh, Darrell Woelk: InfoSleuth: Semantic Integration of Information in Open and Dynamic Environments (Experience Paper). SIGMOD Conference 1997: 195-206

  • Yannis Papakonstantinou, Hector Garcia-Molina, Jennifer Widom: Object Exchange Across Heterogeneous Information Sources. ICDE 1995: 251-260

  • Jason McHugh, Serge Abiteboul, Roy Goldman, Dallan Quass, Jennifer Widom: Lore: A Database Management System for Semistructured Data. SIGMOD Record 26(3): 54-66 (1997)

  • An overview of data warehousing and OLAP technology

  • Alon Y. Levy, Alberto O. Mendelzon, Yehoshua Sagiv, Divesh Srivastava: Answering Queries Using Views. PODS 1995: 95-104

  • Serge Abiteboul: Querying Semi-Structured Data. ICDT 1997: 1-18

次要文獻:

  • Serge Abiteboul, Peter Buneman, Dan Suciu: Data on the Web: From Relations to Semistructured Data and XML. Morgan Kaufmann 1999

  • Dan Suciu. Semistructured data and XML. Kluwer Academic Publishers Norwell, MA, USA, 2000

五、大規(guī)模的數(shù)據(jù)和知識(21 世紀(jì))

在21世紀(jì)初,我們見證了電子商務(wù)、在線社交網(wǎng)絡(luò)(例如,F(xiàn)acebook、Twitter)的爆炸式增長,并且認(rèn)識到可用數(shù)據(jù)是海量的(即大數(shù)據(jù))。這導(dǎo)致人們開發(fā)了新的系統(tǒng)和方法,以比以前更大的規(guī)模管理和分析數(shù)據(jù)。在 21世紀(jì)第一個十年末,統(tǒng)計方法(通過引入深度學(xué)習(xí))開始在各種各樣的應(yīng)用取得了超越邏輯方法的性能表現(xiàn)。

1、數(shù)據(jù)

谷歌和亞馬遜等互聯(lián)網(wǎng)公司開始構(gòu)建數(shù)據(jù)管理的壁壘,并驅(qū)使開發(fā)人員跳出典型的企業(yè)數(shù)據(jù)環(huán)境的思維。在他們的論文「MapReduce: Simplified Data Processing on Large Clusters」[34]中,谷歌引入了一種使用 MapReduce 處理大量數(shù)據(jù)的基礎(chǔ)設(shè)施 [34],論文地址:https://static.googleusercontent.com/media/research.google.com/en//archive/mapreduce-osdi04.pdf

隨著 CouchDB 等系統(tǒng)的出現(xiàn),非關(guān)系型、分布式數(shù)據(jù)存儲得到了蓬勃發(fā)展,隨后谷歌發(fā)表了論文「Bigtable: A Distributed Storage System for Structured Data」,論文地址:https://static.googleusercontent.com/media/research.google.com/en//archive/bigtable-osdi06.pdf

亞馬遜也緊隨其后,發(fā)表了論文「Dynamo: Amazon’s Highly Available Key-value Store」,論文地址:https://www.allthingsdistributed.com/files/amazon-dynamo-sosp2007.pdf

這就催生了 NoSQL 數(shù)據(jù)庫,它再一次普及了針對列、文檔、鍵值和圖數(shù)據(jù)模型的數(shù)據(jù)庫管理系統(tǒng)。

數(shù)據(jù)管理研究社區(qū)進一步關(guān)注數(shù)據(jù)集成(模式匹配、實體鏈接等)和 XML 處理問題。數(shù)據(jù)庫理論研究人員從基礎(chǔ)的角度(正如 Lenzerini 在「Data Integration: A Theoretical Perspective」中所展示的那樣)開始研究數(shù)據(jù)集成,并催生了針對數(shù)據(jù)交換的研究工作。論文地址:https://www.cs.ubc.ca/~rap/teaching/534a/readings/Lenzerini-pods02.pdf

2、知識

此時,描述邏輯的研究社區(qū)為了進行知識表征,繼續(xù)定義新的邏輯描述方法,研究二者之間的平衡,并且在「FACT」、「Hermit」、「Pellet」等系統(tǒng)中實現(xiàn)算法。目前研究社區(qū)正在尋找這些研究成果落地應(yīng)用的機會。一個可能產(chǎn)生影響的機會就是:成為網(wǎng)絡(luò)革命(特別是語義網(wǎng)絡(luò))的一部分。

世界上充斥著大量的數(shù)據(jù),這些數(shù)據(jù)為人工智能的統(tǒng)計方法(特別是機器學(xué)習(xí)和后來的深度學(xué)習(xí))提供了輸入。有人可能會說,產(chǎn)生知識的邏輯方法正在退居幕后。

在知識領(lǐng)域,統(tǒng)計技術(shù)被認(rèn)為是從已知的事實中推導(dǎo)出新的事實,它使實際應(yīng)用中的邏輯方法不像以往那樣受人關(guān)注。自從論文「Imagenet classification with deep convolutional neural networks」于 2012 年被發(fā)表以來,知識表征和推理研究領(lǐng)域的重點發(fā)生了改變。隨著算力的提升,當(dāng)初六十年代嘗試直接通過神經(jīng)網(wǎng)絡(luò)建立知識模型的做法現(xiàn)在又有效了。論文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

如今,這些技術(shù)和系統(tǒng)在許多人類才能完成的任務(wù)(例如分類,以及有大量訓(xùn)練數(shù)據(jù)的應(yīng)用程序)中超過了人類。通常,這篇圖像檢測論文被認(rèn)為是引發(fā)這場革命的標(biāo)志性論文。當(dāng)然,大多數(shù)傳統(tǒng)的關(guān)于知識的研究還是在試圖找到一個與統(tǒng)計和機器學(xué)習(xí)相結(jié)合的方法。

3、數(shù)據(jù)+知識

在這一時期,連接數(shù)據(jù)和知識的工作有兩條發(fā)展軌跡:語義網(wǎng)絡(luò)和關(guān)聯(lián)數(shù)據(jù)。

結(jié)合數(shù)據(jù)和知識的主要工作是在語義網(wǎng)絡(luò)項目中體現(xiàn)出來的。這建立在本文之前介紹的許多研究成果智商,特別是自描述圖數(shù)據(jù)模型(RDF)、描述邏輯和知識工程。

Tim Berners-Lee、Jim Hendler 和 Ora Lassila 在「科學(xué)美國人」雜志上發(fā)表的論文「語義網(wǎng)絡(luò)」最初引起了業(yè)界和學(xué)術(shù)界的興趣。論文地址:https://www-sop.inria.fr/acacia/cours/essi2006/Scientific%20American_%20Feature%20Article_%20The%20Semantic%20Web_%20May%202001.pdf

借助于萬維網(wǎng)聯(lián)盟(W3C)的標(biāo)準(zhǔn)化工作,支撐語義網(wǎng)絡(luò)的技術(shù)(例如,數(shù)據(jù)模型、模式、本體語言和查詢語言等),便正在由學(xué)術(shù)界和工業(yè)界同時開發(fā)。

語義網(wǎng)絡(luò)標(biāo)準(zhǔn)(RDF、OWL、SPARQL)恰好處于「走在時代前沿」的平衡點,既沒有太晚(世界已經(jīng)由于信息爆炸而碎片化) ,也沒有太早(沒有人愿意采用它)。然而也許人們對學(xué)術(shù)界的偏見過于嚴(yán)重[35],或者存在一些更為根本的問題——即「外部」因素(如對分布式和民主的數(shù)據(jù)管理方式不感興趣的大公司的壟斷和中心化)??偠灾?,事實就是,在這十年中,語義網(wǎng)絡(luò)的大部分活動并沒有像預(yù)期的那樣受到業(yè)界的歡迎。

早期的語義網(wǎng)絡(luò)項目著眼于知識表征和推理,特別是自上世紀(jì) 90 年代起對本體的研究工作。描述邏輯的研究社區(qū)產(chǎn)生的研究成果實現(xiàn)了本體語言的標(biāo)準(zhǔn)化。2004 年確立了第一版網(wǎng)絡(luò)本體語言(OWL)的標(biāo)準(zhǔn),它是歐洲的 OIL 項目和美國的 DAML 項目結(jié)合的產(chǎn)物。

在這十年的中期,「關(guān)聯(lián)數(shù)據(jù)」這一術(shù)語作為一套聯(lián)通互聯(lián)網(wǎng)上數(shù)據(jù)的最佳實踐凸顯了出來,旨在增強網(wǎng)絡(luò)上的知識。這催生了關(guān)聯(lián)開放數(shù)據(jù)(LOD)項目和大型的基于 RDF 的知識庫(例如,DBPedia、Freebase),并最終催生了 Wikidata。其中,LOD 項目展示了如何在大規(guī)模網(wǎng)絡(luò)上集成數(shù)據(jù)。

這些概念都在2007年的國際語義網(wǎng)絡(luò)會議(ISWC 2017)上被引入。在 2000 年代后期,主要的搜索引擎發(fā)布了「schema. org」作為一種提升網(wǎng)站語義標(biāo)注的方法,這個網(wǎng)站是建立在語義網(wǎng)絡(luò)研究社區(qū)的成果之上的。

另一方面,這十年見證了統(tǒng)計技術(shù)的繁榮。在這個層面上,我們可以看到數(shù)據(jù)處理和知識處理之間極度不平衡。由于知識處理(從數(shù)據(jù)中提取知識)的驚人進步,傳統(tǒng)的數(shù)據(jù)管理技術(shù)顯示出其局限性。這可能是在大數(shù)據(jù)世界中尋找存儲、管理和整合數(shù)據(jù)和知識的新形式的驅(qū)動因素之一。這與知識圖譜概念的提出有很大關(guān)系。

在這十年間,人們實現(xiàn)了:

  • 我們學(xué)著從更宏大的視角(大規(guī)模網(wǎng)絡(luò))思考數(shù)據(jù)和知識的問題。

  • 由于新型硬件和智能的學(xué)習(xí)技術(shù)的誕生,我們進入了神經(jīng)網(wǎng)絡(luò)的時代。

當(dāng)時技術(shù)的局限性包括:

  • 并不知道如何將邏輯和統(tǒng)計的觀點結(jié)合起來。

  • (特別是神經(jīng)網(wǎng)絡(luò)中的)統(tǒng)計方法并不能提供有關(guān)「推理」或「演繹」的信息,這在對可解釋性有所要求的領(lǐng)域提出了挑戰(zhàn)。

參考文獻

主要文獻(鏈接見上文):

  • MapReduce: Simplified Data Processing on Large Clusters

  • Bigtable: A Distributed Storage System for Structured Data

  • Dynamo: Amazon’s Highly Available Key-value Store

  • Data Integration: A Theoretical Perspective

  • The Semantic Web

  • Imagenet classification with deep convolutional neural networks

六、我們現(xiàn)在處于怎樣的歷史方位?

縱觀這段歷史,我們可以觀察到兩條重要的發(fā)展脈絡(luò):

  • 大規(guī)模表征和管理數(shù)據(jù)。

  • 整合最多樣化、與眾不同且?guī)缀鯚o限量的數(shù)據(jù)和知識源(結(jié)構(gòu)化的數(shù)據(jù)文本、規(guī)則、圖像、語音、視頻等)。

此外,所有這些都必須對于「普通」用戶是可以獲取和訪問的。

2012 年,谷歌發(fā)布了一款名為「知識圖譜」的產(chǎn)品,它基于將數(shù)據(jù)表征為與知識相連的圖。知識圖譜的概念指出了這一需求。 事實上,我們可以認(rèn)為它是一個不斷發(fā)展的項目、設(shè)想中的遠景,而不僅僅是一個精確的概念或系統(tǒng)??梢哉f,這樣的產(chǎn)品是語義網(wǎng)絡(luò)計劃的具體實現(xiàn)。

知識圖譜的誕生使得了其它類型的「圖」服務(wù)如雨后春筍般涌現(xiàn)了出來。例如,2013年 Facebook 發(fā)布了他們的圖搜索服務(wù),該服務(wù)也包含了類似的想法,基本上呈現(xiàn)了一個虛擬圖,它整合了針對主題和實體的已經(jīng)編譯的數(shù)據(jù)。此外,我們還看到了來自微軟、Facebook、亞馬遜、Ebay 等巨頭的「知識圖譜」類服務(wù)[36]。

后來,無以計數(shù)的公司和組織開始使用知識圖譜關(guān)鍵詞來指代由實體和關(guān)系構(gòu)成的圖的數(shù)據(jù)集成方式 [37]。學(xué)術(shù)界開始使用這個關(guān)鍵詞來指定一類條件較為寬泛的系統(tǒng),這些系統(tǒng)將數(shù)據(jù)與一些圖結(jié)構(gòu)結(jié)合在一起,是語義網(wǎng)絡(luò)和關(guān)聯(lián)數(shù)據(jù)的「涅槃重生」。

與此同時,各種公司和學(xué)術(shù)機構(gòu)正在開發(fā)圖數(shù)據(jù)庫技術(shù)。 例如,幾乎所有公司基于 RDF 和 SPARQL 建立的數(shù)據(jù)庫,如 Virtuoso、Allegrograph、Ontotext、Stardog、Amazon Neptune 等;Neo4j 及其使用的語言 Cypher;Oracle 及其使用的語言 PGQL;以及像 G-CORE 這樣的研究查詢語言。

今天,我們有幸見證統(tǒng)計方法和邏輯方法的融合,前者在公眾眼中勢不可擋,在某種程度上讓后者顯得黯淡無光:這就是為什么我們認(rèn)為有必要喚起人們對這段歷史的關(guān)注。

隨著機器和深度學(xué)習(xí)如「海嘯」般襲來,重新喚起人們對數(shù)據(jù)和知識的意義的認(rèn)識至關(guān)重要。盡管過去的這些思想和發(fā)展在當(dāng)時并不成功,不廣為人知,甚至根本不為人所知,但它們蘊含著豐富的思考,可以對未來的研究有所啟發(fā),照亮我們前進的道路!

參考文獻

[1] Nevertheless, there exist works on related topics  and focused periods, e.g.: F. Gandon (2018) A Survey of the First 20 Years of Research on Semantic Web and Linked Data and L. Poirier (2017) A Turn for the Scruffy: An Ethnographic Study of Semantic Web Architecture (we thank Frank van Harmelen for these references).

[2] Stuart Russel, Peter Norvig. Artificial Intelligence, A Modern Approach. 1995. Chp. 1.2, 1.3.

[3] An example of ancient times data processing are the Quipus, the knot-based devices Inca civilization used to collect and keep track of records of data.

[4] The writer J. L. Borges once pointed out the arbitrariness of what he called the “obsession with the base 10”.

[5] Robinson, J. Alan (1965). "A Machine-Oriented Logic Based on the Resolution Principle". Journal of the ACM. 12 (1): 23–41

[6] Green, C. C., and Raphael, B., The Use of Theorem-Proving Techniques in Question-Answering Systems, in: Proceedings of the 23rd ACM National Conference, Washington, DC, 1968.

[7] Raghu Ramakrishnan, Jeffrey D. Ullman, A survey of deductive database systems,

The Journal of Logic Programming, Volume 23, Issue 2, 1995, Pages 125-149. Historical Overview in Section 5.

[8] Ceruzzi, History of Modern Computing, MIT Press, 1998. p. 89

[9] Charles W. Bachman. The Origin of the Integrated Data Store (IDS): The First Direct-Access DBMS.  IEEE Annals of the History of Computers, 2009, vol. 31, pp. 42-54.

[10] Richens, "Preprogramming for mechanical translation," Mechanical Translation 3 (1), July 1956, 20–25.. See Page 23

[11] Ross Quillian, PhD dissertation, Carnegie Inst. of Technology, now CMU, 1967.

[12] INGRES (INteractive Graphics REtrieval SystemPostgres) led to POSTGRES (POST inGRES) and later evolved into PostgreSQL.

[13] Shapiro, Stuart C. (1971), "A Net Structure for Semantic Information Storage, Deduction, and Retrieval", Proceedings of the 2nd International Joint Conference on Artificial Intelligence (Los Altos, CA: Morgan Kaufmann): 512–523.         

[14] Shortliffe, E. Computer-Based Medical Consultations: MYCIN

[15] S. Heller, U. Daval, J. Orenstein, S. Radke-Sproull. An object-oriented approach to data management: why design databases need it. Proceeding DAC '87 Proceedings of the 24th ACM/IEEE Design Automation Conference Pages 335-340

[16] Harel, D. (1988), On Visual Formalisms, Communications of the ACM, Volume 31, Number 5

[17] (1) Cruz, I. F., Mendelzon A. O., and Wood, P. T. A graphical query language supporting recursion. In Proc. ACM SIGMOD, pages 323–330, 1987. (2) Mariano P. Consens, Alberto O. Mendelzon. GraphLog: a visual formalism for real life recursion. PODS '90, pp. 404-416. (3) See Peter Wood’s PhD Thesis

[18] R. Angles, C. Gutierrez. Survey of Graph Databases Models.

[19] Harold Boley, Operations on Nets. Computers & Mathematics with Applications Volume 23, Issues 6–9. 1992

[20] R. Brachman. The Future of Knowledge Representation. AAAI-90.

[21] Given the popularity of LISP in the United States, the Japanese decided to adopt the European’s Prolog, given that they competed against the Americans. The relationship between US and Japan in the 80s was very tense.

[22] Computer Consortium Lags. NY Times. 1984 and Plugged In: 30 years ago, MCC consortium helped ‘put Austin on the technology map’ Statesman. 2013

[23] Douglas B. Lenat:  CYC: A Large-Scale Investment in Knowledge Infrastructure. Commun. ACM 38(11): 32-38 (1995) , Douglas B. Lenat and R. V. Guha.
Building Large Knowledge-Based Systems; Representation and Inference in the Cyc Project (1st ed.).  Addison-Wesley 1990

[24] This algorithm was developed by Charles Forgy in his PhD  during the late 70s, and it is still the defacto algorithm for rule based systems today.

[25] Edward Feigenbaum was a founder, which commercialized the expert system Knowledge Engineering Environment (KEE) which was influenced by MYCIN

[26] Jennifer Widom claims that Deductive is at a higher level of abstraction while Active is at a lower.

[27] Unthinkable without a universal platform to access data.

[28] See all the work by Alberto Mendelzon on this topic 

[29] G. Wiederhold. Mediators in the architecture of future information systems 

[30] The term “Ontology-based data access” (OBDA) is a reincarnation of much of the data integration work from the 90s but with semantic web and graph clothes and with further understanding of the Description Logic which was not well understood in the 90s.

[31] Surajit Chaudhuri and Umeshwar Dayal. 1997. An overview of data warehousing and OLAP technology. SIGMOD Rec. 26, 1 (March 1997) and “Implementing Data Cubes Efficiently”

[32] Decker S., Erdmann M., Fensel D., Studer R. (1999) Ontobroker: Ontology Based Access to Distributed and Semi-Structured Information. In: Meersman R., Tari Z., Stevens S. (eds) Database Semantics

[33] https://www.ercim.eu/publication/Ercim_News/enw51/EN51.pdf

[34] Mapreduce has received criticism from the database community due to its lack of novelty. Additionally, the map and reduce functions on cluster of machines can be traced back to parallel expert systems such as DADO and Connection Machine covered in the previous chapter.

[35] Researchers studied the semantic web from a foundational point of view. Notably, Alberto Mendelezon, who had already been working on graphs during the previous 20 years, made a point to study the semantic web in “Foundations of Semantic Web Databases”. We see other work such as “Semantics and Complexity of SPARQL”, “The Expressive Power of SPARQL”, among others.

[36] Noy et al. Industry-Scale Knowledge Graphs: Lessons and Challenges. Communications of the ACM, August 2019, Vol. 62 No. 8, Pages 36-43

[37] https://www.slideshare.net/Frank.van.Harmelen/adoption-of-knowledge-graphs-late-2019 

via http://knowledgegraph.today/paper.html   雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

以史為鑒:從數(shù)字計算機到知識圖譜的這 60 多年

分享:
相關(guān)文章

知情人士

當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說