0
雷鋒網(wǎng)AI科技評論按:在今年8月份,北京智源人工智能研究院確立了第三個研究方向“智能信息檢索與挖掘”,其中中國人民大學(xué)高瓴人工智能學(xué)院院長文繼榮教授擔(dān)任該重大方向的首席科學(xué)家,并由人民大學(xué)竇志成教授擔(dān)任該方向的項(xiàng)目經(jīng)理,清華大學(xué)王建勇、唐杰、劉奕群、賈珈,北京大學(xué)崔斌、鄒磊,中科院郭嘉豐、劉康、沈華偉,人民大學(xué)徐君等擔(dān)任該方向的智源學(xué)者。
在當(dāng)時的發(fā)布會上,文繼榮教授表示“這在全國應(yīng)該是最強(qiáng)的團(tuán)隊(duì),甚至可以說在世界范圍內(nèi)也是一支有影響力的團(tuán)隊(duì)”;他旗幟鮮明地提出“我們最終的目標(biāo)是做源頭的創(chuàng)新、基礎(chǔ)理論的創(chuàng)新、應(yīng)用系統(tǒng)的創(chuàng)新,我們希望我們在智能信息檢索與挖掘這個領(lǐng)域成為一個標(biāo)志性的隊(duì)伍,最終形成該領(lǐng)域的‘北京學(xué)派’”。
在當(dāng)時的發(fā)布會中,文繼榮教授提到,搜索技術(shù)曾在二十世紀(jì)初誕生了一大批偉大的公司,例如谷歌、百度等,但我們所使用的搜索引擎的架構(gòu)和交互界面已經(jīng)30年沒有變化,它的核心技術(shù)已經(jīng)10年沒有重大改變。有人認(rèn)為搜索的戰(zhàn)爭在10年前已經(jīng)結(jié)束,但文繼榮教授認(rèn)為“搜索是一場沒有結(jié)束的戰(zhàn)爭”,谷歌當(dāng)年給自己提出了使命——把世界上所有的信息組織起來,使得信息更易于被人們存取、更加有用——不管是從信息的深度、廣度以及使用的方便性和有用性上,都還是遠(yuǎn)未達(dá)成。
深問我們的內(nèi)心,事實(shí)上我們真正所需求的不僅僅是一個搜索框和一系列的網(wǎng)頁鏈接,而是一個能夠幫助我們處理各種信息和事物、給我們健康和心靈陪伴的個人智能助手;科幻電影往往能夠告訴我們內(nèi)心的渴望,例如《鋼鐵俠》中的賈維斯、《超能陸戰(zhàn)隊(duì)》中的大白、《流浪地球》中的MOSS等。
在當(dāng)時,文繼榮表示智源“智能信息檢索與挖掘”重大方向的研究目標(biāo)將是“個人智能信息助手”。圍繞構(gòu)建個人智能信息助手的關(guān)鍵科學(xué)和技術(shù)問題,從理論、算法、系統(tǒng)三個方面聯(lián)合北京地區(qū)高校和科研機(jī)構(gòu)的優(yōu)秀學(xué)者進(jìn)行聯(lián)合攻關(guān),其中:
唐杰、徐君、沈華偉將帶頭去探索智能信息檢索與挖掘領(lǐng)域的數(shù)學(xué)和認(rèn)知的理論基礎(chǔ)。
劉奕群、賈珈負(fù)責(zé)基于自然語言的交互式信息獲取。
王建勇、劉康、鄒磊主要做知識增強(qiáng)的信息表示與挖掘。
崔斌、郭嘉豐、徐君將探索深度語義檢索與推薦模型。
在10月31日-11月1日舉辦的“智源大會”上,文繼榮教授向記者表示,智源學(xué)者分布在多個科研機(jī)構(gòu)和大學(xué),每個人都有自己的團(tuán)隊(duì)和自己要研究的事情,本身形式相對比較分散,但整個團(tuán)隊(duì)卻憑借核心的研究目標(biāo)而相互聯(lián)系,做到“形散而神不散”。他們給自己定的長期是研究“個人智能信息助手”,而為了能夠?qū)㈤L期目標(biāo)轉(zhuǎn)化為階段性成果,他們提出了近期(兩三年)的近期目標(biāo):構(gòu)建服務(wù)于北京市民的政務(wù)智能信息助手。
參與媒體包括:雷鋒網(wǎng)、智東西、InfoQ、大數(shù)據(jù)文摘
我們來看文繼榮教授的具體談話——
文繼榮:“智能信息檢索與挖掘”這個方向是智源人工智能研究院確立的第三個研究方向,主要是聚焦于如何把最新的人工智能技術(shù)應(yīng)用到信息檢索和數(shù)據(jù)挖掘這一領(lǐng)域。我們匯集了北京市十幾位最優(yōu)秀的學(xué)者,組成這樣一個團(tuán)隊(duì)。
我們經(jīng)過前期很多的溝通和交流,確定了整個方向的中長期的研究目標(biāo),是去構(gòu)建面向未來的下一代個人智能信息助手。大家知道智源的方式是很創(chuàng)新的一種科研組織方式,智源學(xué)者分布在多個科研機(jī)構(gòu)和大學(xué)里,每個人有自己要研究的事情,自己也有團(tuán)隊(duì),也有很多事情,本身形式上是相對比較分散的。雖然形式上比較分散,我們希望大家聚集在一起來做一個重要的東西。我經(jīng)常舉的例子叫“形散而神不散”,就跟寫散文一樣,你本身形散,如果連神也散了就麻煩了,所以我們希望“神不散”,我們共同來去構(gòu)建這樣的一個智能信息助手,每個人的研究都要跟它進(jìn)行對齊,最后確定自己要做什么。
當(dāng)時定下這個中長期研究目標(biāo)后,很多事情就開展的比較順利了。我們十幾位智源學(xué)者做了分工,我們在大方向下分了四塊研究內(nèi)容。第一個部分是智能信息檢索的數(shù)學(xué)和認(rèn)知理論基礎(chǔ)。再往上是具體的技術(shù)和算法方面,我們又分了三個方向來做,包括基于自然語言的交互式信息獲取、知識增強(qiáng)的信息表示與挖掘、深度語義檢索與推薦模型。大家各司其職,現(xiàn)在已經(jīng)開始了自己相關(guān)的研究工作。比較幸運(yùn)的是,每個方向都有兩到三位智源學(xué)者負(fù)責(zé)。
另外,雖然說智源本身相對比較松散,我們也希望整個研究工作有一定的組織,所以我們定期會有一些例會和學(xué)術(shù)論壇,目前已經(jīng)有過幾次了,也有挺好的效果。
還有一點(diǎn)想說的是,近期我們又進(jìn)一步把自己的研究目標(biāo)做了細(xì)化,之前我們確定做個人信息助手??梢韵胍姡@個事情需要時間,里面有特別多的問題,甚至有些問題我們還不知道怎么去做,或者只是剛剛開始探索。這是一個長遠(yuǎn)目標(biāo),我們還需要一個近期的目標(biāo),一個做一兩年、兩三年就能看得見摸得著的東西。我們經(jīng)過討論,確定的這個近期目標(biāo)就是:做一個面向北京市民辦事情的、政務(wù)信息獲取的智能助手。
現(xiàn)在我們市民去辦事情,他需要去網(wǎng)上找,北京市有許多單位的,各個局、各個委、各個機(jī)構(gòu),他們信息網(wǎng)站上的信息也非常多,各種各樣的公告,各種各樣的辦事流程,這些信息分布在各個地方,大家找起來特別麻煩。讓老百姓自己去讀那些文件,去搞明白到底該怎么弄,這是一個很繁瑣的過程。
我們希望有這樣一個智能信息助手,就是專門幫老百姓辦事情。你想去遷戶口、辦港澳通行證,或者房子過戶等等老百姓日常生活的事情,我們有一個小助手,每個市民只需要打開APP,它就可以告訴你這個事情該怎么辦。這樣的助手,我們覺得我們可以在短期內(nèi)做出一個不錯的東西;有了這個東西,我們再繼續(xù)把其他內(nèi)容集成進(jìn)去,做得越來越好。
這個近期目標(biāo),是我們第一次對外說。這對我們來說是一個重要的決定。
問:這個政務(wù)信息智能助手在研發(fā)或者落地的過程中有沒有過難點(diǎn)和問題?
文繼榮:肯定會有很多困難,做一個非常智能的助手,其實(shí)現(xiàn)在還有好多技術(shù)上的挑戰(zhàn)。我們之所以做這個事情,就是希望有一個小目標(biāo),兩、三年,到了冬奧會的時候,每個人手機(jī)上都可以裝一個。我們原來說的個人智能信息助手是通用的,通用的和特定領(lǐng)域比起來要難得多的多,那是我們的長目標(biāo)。我們就集中在政務(wù)信息這塊。這些數(shù)據(jù)在政府的網(wǎng)站上都有,是可以拿得到的。我們又是北京的智源人工智能研究院,所以就該幫北京政府做這個事情。
這個政務(wù)智能助手提供的功能也是比較清楚的,就是老百姓要辦理的事情,他不會問一些特別沒邊的事情,這樣看起來我們從技術(shù)上來說難度會小很多。至于說中間會遇見什么問題,肯定會遇見。但是我們評估了一下,以我們團(tuán)隊(duì)的技術(shù)實(shí)力和之前的技術(shù)積累,我們在較短的時間內(nèi)拿出一個還不錯的原型系統(tǒng)還是非常有希望的。
問:政務(wù)信息這塊現(xiàn)在會不會存在信息孤島的問題?針對這個問題有什么解決方案?
文繼榮:會,我們會逐步解決。我們目前第一階段主要還是根據(jù)現(xiàn)在各個政府網(wǎng)站上公開的信息。它出個文件告訴你某件事情怎么辦理,這些事情都有文件,我們希望這些能夠變成智能助手腦子里的知識。我們將來是希望至少北京市方方面面的事情,這個智能助手都有相應(yīng)的知識,都能夠回答,都能夠幫你解決。這里面會有一些信息孤島、信息打通的問題。如果遇到的話,我們希望能夠通過智源跟北京市政府溝通,希望把這些數(shù)據(jù)的問題進(jìn)一步解決。
問:現(xiàn)在關(guān)于AI的研究也很多,智能信息助手出來之后也會面臨到AI落地困難,無法形成一種消費(fèi)型產(chǎn)品?,F(xiàn)在這個階段你們有沒有考慮過這方面的事情?
文繼榮:做智能信息助手或者個人信息助手,我們希望做一個非常智能的像人一樣的助手,你問它啥,它都知道,這是我們的一個研究課題,我們把它定位為我們長期的研究問題。
我們當(dāng)時定這個題目的時候,是問過自己,既然北京市現(xiàn)在做了智源人工智能研究院,給每個參與人員很大的支持,實(shí)際上我們應(yīng)該有決心去做一些相對比較長期的事情。如果給你五年的時間,衣食無憂,也沒有其他的一些壓力,你會做什么?你不用考慮升教授、升職,你愿意認(rèn)認(rèn)真真靜下心做什么?我們就是要做最難的問題。我們認(rèn)為智能信息助手是非常重要而且非常困難的問題。我們定下這個題目不是說要去短期內(nèi)落地的,這是一個長期的研究問題。
回過頭來,為什么我們要做政務(wù)智能信息助手呢?我們覺得如果說一個東西要五年、十年看得見,這個隊(duì)伍又是很松散的,我們可能會迷失目標(biāo),大家做著做著就不知道做哪去了。在往長遠(yuǎn)目標(biāo)進(jìn)發(fā)的路上,要有一些看得見、摸得著的一些中間成果。這也是為什么我們要做政務(wù)智能信息助手的原因。政務(wù)智能信息助手從難度上來說,比我們長遠(yuǎn)的研究目標(biāo)要小很多,我們是有信心經(jīng)過兩三年的努力做出真正可落地的東西。要做真正通用的助手,我們覺得是一個長期的過程。
問:智能信息助手的本質(zhì)就是信息獲取,傳統(tǒng)上信息獲取主要是以搜索引擎的對話形式來呈現(xiàn)。除了這兩方面還有沒有其他構(gòu)想?
文繼榮:信息檢索就三件事情,一個是用戶需求的理解,第二個是對文本的理解或者對數(shù)據(jù)的理解,第三個就是把這兩者做連接,這就是信息檢索。只是原來做的很糙,就是拿關(guān)鍵詞匹配文檔。我們現(xiàn)在其實(shí)也脫不開,我們希望將來不是要用關(guān)鍵字表達(dá),你可能就在一個移動的環(huán)境下,開著一輛車或者走在路上去說。我們前兩天舉了一個例子,你路過央視大褲衩,你可能會問“那個奇怪建筑是什么”。對人提問沒有任何問題,但你要計(jì)算機(jī)理解“那個建筑”指的是什么,這個事情不是這么容易的,我們希望以后它能夠非常自然地理解你真正的需求。自然語言很難,因?yàn)槲覀儠÷院芏鄸|西,計(jì)算機(jī)只有把這些省略的東西補(bǔ)回來才能準(zhǔn)確地理解你想要什么。這些肯定不是單純通過推薦網(wǎng)頁就能夠?qū)崿F(xiàn)的,我們希望能夠?qū)⒏鞣N各樣的信息都集成在你的系統(tǒng)里,形成知識,對各種信息進(jìn)行無縫覆蓋。
個性化這個事情怎么去做?這個助手會隨著你的使用變得比你還懂你自己。這件事情是可以做到的,我們?nèi)擞袝r候不是那么懂自己,怎么在你的助手里面逐漸形成你的性格、人格、愛好,這里有大量的東西要去研究,很多東西我們是缺乏理論和算法基礎(chǔ)的。
我經(jīng)常開玩笑,以后我們這些人去世了,我們把我們個人信息助手上傳到空間,就永生了,它知道你。這件事情不是開玩笑,完全可以去做的。整個過程有很多東西要做,每個問題都是我們在人工智能這條路上非常關(guān)鍵也是非常艱難的問題。我們希望我們這個團(tuán)隊(duì)花五年、十年,能夠幫人類往前推進(jìn)一大步。
雷鋒網(wǎng)報道。
附:智源“智能信息檢索與挖掘”研究方向智源學(xué)者
相關(guān)文章:
打造世界AI研究的中心?黃鐵軍:北京有資源,北京有責(zé)任,北京有希望
智源研究院再次發(fā)力,孫茂松領(lǐng)銜打造北京學(xué)派 NLP 最強(qiáng)軍團(tuán)
智源研究院重磅發(fā)布智源學(xué)者計(jì)劃,攜手曠視成立聯(lián)合實(shí)驗(yàn)室
北京智源人工智能研究院成立,北京大學(xué)計(jì)算機(jī)系主任黃鐵軍擔(dān)任首任院長
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。