4
本文作者: 林藠頭 | 2016-05-17 07:47 |
按:做語(yǔ)義分析的公司雷鋒網(wǎng)接觸得不算少,但說(shuō)要從“哲學(xué)層面”解決語(yǔ)義分析問(wèn)題的,LSK是第一個(gè),雷鋒網(wǎng)感到很好奇,于是找到陳嚴(yán)——他是LSK深度人工智能的聯(lián)合發(fā)起人,另一位發(fā)起人陳峰常駐甘肅。
陳嚴(yán):LSK是一套基于認(rèn)知的語(yǔ)義識(shí)別方案。LSK分別對(duì)應(yīng)Language、Semantic、Knowledge。
Google的語(yǔ)義分析是這么做的,最早它是用關(guān)鍵詞來(lái)匹配,從數(shù)據(jù)庫(kù)里區(qū)匹配最接近的結(jié)果;后來(lái)開(kāi)始理解語(yǔ)法,梳理主謂動(dòng)賓狀的語(yǔ)法樹(shù),這就涉及分詞。英語(yǔ)的句法結(jié)構(gòu)是比較規(guī)整的,而且詞和詞之間有空格,不需要分詞,但漢語(yǔ)不一樣,‘我吃了一個(gè)蘋(píng)果’,是把‘我吃’當(dāng)成一個(gè)單位,還是‘吃了’當(dāng)成一個(gè)單位呢?我記得Google后來(lái)是和一家叫海量分詞的公司和合作,做了大量的分詞,但這個(gè)也只能解決一部分問(wèn)題。
Google翻譯的結(jié)果其實(shí)是不那么令人滿意的,我們隨手輸入“蘋(píng)果紅了”,它翻譯成“red apple”,其實(shí)是不準(zhǔn)確的。
人對(duì)事物的識(shí)別建立在一套認(rèn)知系統(tǒng)上,語(yǔ)言只是一種表現(xiàn)形式。我們決定從認(rèn)知層面去著手,首先我們要建立一套知識(shí)體系,比如“吃”這個(gè)字——說(shuō)起吃,我們頭腦里會(huì)想到吃了什么、誰(shuí)吃了、在哪里吃的、吃了還是沒(méi)吃——是一套復(fù)雜的認(rèn)知體系,LSK是建立在這套認(rèn)知系統(tǒng)上的語(yǔ)義識(shí)別。
語(yǔ)義的表現(xiàn)形式多種多樣,但內(nèi)核其實(shí)都是類似的,如果機(jī)器“知道”這個(gè)詞什么意思,就不會(huì)被語(yǔ)音的表現(xiàn)形式迷惑,“吃了嗎你”、“你吃了嗎”,系統(tǒng)會(huì)得出相同的翻譯結(jié)果。我們的系統(tǒng)學(xué)一個(gè)詞就是一個(gè)詞,它把“吃”學(xué)透,學(xué)習(xí)的詞匯越多,就越準(zhǔn)確。
雷鋒網(wǎng):團(tuán)隊(duì)的技術(shù)背景大多是怎樣的?
陳嚴(yán):技術(shù)背景不重要,核心人物才是最重要的,愛(ài)因斯坦寫(xiě)相對(duì)論的時(shí)候是一個(gè)人寫(xiě)的,不是找了一堆人寫(xiě)的。這類問(wèn)題能想清楚的只是一個(gè)人,最多兩個(gè)人,世界上所有的發(fā)現(xiàn)都是這樣的。
雷鋒網(wǎng):咱們團(tuán)隊(duì)里面那個(gè)人是誰(shuí)?
陳嚴(yán):陳峰,山峰的峰。
我和他都是甘肅電信的,我們被派到北京三年,后來(lái)電信整改等等一些原因,我們離開(kāi)電信系統(tǒng)回了甘肅,開(kāi)始做LSK。同時(shí)我們也有別的事情在做。
他學(xué)地質(zhì)出身,17歲開(kāi)始搞計(jì)算機(jī),我們一起經(jīng)歷了很多事情。發(fā)明創(chuàng)造都是有機(jī)緣巧合的,經(jīng)歷了很多事情之后,突然有一天他就想通(語(yǔ)義分析)這個(gè)問(wèn)題了,就像那個(gè)蘋(píng)果砸到牛頓頭上,突然想通了萬(wàn)有引力。
(按:在網(wǎng)絡(luò)上搜不到陳峰的相關(guān)背景。從官方給過(guò)來(lái)的資料中顯示,陳峰是“中國(guó)電信甘肅號(hào)百公司技術(shù)總監(jiān)”、“神州數(shù)碼科技公司大客戶事業(yè)部技術(shù)總監(jiān)”、“曾獲2004年美國(guó)ESRI公司全球特殊貢獻(xiàn)獎(jiǎng)”、“·個(gè)人專利《統(tǒng)一對(duì)象標(biāo)識(shí)技術(shù)》”。)
雷鋒網(wǎng):但是這樣的人只適合一些學(xué)術(shù)研究、發(fā)論文,真正要做產(chǎn)品,還是要很多人去做一些工程性的工作吧?
陳嚴(yán):我們還沒(méi)有開(kāi)始融資,也沒(méi)有產(chǎn)品化,只要開(kāi)始落地,技術(shù)合格的人容易招。陳峰這樣的人鳳毛麟角。
雷鋒網(wǎng):這類型的人才,院校里面應(yīng)該很多。
陳嚴(yán):院校里面都是基于算法去做一些事情,其實(shí)算法是第二位的,第一位的是結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)是也是算法。
雷鋒網(wǎng):神經(jīng)網(wǎng)絡(luò)是算法的話,那它對(duì)應(yīng)的結(jié)構(gòu)是什么?
陳嚴(yán):對(duì)應(yīng)的結(jié)構(gòu)……神經(jīng)網(wǎng)絡(luò)我還真不是很懂,我感覺(jué)它是模擬人腦的結(jié)構(gòu),可能更偏重學(xué)習(xí)。
按照Google的關(guān)鍵詞匹配的方法,它只能解釋庫(kù)里有的,遇到系統(tǒng)里沒(méi)有的事物就沒(méi)辦法。但所有的未知知識(shí)都是由已知知識(shí)去描述的,在我們的體系里面可以做到這一點(diǎn)。
我們上升到哲學(xué)層面去解決這個(gè)問(wèn)題,世界上的事物之間的關(guān)系歸根結(jié)底都可以由擁有、屬于、時(shí)間、空間等等一些基本詞匯來(lái)描述,“蘋(píng)果紅了”,是蘋(píng)果擁有紅色,還是蘋(píng)果屬于紅色?空間和時(shí)間的定義,都可以由這些基本詞匯去描述,這些詞匯只有11個(gè),全世界的知識(shí)都逃不出這11個(gè)詞。
理論上是這樣的,但實(shí)際的系統(tǒng)實(shí)現(xiàn)遇到的難題很多。
雷鋒網(wǎng):這個(gè)有點(diǎn)超乎我的認(rèn)知。
陳嚴(yán):比如社會(huì)關(guān)系學(xué),就是人與人之間的關(guān)系,人與人之間的關(guān)系可以由一些詞去描繪,這些特定的詞可以抽象出來(lái)——一定要抽象到最高級(jí)也就是最底層的東西。自然語(yǔ)言認(rèn)知的層次:關(guān)鍵字、語(yǔ)法層、邏輯層、哲學(xué)層、抽象層,一共五層,我們給微軟頂多看到第二層,它就已經(jīng)很吃驚了;科大訊飛看到我們的技術(shù)文檔,只說(shuō)了一句話:“這根本做不出來(lái)”;跟薛蠻子也談了,他感興趣,但是又不投錢。2012年,我們談了不少投資人,總覺(jué)得對(duì)不上。
當(dāng)時(shí)自己狀態(tài)也不好,不知道在哪里落地,應(yīng)答、輿情分析、翻譯,具體產(chǎn)品的方向沒(méi)有確定,拿去做語(yǔ)音導(dǎo)航似乎又體現(xiàn)不出優(yōu)勢(shì),加上自己還有一些國(guó)土資源方向的項(xiàng)目在做,融資的事就放下了,但技術(shù)一直在進(jìn)展。陳峰這幾年全職在做這個(gè)事情——前些年做國(guó)土項(xiàng)目有一些積累,足夠他只專心在這一件事情上。
現(xiàn)在我們更完善了,原先可以理解句子,現(xiàn)在可以理解100字左右的長(zhǎng)句子。我可以講解一下它是怎么推理的,比如“陳嚴(yán)借給林總一本書(shū)”,LSK可以推斷“林總需要還給陳嚴(yán)一本書(shū)”,這是它自己產(chǎn)生的,已經(jīng)具備邏輯思維了。
雷鋒網(wǎng):過(guò)去6年,LSK的技術(shù)團(tuán)隊(duì)主要在做什么工作?
陳嚴(yán):沒(méi)有團(tuán)隊(duì),就他一個(gè)人,就陳峰一個(gè)人。過(guò)去6年,他就在研究哲學(xué)問(wèn)題,然后把它轉(zhuǎn)化成知識(shí)性的東西。
陳嚴(yán)給雷鋒網(wǎng)演示了一個(gè)DEMO,顯示LSK是如何工作的。做NLP的讀者可以看看,是否能看出端倪。
遺憾的是,陳嚴(yán)的手機(jī)上沒(méi)有裝APK(他說(shuō)并沒(méi)有開(kāi)發(fā)安裝包),而陳峰遠(yuǎn)在甘肅。除了這個(gè)視頻,雷鋒網(wǎng)并沒(méi)有獲得其他測(cè)試產(chǎn)品的機(jī)會(huì)。對(duì)于這個(gè)產(chǎn)品以及陳嚴(yán)描述的原理,雷鋒網(wǎng)有一肚子的問(wèn)號(hào)。
當(dāng)雷鋒網(wǎng)向一位同是做機(jī)器翻譯(并且已經(jīng)成規(guī)模,有穩(wěn)定的商業(yè)模式)的業(yè)者表達(dá)疑問(wèn),說(shuō)感覺(jué)有些“民科”,他隔了三四個(gè)小時(shí)給我回了一段話:
“似乎確鑿就是民科。剛剛?cè)フ襾?lái)‘LSK理論’著作拜讀了一下,通篇沒(méi)有任何形式化定義。至少以目前的計(jì)算機(jī)原理來(lái)說(shuō),這是不可計(jì)算的。”
懂行的朋友出來(lái)說(shuō)個(gè)究竟?
附注:雷鋒網(wǎng)將于8月12、13日在深圳舉辦全球人工智能與機(jī)器人創(chuàng)新大會(huì),會(huì)議召開(kāi)的同時(shí)我們將頒發(fā)Top25人工智能創(chuàng)業(yè)項(xiàng)目的榜單。目前我們正準(zhǔn)備遍訪機(jī)器人、人工智能、無(wú)人機(jī)及自動(dòng)駕駛相關(guān)的創(chuàng)業(yè)項(xiàng)目,有殺錯(cuò),沒(méi)放過(guò),如果覺(jué)得自己是這個(gè)行當(dāng)?shù)捻敿馄髽I(yè),歡迎發(fā)郵件到 2020@leiphone.com 自薦。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。