丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
特寫 正文
發(fā)私信給林藠頭
發(fā)送

4

做自然語言的LSK,說要從哲學(xué)層面去解決語義分析問題

本文作者: 林藠頭 2016-05-17 07:47
導(dǎo)語:發(fā)明創(chuàng)造都是有機(jī)緣巧合的,經(jīng)歷了很多事情之后,突然有一天他就想通(語義分析)這個(gè)問題了,就像那個(gè)蘋果砸到牛頓頭上,突然想通了萬有引力。

按:做語義分析的公司雷鋒網(wǎng)接觸得不算少,但說要從“哲學(xué)層面”解決語義分析問題的,LSK是第一個(gè),雷鋒網(wǎng)感到很好奇,于是找到陳嚴(yán)——他是LSK深度人工智能的聯(lián)合發(fā)起人,另一位發(fā)起人陳峰常駐甘肅。

陳嚴(yán):LSK是一套基于認(rèn)知的語義識(shí)別方案。LSK分別對(duì)應(yīng)Language、Semantic、Knowledge。

Google的語義分析是這么做的,最早它是用關(guān)鍵詞來匹配,從數(shù)據(jù)庫里區(qū)匹配最接近的結(jié)果;后來開始理解語法,梳理主謂動(dòng)賓狀的語法樹,這就涉及分詞。英語的句法結(jié)構(gòu)是比較規(guī)整的,而且詞和詞之間有空格,不需要分詞,但漢語不一樣,‘我吃了一個(gè)蘋果’,是把‘我吃’當(dāng)成一個(gè)單位,還是‘吃了’當(dāng)成一個(gè)單位呢?我記得Google后來是和一家叫海量分詞的公司和合作,做了大量的分詞,但這個(gè)也只能解決一部分問題。

Google翻譯的結(jié)果其實(shí)是不那么令人滿意的,我們隨手輸入“蘋果紅了”,它翻譯成“red apple”,其實(shí)是不準(zhǔn)確的。

人對(duì)事物的識(shí)別建立在一套認(rèn)知系統(tǒng)上,語言只是一種表現(xiàn)形式。我們決定從認(rèn)知層面去著手,首先我們要建立一套知識(shí)體系,比如“吃”這個(gè)字——說起吃,我們頭腦里會(huì)想到吃了什么、誰吃了、在哪里吃的、吃了還是沒吃——是一套復(fù)雜的認(rèn)知體系,LSK是建立在這套認(rèn)知系統(tǒng)上的語義識(shí)別。

語義的表現(xiàn)形式多種多樣,但內(nèi)核其實(shí)都是類似的,如果機(jī)器“知道”這個(gè)詞什么意思,就不會(huì)被語音的表現(xiàn)形式迷惑,“吃了嗎你”、“你吃了嗎”,系統(tǒng)會(huì)得出相同的翻譯結(jié)果。我們的系統(tǒng)學(xué)一個(gè)詞就是一個(gè)詞,它把“吃”學(xué)透,學(xué)習(xí)的詞匯越多,就越準(zhǔn)確。

雷鋒網(wǎng):團(tuán)隊(duì)的技術(shù)背景大多是怎樣的?

陳嚴(yán):技術(shù)背景不重要,核心人物才是最重要的,愛因斯坦寫相對(duì)論的時(shí)候是一個(gè)人寫的,不是找了一堆人寫的。這類問題能想清楚的只是一個(gè)人,最多兩個(gè)人,世界上所有的發(fā)現(xiàn)都是這樣的。

雷鋒網(wǎng):咱們團(tuán)隊(duì)里面那個(gè)人是誰?

陳嚴(yán):陳峰,山峰的峰。

我和他都是甘肅電信的,我們被派到北京三年,后來電信整改等等一些原因,我們離開電信系統(tǒng)回了甘肅,開始做LSK。同時(shí)我們也有別的事情在做。

他學(xué)地質(zhì)出身,17歲開始搞計(jì)算機(jī),我們一起經(jīng)歷了很多事情。發(fā)明創(chuàng)造都是有機(jī)緣巧合的,經(jīng)歷了很多事情之后,突然有一天他就想通(語義分析)這個(gè)問題了,就像那個(gè)蘋果砸到牛頓頭上,突然想通了萬有引力。

(按:在網(wǎng)絡(luò)上搜不到陳峰的相關(guān)背景。從官方給過來的資料中顯示,陳峰是“中國電信甘肅號(hào)百公司技術(shù)總監(jiān)”、“神州數(shù)碼科技公司大客戶事業(yè)部技術(shù)總監(jiān)”、“曾獲2004年美國ESRI公司全球特殊貢獻(xiàn)獎(jiǎng)”、“·個(gè)人專利《統(tǒng)一對(duì)象標(biāo)識(shí)技術(shù)》”。)


雷鋒網(wǎng):但是這樣的人只適合一些學(xué)術(shù)研究、發(fā)論文,真正要做產(chǎn)品,還是要很多人去做一些工程性的工作吧?

陳嚴(yán):我們還沒有開始融資,也沒有產(chǎn)品化,只要開始落地,技術(shù)合格的人容易招。陳峰這樣的人鳳毛麟角。

雷鋒網(wǎng):這類型的人才,院校里面應(yīng)該很多。

陳嚴(yán):院校里面都是基于算法去做一些事情,其實(shí)算法是第二位的,第一位的是結(jié)構(gòu)。神經(jīng)網(wǎng)絡(luò)是也是算法。

雷鋒網(wǎng):神經(jīng)網(wǎng)絡(luò)是算法的話,那它對(duì)應(yīng)的結(jié)構(gòu)是什么?

陳嚴(yán):對(duì)應(yīng)的結(jié)構(gòu)……神經(jīng)網(wǎng)絡(luò)我還真不是很懂,我感覺它是模擬人腦的結(jié)構(gòu),可能更偏重學(xué)習(xí)。

按照Google的關(guān)鍵詞匹配的方法,它只能解釋庫里有的,遇到系統(tǒng)里沒有的事物就沒辦法。但所有的未知知識(shí)都是由已知知識(shí)去描述的,在我們的體系里面可以做到這一點(diǎn)。

我們上升到哲學(xué)層面去解決這個(gè)問題,世界上的事物之間的關(guān)系歸根結(jié)底都可以由擁有、屬于、時(shí)間、空間等等一些基本詞匯來描述,“蘋果紅了”,是蘋果擁有紅色,還是蘋果屬于紅色?空間和時(shí)間的定義,都可以由這些基本詞匯去描述,這些詞匯只有11個(gè),全世界的知識(shí)都逃不出這11個(gè)詞。

理論上是這樣的,但實(shí)際的系統(tǒng)實(shí)現(xiàn)遇到的難題很多。

雷鋒網(wǎng):這個(gè)有點(diǎn)超乎我的認(rèn)知。

陳嚴(yán):比如社會(huì)關(guān)系學(xué),就是人與人之間的關(guān)系,人與人之間的關(guān)系可以由一些詞去描繪,這些特定的詞可以抽象出來——一定要抽象到最高級(jí)也就是最底層的東西。自然語言認(rèn)知的層次:關(guān)鍵字、語法層、邏輯層、哲學(xué)層、抽象層,一共五層,我們給微軟頂多看到第二層,它就已經(jīng)很吃驚了;科大訊飛看到我們的技術(shù)文檔,只說了一句話:“這根本做不出來”;跟薛蠻子也談了,他感興趣,但是又不投錢。2012年,我們談了不少投資人,總覺得對(duì)不上。

當(dāng)時(shí)自己狀態(tài)也不好,不知道在哪里落地,應(yīng)答、輿情分析、翻譯,具體產(chǎn)品的方向沒有確定,拿去做語音導(dǎo)航似乎又體現(xiàn)不出優(yōu)勢(shì),加上自己還有一些國土資源方向的項(xiàng)目在做,融資的事就放下了,但技術(shù)一直在進(jìn)展。陳峰這幾年全職在做這個(gè)事情——前些年做國土項(xiàng)目有一些積累,足夠他只專心在這一件事情上。

現(xiàn)在我們更完善了,原先可以理解句子,現(xiàn)在可以理解100字左右的長句子。我可以講解一下它是怎么推理的,比如“陳嚴(yán)借給林總一本書”,LSK可以推斷“林總需要還給陳嚴(yán)一本書”,這是它自己產(chǎn)生的,已經(jīng)具備邏輯思維了。

雷鋒網(wǎng):過去6年,LSK的技術(shù)團(tuán)隊(duì)主要在做什么工作?

陳嚴(yán):沒有團(tuán)隊(duì),就他一個(gè)人,就陳峰一個(gè)人。過去6年,他就在研究哲學(xué)問題,然后把它轉(zhuǎn)化成知識(shí)性的東西。

陳嚴(yán)給雷鋒網(wǎng)演示了一個(gè)DEMO,顯示LSK是如何工作的。做NLP的讀者可以看看,是否能看出端倪。

做自然語言的LSK,說要從哲學(xué)層面去解決語義分析問題

遺憾的是,陳嚴(yán)的手機(jī)上沒有裝APK(他說并沒有開發(fā)安裝包),而陳峰遠(yuǎn)在甘肅。除了這個(gè)視頻,雷鋒網(wǎng)并沒有獲得其他測(cè)試產(chǎn)品的機(jī)會(huì)。對(duì)于這個(gè)產(chǎn)品以及陳嚴(yán)描述的原理,雷鋒網(wǎng)有一肚子的問號(hào)。

當(dāng)雷鋒網(wǎng)向一位同是做機(jī)器翻譯(并且已經(jīng)成規(guī)模,有穩(wěn)定的商業(yè)模式)的業(yè)者表達(dá)疑問,說感覺有些“民科”,他隔了三四個(gè)小時(shí)給我回了一段話:

“似乎確鑿就是民科。剛剛?cè)フ襾怼甃SK理論’著作拜讀了一下,通篇沒有任何形式化定義。至少以目前的計(jì)算機(jī)原理來說,這是不可計(jì)算的。”

懂行的朋友出來說個(gè)究竟?

附注:雷鋒網(wǎng)將于8月12、13日在深圳舉辦全球人工智能與機(jī)器人創(chuàng)新大會(huì),會(huì)議召開的同時(shí)我們將頒發(fā)Top25人工智能創(chuàng)業(yè)項(xiàng)目的榜單。目前我們正準(zhǔn)備遍訪機(jī)器人、人工智能、無人機(jī)及自動(dòng)駕駛相關(guān)的創(chuàng)業(yè)項(xiàng)目,有殺錯(cuò),沒放過,如果覺得自己是這個(gè)行當(dāng)?shù)捻敿馄髽I(yè),歡迎發(fā)郵件到 2020@leiphone.com 自薦。

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

編輯

你先說有什么事,我好決定在不在。
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說