丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網賬號安全和更好的產品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
特寫 正文
發(fā)私信給林藠頭
發(fā)送

4

做自然語言的LSK,說要從哲學層面去解決語義分析問題

本文作者: 林藠頭 2016-05-17 07:47
導語:發(fā)明創(chuàng)造都是有機緣巧合的,經歷了很多事情之后,突然有一天他就想通(語義分析)這個問題了,就像那個蘋果砸到牛頓頭上,突然想通了萬有引力。

按:做語義分析的公司雷鋒網接觸得不算少,但說要從“哲學層面”解決語義分析問題的,LSK是第一個,雷鋒網感到很好奇,于是找到陳嚴——他是LSK深度人工智能的聯合發(fā)起人,另一位發(fā)起人陳峰常駐甘肅。

陳嚴:LSK是一套基于認知的語義識別方案。LSK分別對應Language、Semantic、Knowledge。

Google的語義分析是這么做的,最早它是用關鍵詞來匹配,從數據庫里區(qū)匹配最接近的結果;后來開始理解語法,梳理主謂動賓狀的語法樹,這就涉及分詞。英語的句法結構是比較規(guī)整的,而且詞和詞之間有空格,不需要分詞,但漢語不一樣,‘我吃了一個蘋果’,是把‘我吃’當成一個單位,還是‘吃了’當成一個單位呢?我記得Google后來是和一家叫海量分詞的公司和合作,做了大量的分詞,但這個也只能解決一部分問題。

Google翻譯的結果其實是不那么令人滿意的,我們隨手輸入“蘋果紅了”,它翻譯成“red apple”,其實是不準確的。

人對事物的識別建立在一套認知系統(tǒng)上,語言只是一種表現形式。我們決定從認知層面去著手,首先我們要建立一套知識體系,比如“吃”這個字——說起吃,我們頭腦里會想到吃了什么、誰吃了、在哪里吃的、吃了還是沒吃——是一套復雜的認知體系,LSK是建立在這套認知系統(tǒng)上的語義識別。

語義的表現形式多種多樣,但內核其實都是類似的,如果機器“知道”這個詞什么意思,就不會被語音的表現形式迷惑,“吃了嗎你”、“你吃了嗎”,系統(tǒng)會得出相同的翻譯結果。我們的系統(tǒng)學一個詞就是一個詞,它把“吃”學透,學習的詞匯越多,就越準確。

雷鋒網:團隊的技術背景大多是怎樣的?

陳嚴:技術背景不重要,核心人物才是最重要的,愛因斯坦寫相對論的時候是一個人寫的,不是找了一堆人寫的。這類問題能想清楚的只是一個人,最多兩個人,世界上所有的發(fā)現都是這樣的。

雷鋒網:咱們團隊里面那個人是誰?

陳嚴:陳峰,山峰的峰。

我和他都是甘肅電信的,我們被派到北京三年,后來電信整改等等一些原因,我們離開電信系統(tǒng)回了甘肅,開始做LSK。同時我們也有別的事情在做。

他學地質出身,17歲開始搞計算機,我們一起經歷了很多事情。發(fā)明創(chuàng)造都是有機緣巧合的,經歷了很多事情之后,突然有一天他就想通(語義分析)這個問題了,就像那個蘋果砸到牛頓頭上,突然想通了萬有引力。

(按:在網絡上搜不到陳峰的相關背景。從官方給過來的資料中顯示,陳峰是“中國電信甘肅號百公司技術總監(jiān)”、“神州數碼科技公司大客戶事業(yè)部技術總監(jiān)”、“曾獲2004年美國ESRI公司全球特殊貢獻獎”、“·個人專利《統(tǒng)一對象標識技術》”。)


雷鋒網:但是這樣的人只適合一些學術研究、發(fā)論文,真正要做產品,還是要很多人去做一些工程性的工作吧?

陳嚴:我們還沒有開始融資,也沒有產品化,只要開始落地,技術合格的人容易招。陳峰這樣的人鳳毛麟角。

雷鋒網:這類型的人才,院校里面應該很多。

陳嚴:院校里面都是基于算法去做一些事情,其實算法是第二位的,第一位的是結構。神經網絡是也是算法。

雷鋒網:神經網絡是算法的話,那它對應的結構是什么?

陳嚴:對應的結構……神經網絡我還真不是很懂,我感覺它是模擬人腦的結構,可能更偏重學習。

按照Google的關鍵詞匹配的方法,它只能解釋庫里有的,遇到系統(tǒng)里沒有的事物就沒辦法。但所有的未知知識都是由已知知識去描述的,在我們的體系里面可以做到這一點。

我們上升到哲學層面去解決這個問題,世界上的事物之間的關系歸根結底都可以由擁有、屬于、時間、空間等等一些基本詞匯來描述,“蘋果紅了”,是蘋果擁有紅色,還是蘋果屬于紅色?空間和時間的定義,都可以由這些基本詞匯去描述,這些詞匯只有11個,全世界的知識都逃不出這11個詞。

理論上是這樣的,但實際的系統(tǒng)實現遇到的難題很多。

雷鋒網:這個有點超乎我的認知。

陳嚴:比如社會關系學,就是人與人之間的關系,人與人之間的關系可以由一些詞去描繪,這些特定的詞可以抽象出來——一定要抽象到最高級也就是最底層的東西。自然語言認知的層次:關鍵字、語法層、邏輯層、哲學層、抽象層,一共五層,我們給微軟頂多看到第二層,它就已經很吃驚了;科大訊飛看到我們的技術文檔,只說了一句話:“這根本做不出來”;跟薛蠻子也談了,他感興趣,但是又不投錢。2012年,我們談了不少投資人,總覺得對不上。

當時自己狀態(tài)也不好,不知道在哪里落地,應答、輿情分析、翻譯,具體產品的方向沒有確定,拿去做語音導航似乎又體現不出優(yōu)勢,加上自己還有一些國土資源方向的項目在做,融資的事就放下了,但技術一直在進展。陳峰這幾年全職在做這個事情——前些年做國土項目有一些積累,足夠他只專心在這一件事情上。

現在我們更完善了,原先可以理解句子,現在可以理解100字左右的長句子。我可以講解一下它是怎么推理的,比如“陳嚴借給林總一本書”,LSK可以推斷“林總需要還給陳嚴一本書”,這是它自己產生的,已經具備邏輯思維了。

雷鋒網:過去6年,LSK的技術團隊主要在做什么工作?

陳嚴:沒有團隊,就他一個人,就陳峰一個人。過去6年,他就在研究哲學問題,然后把它轉化成知識性的東西。

陳嚴給雷鋒網演示了一個DEMO,顯示LSK是如何工作的。做NLP的讀者可以看看,是否能看出端倪。

做自然語言的LSK,說要從哲學層面去解決語義分析問題

遺憾的是,陳嚴的手機上沒有裝APK(他說并沒有開發(fā)安裝包),而陳峰遠在甘肅。除了這個視頻,雷鋒網并沒有獲得其他測試產品的機會。對于這個產品以及陳嚴描述的原理,雷鋒網有一肚子的問號。

當雷鋒網向一位同是做機器翻譯(并且已經成規(guī)模,有穩(wěn)定的商業(yè)模式)的業(yè)者表達疑問,說感覺有些“民科”,他隔了三四個小時給我回了一段話:

“似乎確鑿就是民科。剛剛去找來‘LSK理論’著作拜讀了一下,通篇沒有任何形式化定義。至少以目前的計算機原理來說,這是不可計算的?!?/p>

懂行的朋友出來說個究竟?

附注:雷鋒網將于8月12、13日在深圳舉辦全球人工智能與機器人創(chuàng)新大會,會議召開的同時我們將頒發(fā)Top25人工智能創(chuàng)業(yè)項目的榜單。目前我們正準備遍訪機器人、人工智能、無人機及自動駕駛相關的創(chuàng)業(yè)項目,有殺錯,沒放過,如果覺得自己是這個行當的頂尖企業(yè),歡迎發(fā)郵件到 2020@leiphone.com 自薦。

雷峰網原創(chuàng)文章,未經授權禁止轉載。詳情見轉載須知。

分享:
相關文章

編輯

你先說有什么事,我好決定在不在。
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經綁定,現在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說