丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預(yù)覽,將在時失效
新鮮 正文
發(fā)私信給思睿
發(fā)送

0

吳恩達(dá)談百度深度學(xué)習(xí):為什么要建中文神經(jīng)網(wǎng)絡(luò)

本文作者: 思睿 2015-02-04 16:47
導(dǎo)語:Medium作者Caleb Garling與吳恩達(dá)的對話開始于他結(jié)束了在舊金山舉辦的深度學(xué)習(xí)峰會。他是斯坦福深度學(xué)習(xí)教授,也是前Google Brain的負(fù)責(zé)人和Coursera的創(chuàng)始人,現(xiàn)在他擔(dān)任著百度公司首席科學(xué)家。

吳恩達(dá)談百度深度學(xué)習(xí):為什么要建中文神經(jīng)網(wǎng)絡(luò)

Medium作者Caleb Garling在吳恩達(dá)結(jié)束了舊金山的深度學(xué)習(xí)峰會后,與進(jìn)行了一次訪談。在大會上吳恩達(dá)受到了一大群仰慕他的計算機(jī)科學(xué)家的訪問。他是斯坦福深度學(xué)習(xí)教授,也是前Google Brain的負(fù)責(zé)人和Coursera的創(chuàng)始人,現(xiàn)在他擔(dān)任著百度公司首席科學(xué)家。

深度學(xué)習(xí)已經(jīng)成為了計算機(jī)領(lǐng)域最熱門的話題之一了,這在很大程度上是由于Geoff Hinton在過去十年的努力,現(xiàn)在Geoff Hinton是Google的頭號人物之一。他們的想法是,如果你反饋給一臺電腦很多圖像,比方說一只狗的圖像,計算機(jī)最終將學(xué)會如何識別犬類。如果我們可以教會機(jī)器這么做,機(jī)器將很快能真正的擁有人的感觀——理解語言和圖像。

吳恩達(dá)和Caleb Garling談?wù)摿怂麕ьI(lǐng)百度在深度學(xué)習(xí)中面臨的挑戰(zhàn),他強(qiáng)調(diào),百度只對可以影響 1 億用戶的技術(shù)有興趣。其本人十分友好溫和,是那種說起話來你不好意思打斷他的人。

人們往往將我們的生物大腦與計算機(jī)神經(jīng)網(wǎng)絡(luò)混為一談。你能解釋為什么這是不準(zhǔn)確的?

在大腦中的單個神經(jīng)元是一個非常復(fù)雜的機(jī)器,即使到了今天我們?nèi)匀慌幻靼?。在計算機(jī)神經(jīng)網(wǎng)絡(luò)中的單個“神經(jīng)元”是一個非常簡單的數(shù)學(xué)函數(shù),只捕捉了復(fù)雜的生物神經(jīng)元中很小的一部分。這么說來計算機(jī)神經(jīng)網(wǎng)絡(luò)只是模仿人類大腦,但真正的人造神經(jīng)網(wǎng)絡(luò)是比不上我們生物的大腦。

深度學(xué)習(xí)算法在如今非常擅長的一件事就是學(xué)習(xí)輸入,并將其映射到一個輸出,X到Y(jié)。學(xué)習(xí)這一概念將是困難的。

有一件事是百度在幾個月前做到,那就是輸入圖像,并輸出文字。我們發(fā)現(xiàn),你可以學(xué)習(xí)這些輸入輸出的映射?,F(xiàn)在仍然有很多需要改進(jìn)的地方,但它是一個很有前途的方法,可以讓電腦理解這些高層次的概念。

普通話和英文,幾乎從任何方面而言這都是兩種完全不同的語言,所以對于理解這兩種語言的機(jī)器框架來說,到底有何不同呢?

現(xiàn)有的科技理論還沒有成熟到讓吳恩達(dá)足以言簡意賅地給出答案的地步。我們已經(jīng)有很好的英文框架了,現(xiàn)在我們想嘗試解決中文框架的問題。

英語有 26 個字母,然而中文大約有 5000 個字符。如果你看一篇中等長度英文的語料庫,出現(xiàn)的總是那么 26 個字母,而中文的語料庫中會有一些你只會見到一次的生僻字。所以你要如何學(xué)會認(rèn)識這些中文字符?

相比較而言,羅曼斯語言(由拉丁文演變而成)更加簡單。從法語轉(zhuǎn)到英語也比從中文轉(zhuǎn)到英語要容易得多。

所以如果有一張圖片被標(biāo)注上了英文標(biāo)簽,如何才能將這些標(biāo)簽轉(zhuǎn)換成中文?

我認(rèn)為有很多方法都值得我們?nèi)L試,并且這些方法我們都還不曾進(jìn)行過探索。我們用的其中一種方式就是多任務(wù)學(xué)習(xí)的方法。假設(shè)說你有一個可以識別被英語標(biāo)簽所標(biāo)注的圖像的人造神經(jīng)網(wǎng)絡(luò),現(xiàn)在你要做的就是訓(xùn)練這個網(wǎng)絡(luò),讓它可以識別中文標(biāo)簽,如果你能將這個神經(jīng)網(wǎng)絡(luò)訓(xùn)練成能同時完成中文和英文識別這兩件事,很有可能這個網(wǎng)絡(luò)會比單獨識別英語和中文的網(wǎng)絡(luò)要好得多。

這么做是有優(yōu)勢的,但是優(yōu)勢并不明顯。原因是這樣,機(jī)器可能會學(xué)習(xí)識別圖像中的邊,然后又學(xué)會了辨別圖像中的角。對于兩種語言來說,這種知識都是通用的。一旦你學(xué)會了識別英語中的物體,這事實上對于你學(xué)習(xí)中文中的物體也有幫助,因為你可以辨別這些邊和物體。

那些只存在于一種語言之中的詞又該怎么辦呢?

在英語里,無論是姐姐還是妹妹都只有一個單詞“sister”,但是在中文中,“姐姐”和“妹妹”是兩個不同意思的詞。事實上,當(dāng)你想要翻譯“sister”這個詞的時候就會遇到問題,因為你不知道應(yīng)該如何將它翻譯成中文,你不知道到底說的是姐姐還是妹妹。不過我認(rèn)為如果機(jī)器知道你的 sister 和屋子里其他的物體是有區(qū)別的話,那再區(qū)別是姐姐或者是妹妹并不困難。如果你不知道“sister”的概念,就要從零學(xué)習(xí)“姐妹”的概念了。

隨著不斷地訓(xùn)練,投入也會越來越高昂,除非你的神經(jīng)網(wǎng)絡(luò)規(guī)模比較小了。

什么樣的神經(jīng)網(wǎng)絡(luò)才算是小型的?

這會隨著時間改變。我們一般是依照神經(jīng)網(wǎng)絡(luò)之間的連接數(shù)劃分。百度訓(xùn)練的神經(jīng)網(wǎng)絡(luò)的連接數(shù)量一般可以達(dá)到幾百億。

在語言識別上,百度會不會從一些特殊的音節(jié)或是字母組合入手,比如“th”?

過去的語音識別是這么做的——語音識別通常都有一個標(biāo)準(zhǔn)的管道,輸入音頻,并預(yù)計這些音節(jié)到底是什么。然后你再用另一套系統(tǒng),把這些音節(jié)映射成文字。

不過近來人們一直在爭論一個問題,那就是音節(jié)到底是語言的一個基本組成部分,還是語言學(xué)家空想出來的?我花了很多年試圖說服人們,音節(jié)其實是人類構(gòu)造的,它不是語言的一個基本事實,只是人類發(fā)明出來對語言的一種描述方式而已。許多語言學(xué)家對此表示強(qiáng)烈的不滿,甚至公開地表示了反對。

我們在百度語音系統(tǒng)中并沒有用到音節(jié)的概念,這和小孩學(xué)習(xí)語言的過程十分相似:我們會給計算機(jī)播放一段音頻,告訴它文字的內(nèi)容,然后讓它自己建立映射。在說英文的人看來,人們還不知道音節(jié)的概念是什么之前,就已經(jīng)會說英語了。

那么電影呢?百度是否有關(guān)注這方面嗎?

深度學(xué)習(xí)在視頻方面有很多的成果,但是考慮到機(jī)器對于時間這個基本維度的認(rèn)識,我并不認(rèn)為它們很成功。所以深度學(xué)習(xí)的研究者們會常常爭論,時間這個維度對于我們的智能發(fā)展到底有多重要。

你看到了人工智能的潛在威脅了嗎?

我認(rèn)為關(guān)于“邪惡的機(jī)器人殺手”的擔(dān)憂是被夸大了。有智力和感知能力之間是有很大的區(qū)別。我們的軟件正變得越來越聰明,但是這并不意味著它即將變得具有感知能力。

via medium

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

分享:
相關(guān)文章

專業(yè)投稿

微信:ID_Travis
當(dāng)月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說