1
本文作者: 章敏 | 2016-07-04 19:21 |
人工智能領(lǐng)域大神燕樂存點評衛(wèi)報記者使用Torch-RNN自動生成文本
如果深度學(xué)習(xí)變得和網(wǎng)絡(luò)一樣大,那就是時候進一步關(guān)注它了。
Google DeepMind人工智能項目,AlphaGo,使用機器學(xué)習(xí)擊敗了它的人類對手,但這僅僅是個開端。圖片:Ahn Young-joon/AP
世界正在慢慢的被機器學(xué)習(xí)重塑。我們不需要再教電腦如何去執(zhí)行復(fù)雜的任務(wù),如圖像識別和文章翻譯:相反,我們建立了一個讓它們學(xué)會自主學(xué)習(xí)的系統(tǒng)。
“這不是魔術(shù)”Google一位資深的調(diào)研科學(xué)家Greg Corrado說道?!八皇且粋€工具,但它非常重要”
如今機器學(xué)習(xí)最有效的應(yīng)用,被稱為“深度學(xué)習(xí)(deep learning)”,在大量數(shù)據(jù)的基礎(chǔ)上,建立一個稱之為神經(jīng)網(wǎng)絡(luò)的復(fù)雜的數(shù)學(xué)結(jié)構(gòu)。它的設(shè)計類似于人類大腦的工作方式,1930年時,第一次描繪它自己的神經(jīng)網(wǎng)絡(luò)。但只在最近的3,4年中,電腦才變得足夠強大,去有效的使用它。
Corrado說他認為這是技術(shù)的一大改革,如因特網(wǎng)一樣?!霸谝蛱鼐W(wǎng)技術(shù)問世之前,如果你在計算機科學(xué)方面工作的話,網(wǎng)絡(luò)是一群奇怪的人做的奇怪的事,現(xiàn)在呢,無論是工程師,軟件開發(fā)員,產(chǎn)品設(shè)計員,還是CEO,他們都知到互聯(lián)網(wǎng)連接如何塑造他們的產(chǎn)品,塑造市場,以及他們可能會建立的東西”
他說同樣的轉(zhuǎn)變正在機器學(xué)習(xí)中進行?!白罱K它會成為每個人都可以做一點的事情。他們不需要做細節(jié)方面的事,但需要了解"如果有這方面的數(shù)據(jù)可以學(xué)習(xí)的話,或許我們可以做到。”
Google自己在該想法的成就,是一個叫TensorFLow開源軟件,它構(gòu)建于可用的基礎(chǔ)上,該公司的研究人員試圖了解他們創(chuàng)造的強大模型,那些已經(jīng)擁有它的工程師,將它瓶裝起來,并用于圖像分類或讓人們通過聲音進行搜索。
機器學(xué)習(xí)仍然是一個復(fù)雜的“野獸”,遠離簡化場合,除非有著強大的編程背景,不然你自己在神經(jīng)網(wǎng)絡(luò)方面能做的東西很少。但我想把Conrado的觀點放入測試中:如果未來機器學(xué)習(xí)會變成了“每個人都可以做點什么”的事情,離這天還有多遠?
想法和研究的分享非常開放,是現(xiàn)在機器學(xué)習(xí)領(lǐng)域的一個好現(xiàn)象。Google開放TensorFlow給每個人使用時,寫到:“通過分享我們認為世界上最好的機器學(xué)習(xí)工具箱,是希望創(chuàng)造一個開放的標(biāo)準,以便交流研究想法并將機器學(xué)習(xí)應(yīng)用于產(chǎn)品中?!彼⒉皇枪铝⒌模好恳粋€主要的成就都可免費使用和建模,這意味著有可能通過一個筆記本和網(wǎng)絡(luò)連接,建立一個簡單的機器智能。這也正是我所做的。
跟隨技術(shù)專家Robin Sloan的腳步,我在119mb的衛(wèi)報負責(zé)人隊列中訓(xùn)練了一個簡單的神經(jīng)網(wǎng)絡(luò)。這并不容易,盡管有詳細的說明書,我仍然發(fā)了數(shù)個小時將建立計算機到這個點,一個可以從文本語料庫中開始學(xué)習(xí)的點。一旦到達這個點,我意識到我嚴重低估了機器學(xué)習(xí)所需要的時間。在運行該訓(xùn)練軟件30分鐘,進行到整個過程的1%時,我意識到我需要一個更快的計算機。所以我又發(fā)了幾個小時在Amazon的云端學(xué)習(xí)配置服務(wù)器。一個小時需要發(fā)費$.70,這意味著整個進程需要在8個小時內(nèi)完成。
我并不是唯一研究該技術(shù)的人,早在幾年前,Google本身就經(jīng)歷了一次變型。從圖片搜索到聲音識別,大量的搜索擊垮了其中一些最大服務(wù),并且從根本上讓它重生。現(xiàn)在,它想讓剩下的世界跟上腳步。
6月16號,Google宣布在它的Zurich工程辦公室新建了一個專門的機器學(xué)習(xí)團隊,Zurich工程辦公室是Google開發(fā)商在US最大的聚集地,為了在三方面領(lǐng)導(dǎo)研究:機器智能,神經(jīng)語言處理,機器感知,Google建立了一個能夠思考,傾聽,和看見的系統(tǒng)。
但計算機科學(xué)家充分了解,如何爭論神經(jīng)網(wǎng)絡(luò),將其用于區(qū)分演講或產(chǎn)生迷幻的圖像時,他們沒有意識到,所有的一切都是為了解它是如何實際工作的。Google DeepMind的部分工作,是研究一個非常著名的算法,它為什么,或者怎么變得如此優(yōu)秀,該算法在古代亞洲圍棋游戲中戰(zhàn)勝了一個世界冠軍。并且,新的機器學(xué)習(xí)團隊跨著研究和產(chǎn)品發(fā)展的邊線,試圖建立一個可以應(yīng)對前所未有挑戰(zhàn)的新算法。
我自己在這方面嘗試的效果不理想,結(jié)果是不完美的。Google的機器學(xué)習(xí)解決了兩年前我們稱之為“幾乎不可能”的問題時,我?guī)缀醵歼€不能將一個句子連在一起。
跟隨Sloan的例子,我把模型設(shè)置成自動完成發(fā)動機。我能夠?qū)懗隼碚撔l(wèi)報社論前面一半的句子,系統(tǒng)開始作為一個輸入回饋它,并且問道下面它會怎么想。不喜歡這個?那就問它要其它的回答。
我盡量讓它從平行宇宙閱讀衛(wèi)報編輯社論。使用“星期四在歐盟停留的重大投票是”作為出發(fā)點,并且盡量讓系統(tǒng)去想象接下來的句子會是什么:
·星期四在歐盟停留的重大投票更黑暗在1970s
·星期四在歐盟停留的重大投票是一個合法反對的人在2015
·星期四在歐盟停留的重大投票是歧視和失敗者的第一種方式,宣布政府不是一個單一的憲法保守政策。
·星期四在歐盟停留的重大投票是在宣言的承諾。
這太糟糕了,當(dāng)然這也糟糕:如果我能訓(xùn)練機器寫出一個令人說服的衛(wèi)報社論,或者是從衛(wèi)報中提取一個令人說服的句子,在兩天中,復(fù)制說明書,擺弄復(fù)雜的軟件—甚至在我成功之后仍然無法理解。然后,我工作的安全性會比它要小得多,每個人的工作都會比他們更不安全。
我并不是第一個摔倒在該障礙的人:在六月之前,Atlantic’s Adrienne LaFrance嘗試了一個更小的實驗,同樣使用Sloan的配套原件,但由于她的語料庫的大小而受到了阻礙。五千萬的單詞,是她從Atlabtic中寫出的總數(shù)量,這不能完全滿足機器學(xué)習(xí),但在衛(wèi)報中20m的設(shè)置寫出了更好的社論。(我在每個實現(xiàn)的故事中運行系統(tǒng),如果有一個一致的音調(diào)和風(fēng)格——領(lǐng)導(dǎo)列,都寫在紙的聲音上,它學(xué)習(xí)的效果會更好)。
在同一時間,表面上的結(jié)果并不起眼,但,它是一種驚人的東西。我使用的包裹叫做Torch-rnn,它被設(shè)計用來訓(xùn)練特征級別的神經(jīng)網(wǎng)絡(luò)。也就是說,在訓(xùn)練之前,它甚至都不知道世界的概念,讓它自己有一個具體的詞匯或者理解英語語法。
現(xiàn)在,我有一個知道所有的這些事情模型。并且它會教自己大量的衛(wèi)報社論。
它仍然無法真正的創(chuàng)造意義。這是有道理的:衛(wèi)報社論對現(xiàn)實世界有意義 ,而不是作為在它自己權(quán)利內(nèi)現(xiàn)有詞匯的集合。所以為了適當(dāng)?shù)挠?xùn)練神經(jīng)網(wǎng)絡(luò)寫出一篇衛(wèi)報社論,你也要告訴它世界的信息,然后你會有更少的周末項目和更多的啟動場地。
所以看到涉及“深度學(xué)習(xí)”啟動場地的數(shù)量扶搖直上并不奇怪。過去的幾年里,每一天我的收件箱中,都能看到一個或者兩個,從“在線個人風(fēng)格服務(wù)”,使用深度學(xué)習(xí)來給人們匹配服裝,到“知識發(fā)現(xiàn)引擎”致力于在自己的游戲中擊敗Google。
2008的原型始于“x but on a phone”,2014的原型是“uber but for x”,今年是“doing x with machine learning”。Google似乎很樂意領(lǐng)路,不僅通過它們的產(chǎn)品,還通過制作剩余生態(tài)系統(tǒng)依靠的工具。
但為什么是現(xiàn)在?Corrado有個答案?!霸?980s和1990s就做了深度學(xué)習(xí)的數(shù)學(xué)研究,但直到現(xiàn)在,計算機運行仍然太慢了,我們不知道數(shù)學(xué)效果怎么樣”
“計算機正變得更快更便宜的事實,是實現(xiàn)機器學(xué)習(xí)的因素這一”現(xiàn)在,你自己進行機器學(xué)習(xí),就像是嘗試通過手動編碼的TCP/IP協(xié)議來上網(wǎng)。
但是這正在改變。它會變得更快,更簡單,更有效,并且逐漸從只有工程師知道的東西,變成整個發(fā)展團隊都知道的東西,然后整體技術(shù)產(chǎn)業(yè)化,最終到每個人。進行該過程時,它會改變很多其它的東西。
·AlphaGo 教會自己如何去贏,但是沒有人類它將過時。
via:Google says machine learning is the future. So I tried it myself
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。