AI救世記

本文作者：黃鑫

2016-06-17 00:06

導(dǎo)語：在AI有可能會動毀滅人類的念頭的能力之前，它可能已經(jīng)拯救了許多人了

13日，李開復(fù)在清華大學(xué)演講的時候?qū)θ斯ぶ悄茏龀隽艘环浅Ｖ锌系脑u論。其中還詳細(xì)的解釋了一般企業(yè)如何應(yīng)用人工智能為企業(yè)建立競爭優(yōu)勢和技術(shù)壁壘，句句都是干貨，簡單來說，人工智能行業(yè)的發(fā)展現(xiàn)在仍有很大限制——沒有平臺化。但也正因?yàn)橛兄@樣一個限制，這時候建立起來的壁壘也會是最高的。由于人工智能的優(yōu)勢眾多，因此我們認(rèn)為，企業(yè)都應(yīng)該考慮開始用人工智能輔助自己，也招募一些相關(guān)方面的人才。

不過我們不能光打打嘴炮，如何克服困難和挑戰(zhàn)，讓人工智能幫到你的工作、你的事業(yè)呢？讓我們將李開復(fù)的演講內(nèi)容，再結(jié)合一個實(shí)例，來給大家解釋一下。

現(xiàn)在，假設(shè)你是一個程序員

雖然哥也是一媒體人，但黑起自己的行業(yè)來是絲毫不會手軟的，假設(shè)你現(xiàn)在是一家媒體的IT部門人員，這家媒體每天做的最多，最重要的工作就是從別的網(wǎng)站復(fù)制文章過來，然后加一些自己的記號上傳到自己的網(wǎng)站上去，而你雖然是一介碼農(nóng)，但是卻心懷天下，想要拯救公司里那些苦逼的編輯。于是你決定自己編寫一個程序，幫助編輯們一鍵完成，甚至自動完成這些復(fù)制文章的事，你應(yīng)該怎么做？

當(dāng)然，用人工智能來復(fù)制粘貼看起來是有點(diǎn)大材小用了，但這活看起來很機(jī)械，倒也需要一定的應(yīng)變，比如網(wǎng)站的頁面里除了正文外還有很多亂七八糟的廣告鏈接，只要網(wǎng)站的設(shè)計(jì)者不會太蠢，設(shè)計(jì)出來的結(jié)果應(yīng)該是人一眼就能看出來哪個部分是正文哪些是無關(guān)信息。但一個算法要如何識別正文和廣告/無關(guān)鏈接的區(qū)別呢？而且算法如何在網(wǎng)站的內(nèi)容中尋找到哪些是值得Copy的內(nèi)容呢？（是謂“熱點(diǎn)”）

最關(guān)鍵的是，細(xì)細(xì)一想，這些要注意的事項(xiàng)還真挺多。你平時學(xué)的If else似乎不夠用了，你該用什么語言來完成你的驚世算法呢？

說到這里，我們就面臨了李開復(fù)提到的目前的深度學(xué)習(xí)面臨的第一個挑戰(zhàn)：沒有平臺

深度學(xué)習(xí)的挑戰(zhàn)之一：平臺

人工智能目前還沒有一個統(tǒng)一的平臺。在深度學(xué)習(xí)方面，現(xiàn)在的人懂就是懂，不懂就是不懂。這就是為什么Google最近花了重金不斷在挖業(yè)界頂尖的人才，給年輕人開出的年薪甚至超過200萬美元。這些人也就是二十來歲，博士剛畢業(yè)不久，怎么會這么值錢呢？

為什么這么貴呢？李開復(fù)老師有提到，這些人被投入到各個領(lǐng)域的AI研究中去后，可能很快就能創(chuàng)造出千萬美元甚至上億美元的價值了。但他可能沒有表達(dá)出來的一個意思是，現(xiàn)在的AI開發(fā)真的很難，很難，之所以這么難，就是因?yàn)闆]有平臺。

AI救世記

平臺是一個比較玄乎的概念，因?yàn)楝F(xiàn)在人工智能的發(fā)展還處于一種摸著石頭過河的狀態(tài)，因此沒有人能預(yù)測所謂的“平臺”的準(zhǔn)確形態(tài)是什么樣，這話題鋪開來講可能能單獨(dú)講一篇文章，但簡單來說，大概會是一種“統(tǒng)一標(biāo)準(zhǔn)”的狀態(tài)。比如說現(xiàn)在一提神經(jīng)網(wǎng)絡(luò)算法人們就會想起很多種概念，CNN、RNN、DNN等等，而具體到應(yīng)用實(shí)現(xiàn)的方法也千奇百怪。所有基于AI的編程，都是要從0開始編起，一點(diǎn)一點(diǎn)構(gòu)筑起算法。但如果有一天有一個類似于iOS、安卓的東西，探索出了一種最優(yōu)秀的算法（當(dāng)然這只是打個比方，不一定有最優(yōu)秀的算法。），并且將其集成進(jìn)了某種程序中，后人如果想進(jìn)行神經(jīng)網(wǎng)絡(luò)有關(guān)的開發(fā)，只需要調(diào)用它提供的API就能完成了。那樣就能極大的簡化深度學(xué)習(xí)開發(fā)的難度。

深度學(xué)習(xí)挑戰(zhàn)之二：數(shù)據(jù)的收集和運(yùn)算

當(dāng)然作為一個心懷天下的碼農(nóng)，這點(diǎn)小事肯定是難不倒你的，你應(yīng)該很快就找到了合適的語言系統(tǒng)，比如Tensorflow，比如Scikit，開開心心的編起了程序。不過接下來你要面對的問題可能就沒有那么好解決了：它們都從兩個方向分別決定著你的算法訓(xùn)練的效果：訓(xùn)練數(shù)據(jù)的量和訓(xùn)練的速度。李開復(fù)老師將這個問題拆成了兩個問題，但我們認(rèn)為，其實(shí)他們都是關(guān)于算法訓(xùn)練的問題，因此其實(shí)可以歸于同一個問題。

深度學(xué)習(xí)的網(wǎng)絡(luò)太大，需要海量的數(shù)據(jù)。
因?yàn)閿?shù)據(jù)太多，所以計(jì)算特別的慢，所以需要非常大的計(jì)算量。

AI救世記

如何識別網(wǎng)站內(nèi)的正文位置倒還是個比較好解決的問題，如果你心一橫，決定只從幾大（十幾大）主流媒體內(nèi)復(fù)制文章的話，用if else都是可以解決的，畢竟雖然每個網(wǎng)站之間正文部分的規(guī)律不同，但每個網(wǎng)站內(nèi)部的文章還是基本遵循相同規(guī)律的。實(shí)在想做一個通用的算法來說，規(guī)律也不難找，比如正文部分的文字密度會突然變大而html代碼的密度則會暴跌，比如正文的始終基本都是<p></p>。如果網(wǎng)站每天能更新四五百篇文章的話，估計(jì)訓(xùn)練個十天左右就能達(dá)到非常高的準(zhǔn)確度了。

難點(diǎn)在于“追熱點(diǎn)”??！

互聯(lián)網(wǎng)的熱點(diǎn)每天都在變化，你的算法怎么知道今天的熱點(diǎn)是什么？又如何知道算法正在掃描的這篇文章是不是跟熱點(diǎn)有關(guān)的文章，寫的如何？要讓算法訓(xùn)練出判斷這些信息的能力，怎么說也要掃描個幾千萬上下篇文章來訓(xùn)練吧？作為一個終極發(fā)燒友碼農(nóng)，你第一次感覺到了你面前的那臺電腦里的8核i7和GTX Titan是那么的無力，哎，寫個爬蟲慢慢爬著先吧?？锤奶炷懿荒芨奶炀W(wǎng)絡(luò)低峰期用公司的服務(wù)器偷偷跑一跑。

要讓深度學(xué)習(xí)算法自己進(jìn)化到一個比較高的水平，李開復(fù)老師估計(jì)至少要有10億級別的數(shù)據(jù)，如此龐大的數(shù)據(jù)是相當(dāng)難以收集的。而且，只有這些數(shù)據(jù)都是你自己的時候，他們在你手中才能發(fā)揮出真正的價值，并且由于數(shù)據(jù)量的龐大其需要的運(yùn)算量也是相當(dāng)龐大的，要在深度學(xué)習(xí)領(lǐng)域大展身手，最好有自己的計(jì)算設(shè)備，比如擁有自己的服務(wù)器機(jī)群。因此我們看到，初期在人工智能有所建樹的都是世界級的、像微軟、谷歌和Facebook這樣的公司，他們不僅擁有更多的資金、更好的人才，最重要的是，他們擁有海量的數(shù)據(jù)。

深度學(xué)習(xí)挑戰(zhàn)之三：沒有反饋

“有點(diǎn)奇怪但也合理：機(jī)器無法用人的語言告知做事的動機(jī)和理由。即便機(jī)器訓(xùn)練做了很棒的深度學(xué)習(xí)，人臉識別、語音識別做的非常棒，但它不能和人一樣，它講不出來這是怎么做到的。雖然有人也在做這方面的研究，但是在今天，如果一個領(lǐng)域是不斷需要告訴別人該怎么做，需要向別人去解釋為什么的，那這個領(lǐng)域?qū)τ谏疃葘W(xué)習(xí)來講還是比較困難的。比如Alpha Go打敗李世石，你要問Alpha Go是為什么走這步棋，它是答不上來的。”

深度學(xué)習(xí)只是一個算法，它只能根據(jù)自己的初始設(shè)計(jì)不斷改變自己，但沒法通過一個有效的途徑告訴你它是怎么改進(jìn)自己和怎么在改進(jìn)后做出每一次選擇的，因此很多時候你只能通過它的最終表現(xiàn)來猜測它的運(yùn)行狀態(tài)，然后瞎貓碰死耗子的改進(jìn)最初的算法了。而且你可能也沒法從算法的進(jìn)步上獲取幫助自己進(jìn)步的信息，比如李開復(fù)老師舉的AlphaGo的例子。

AI救世記

當(dāng)然，作為一個世界級的碼農(nóng)，你是肯定知道這些的，而且也一定能根據(jù)算法最終的表現(xiàn)發(fā)現(xiàn)問題在哪里的，因?yàn)楫吘惯@個問題在結(jié)果上體現(xiàn)的還是比較明顯。

在這個虛擬的世界里，我們決定給所有苦逼的編輯們一個完美的結(jié)局：心懷天下的碼農(nóng)成功開發(fā)出了一套“全自動文章轉(zhuǎn)載機(jī)”，這家媒體的編輯們終于能夠騰出一些精力，寫一些能夠精細(xì)打磨的文章了。

所以你看，雖然不知道AI最終會不會毀滅我們，但看起來它們倒是很快就能拯救不少人呢

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

黃鑫

編輯

發(fā)私信

當(dāng)月熱門文章