丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號安全和更好的產(chǎn)品體驗,強烈建議使用更快更安全的瀏覽器
此為臨時鏈接,僅用于文章預覽,將在時失效
業(yè)界 正文
發(fā)私信給黃鑫
發(fā)送

0

AI救世記

本文作者: 黃鑫 2016-06-17 00:06
導語:在AI有可能會動毀滅人類的念頭的能力之前,它可能已經(jīng)拯救了許多人了

13日,李開復在清華大學演講的時候對人工智能做出了一番非常中肯的評論。其中還詳細的解釋了一般企業(yè)如何應用人工智能為企業(yè)建立競爭優(yōu)勢和技術壁壘,句句都是干貨,簡單來說,人工智能行業(yè)的發(fā)展現(xiàn)在仍有很大限制——沒有平臺化。但也正因為有著這樣一個限制,這時候建立起來的壁壘也會是最高的。由于人工智能的優(yōu)勢眾多,因此我們認為,企業(yè)都應該考慮開始用人工智能輔助自己,也招募一些相關方面的人才。

不過我們不能光打打嘴炮,如何克服困難和挑戰(zhàn),讓人工智能幫到你的工作、你的事業(yè)呢?讓我們將李開復的演講內容,再結合一個實例,來給大家解釋一下。

現(xiàn)在,假設你是一個程序員

雖然哥也是一媒體人,但黑起自己的行業(yè)來是絲毫不會手軟的,假設你現(xiàn)在是一家媒體的IT部門人員,這家媒體每天做的最多,最重要的工作就是從別的網(wǎng)站復制文章過來,然后加一些自己的記號上傳到自己的網(wǎng)站上去,而你雖然是一介碼農(nóng),但是卻心懷天下,想要拯救公司里那些苦逼的編輯。于是你決定自己編寫一個程序,幫助編輯們一鍵完成,甚至自動完成這些復制文章的事,你應該怎么做?

當然,用人工智能來復制粘貼看起來是有點大材小用了,但這活看起來很機械,倒也需要一定的應變,比如網(wǎng)站的頁面里除了正文外還有很多亂七八糟的廣告鏈接,只要網(wǎng)站的設計者不會太蠢,設計出來的結果應該是人一眼就能看出來哪個部分是正文哪些是無關信息。但一個算法要如何識別正文和廣告/無關鏈接的區(qū)別呢?而且算法如何在網(wǎng)站的內容中尋找到哪些是值得Copy的內容呢?(是謂“熱點”)

最關鍵的是,細細一想,這些要注意的事項還真挺多。你平時學的If else似乎不夠用了,你該用什么語言來完成你的驚世算法呢?

說到這里,我們就面臨了李開復提到的目前的深度學習面臨的第一個挑戰(zhàn):沒有平臺

深度學習的挑戰(zhàn)之一:平臺

人工智能目前還沒有一個統(tǒng)一的平臺。在深度學習方面,現(xiàn)在的人懂就是懂,不懂就是不懂。這就是為什么Google最近花了重金不斷在挖業(yè)界頂尖的人才,給年輕人開出的年薪甚至超過200萬美元。這些人也就是二十來歲,博士剛畢業(yè)不久,怎么會這么值錢呢?

為什么這么貴呢?李開復老師有提到,這些人被投入到各個領域的AI研究中去后,可能很快就能創(chuàng)造出千萬美元甚至上億美元的價值了。但他可能沒有表達出來的一個意思是,現(xiàn)在的AI開發(fā)真的很難,很難,之所以這么難,就是因為沒有平臺。

AI救世記

平臺是一個比較玄乎的概念,因為現(xiàn)在人工智能的發(fā)展還處于一種摸著石頭過河的狀態(tài),因此沒有人能預測所謂的“平臺”的準確形態(tài)是什么樣,這話題鋪開來講可能能單獨講一篇文章,但簡單來說,大概會是一種“統(tǒng)一標準”的狀態(tài)。比如說現(xiàn)在一提神經(jīng)網(wǎng)絡算法人們就會想起很多種概念,CNN、RNN、DNN等等,而具體到應用實現(xiàn)的方法也千奇百怪。所有基于AI的編程,都是要從0開始編起,一點一點構筑起算法。但如果有一天有一個類似于iOS、安卓的東西,探索出了一種最優(yōu)秀的算法(當然這只是打個比方,不一定有最優(yōu)秀的算法。),并且將其集成進了某種程序中,后人如果想進行神經(jīng)網(wǎng)絡有關的開發(fā),只需要調用它提供的API就能完成了。那樣就能極大的簡化深度學習開發(fā)的難度。

深度學習挑戰(zhàn)之二:數(shù)據(jù)的收集和運算

當然作為一個心懷天下的碼農(nóng),這點小事肯定是難不倒你的,你應該很快就找到了合適的語言系統(tǒng),比如Tensorflow,比如Scikit,開開心心的編起了程序。不過接下來你要面對的問題可能就沒有那么好解決了:它們都從兩個方向分別決定著你的算法訓練的效果:訓練數(shù)據(jù)的量和訓練的速度。李開復老師將這個問題拆成了兩個問題,但我們認為,其實他們都是關于算法訓練的問題,因此其實可以歸于同一個問題。

深度學習的網(wǎng)絡太大,需要海量的數(shù)據(jù)。

因為數(shù)據(jù)太多,所以計算特別的慢,所以需要非常大的計算量。

AI救世記

AI救世記

如何識別網(wǎng)站內的正文位置倒還是個比較好解決的問題,如果你心一橫,決定只從幾大(十幾大)主流媒體內復制文章的話,用if else都是可以解決的,畢竟雖然每個網(wǎng)站之間正文部分的規(guī)律不同,但每個網(wǎng)站內部的文章還是基本遵循相同規(guī)律的。實在想做一個通用的算法來說,規(guī)律也不難找,比如正文部分的文字密度會突然變大而html代碼的密度則會暴跌,比如正文的始終基本都是<p></p>。如果網(wǎng)站每天能更新四五百篇文章的話,估計訓練個十天左右就能達到非常高的準確度了。

難點在于“追熱點”??!

互聯(lián)網(wǎng)的熱點每天都在變化,你的算法怎么知道今天的熱點是什么?又如何知道算法正在掃描的這篇文章是不是跟熱點有關的文章,寫的如何?要讓算法訓練出判斷這些信息的能力,怎么說也要掃描個幾千萬上下篇文章來訓練吧?作為一個終極發(fā)燒友碼農(nóng),你第一次感覺到了你面前的那臺電腦里的8核i7和GTX Titan是那么的無力,哎,寫個爬蟲慢慢爬著先吧??锤奶炷懿荒芨奶炀W(wǎng)絡低峰期用公司的服務器偷偷跑一跑。

要讓深度學習算法自己進化到一個比較高的水平,李開復老師估計至少要有10億級別的數(shù)據(jù),如此龐大的數(shù)據(jù)是相當難以收集的。而且,只有這些數(shù)據(jù)都是你自己的時候,他們在你手中才能發(fā)揮出真正的價值,并且由于數(shù)據(jù)量的龐大其需要的運算量也是相當龐大的,要在深度學習領域大展身手,最好有自己的計算設備,比如擁有自己的服務器機群。因此我們看到,初期在人工智能有所建樹的都是世界級的、像微軟、谷歌和Facebook這樣的公司,他們不僅擁有更多的資金、更好的人才,最重要的是,他們擁有海量的數(shù)據(jù)。

深度學習挑戰(zhàn)之三:沒有反饋

“有點奇怪但也合理:機器無法用人的語言告知做事的動機和理由。即便機器訓練做了很棒的深度學習,人臉識別、語音識別做的非常棒,但它不能和人一樣,它講不出來這是怎么做到的。雖然有人也在做這方面的研究,但是在今天,如果一個領域是不斷需要告訴別人該怎么做,需要向別人去解釋為什么的,那這個領域對于深度學習來講還是比較困難的。比如Alpha Go打敗李世石,你要問Alpha Go是為什么走這步棋,它是答不上來的?!?/p>

深度學習只是一個算法,它只能根據(jù)自己的初始設計不斷改變自己,但沒法通過一個有效的途徑告訴你它是怎么改進自己和怎么在改進后做出每一次選擇的,因此很多時候你只能通過它的最終表現(xiàn)來猜測它的運行狀態(tài),然后瞎貓碰死耗子的改進最初的算法了。而且你可能也沒法從算法的進步上獲取幫助自己進步的信息,比如李開復老師舉的AlphaGo的例子。

AI救世記

當然,作為一個世界級的碼農(nóng),你是肯定知道這些的,而且也一定能根據(jù)算法最終的表現(xiàn)發(fā)現(xiàn)問題在哪里的,因為畢竟這個問題在結果上體現(xiàn)的還是比較明顯。

在這個虛擬的世界里,我們決定給所有苦逼的編輯們一個完美的結局:心懷天下的碼農(nóng)成功開發(fā)出了一套“全自動文章轉載機”,這家媒體的編輯們終于能夠騰出一些精力,寫一些能夠精細打磨的文章了。

所以你看,雖然不知道AI最終會不會毀滅我們,但看起來它們倒是很快就能拯救不少人呢

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權禁止轉載。詳情見轉載須知

分享:
相關文章
當月熱門文章
最新文章
請?zhí)顚懮暾埲速Y料
姓名
電話
郵箱
微信號
作品鏈接
個人簡介
為了您的賬戶安全,請驗證郵箱
您的郵箱還未驗證,完成可獲20積分喲!
請驗證您的郵箱
立即驗證
完善賬號信息
您的賬號已經(jīng)綁定,現(xiàn)在您可以設置密碼以方便用郵箱登錄
立即設置 以后再說