TensorFlow在工程項目中的應用公開課視頻+文字轉錄（上） | AI 研習社

本文作者：三川

2017-04-22 18:56

導語：本次公開課對兩個話題進行了梳理：企業(yè)大數據平臺和 TensorFlow 應用場景。

本周四，雷鋒網 AI 研習社邀請了跨國 IT 巨頭 ThoughtWorks 的資深數據架構師白發(fā)川，主講線上公開課，為大家講解 TensorFlow 在工程項目中的應用。

此前，白老師與 ThoughtWorks 高級咨詢師佟達接受了雷鋒網的采訪，就新手入門 TensorFlow 容易遇到的一些問題，以及他們的入門經歷，進行了分享。請參考：萬事開頭難！入門TensorFlow，這9個問題 TF Boys 必須要搞清楚。

另外， ThoughtWorks 的線上培訓——"TensorFlow & 神經網絡算法高級應用班”，將于下周二在 mooc.ai 上線，由兩位老師授課。報名請點擊。

閑話少說，本次公開課承接對兩位老師的采訪，對兩個話題進行了梳理：

企業(yè)大數據平臺
TensorFlow 應用場景

這是公開課的錄制視頻：

公開課文字版

不方便看視頻的童鞋，可閱讀以下對本次公開課的文字轉錄。

由于篇幅較長，本次公開課的文字轉錄被拆為上下兩部分。本篇為上篇，講的是企業(yè)級的大數據平臺及其架構。這是由于 TensorFlow 的商業(yè)工程應用必以靠得住的大數據基礎設施為前提。

TensorFlow 的應用場景請關注下篇。

白發(fā)川：大家晚上好，歡迎大家這次參加本次公開課，同時也作為 "TensorFlow & 神經網絡算法高級應用班”開題前的宣講。

本次講的是 TensorFlow 在工程方面的應用場景，更多偏向工程上的實踐。也就是說，從工程上來講，一個 TensorFlow 項目在各個方面要做哪些工作。

TensorFlow 作為一個深度學習框架，在整個工程開發(fā)的項目中，它只是其中的一部分——我們實際上做開發(fā)，面臨的是一個非常龐大的體系。因此我們面臨的問題是：

在整個體系中，我們的工程應該怎樣去開發(fā)？
應該怎樣去使用 TensorFlow？
在哪種場景之下，TensorFlow 會是一個比較好的選擇？

自我介紹一下，我是 ThoughtWorks 白發(fā)川，之前一直從事大數據，后來我們開始做人工智能方向的一些嘗試和工作。我們致力于將人工智能、機器學習、大數據結合在一塊。在研究了了很多相關的機器學習框架之后，我們也做了自己的深度學習框架——deeplearning.scala。它由 scala 編寫，目前是開源的，大家可以了解下。

TensorFlow在工程項目中的應用公開課視頻+文字轉錄（上） | AI 研習社

這是關于我們公司。大家可以在網上了解到，ThoughtWorks 是“敏捷”的倡導者。比如說《重構》，還有《Web開發(fā)敏捷之道》，這些書都是由我們公司的同事編寫的。

TensorFlow在工程項目中的應用公開課視頻+文字轉錄（上） | AI 研習社

下面進入本公開課的第一個環(huán)節(jié)。

從大數據開始

做人工智能也好，做其他機器學習相關的項目也好，本質上我們是離不開數據的。因此，怎樣去規(guī)劃我們的數據、怎樣去設計我們的架構，是非常重要的。以我的經驗看來，一切不做大數據架構的人工智能項目，都不會有特別好的效果。

人工智能項目和數據項目是可以完全獨立開的。假設我們只有幾條數據，倒也可以做人工智能。但真正面臨生產的時候，如果沒有做底層數據規(guī)劃，你的整個人工智能的效果基本會是負的，不會產生特別大的效果。

在數據方面，從早期到現在，我們經歷了不同的迭代周期：

TensorFlow在工程項目中的應用公開課視頻+文字轉錄（上） | AI 研習社

最早期的數據處理方式很簡單，可能就是搞搞 Excel，現場就把數據計算出來了。
慢慢地，我們的數據管理方式會傾向于使用數據庫。多個客戶端連接同一個數據庫，來做數據處理。
再后來我們發(fā)明了 Data Warehouse。BI時代，我們的所有數據都是經過 Data Warehouse 之后統(tǒng)一地產生報表。
之后進化到目前的階段，隨著計算機硬件的發(fā)展，我們出現了數據湖——Data Lake。數據湖是在 Data Warehouse 之上更加擴充的一個方面，而它為機器學習做了很好的支撐。

在數據分析這一塊，早期大家的需求只是一個數據可視化：我根據數據可視化的結果來做決策、來做判斷，然后給出關鍵決策指導下一步的發(fā)展方向。到引入機器學習之后，有一部分相關分析工作其實是讓計算機去做了。當我們的數據計算出結果之后，可以由計算機作出初步的決策給人提供參考，然后再由人來做最終的決策，這也是目前人工智能方向最常見的方式。

雖然我們在做人工智能，但還沒有達到不做任何干預、百分之百由計算機出結果的層次.。所以本質上，目前的人工智能還是對人的一個輔助參考。我們還是需要人來做處理。當然，人工智能最終的進化方案，我們一定是希望完全靠計算機來做處理，不用人來處理了。

TensorFlow在工程項目中的應用公開課視頻+文字轉錄（上） | AI 研習社

這個架構圖是一個企業(yè)界的大數據架構平臺。對于一個企業(yè)來講，從歷史發(fā)展過程中它會有一個非常龐大的 IT 體系，它的數據源遍布于不同系統(tǒng)之中。在很早的時候我們會提出一個概念叫做數據整合，就是因為同一批次具有相同業(yè)務含義的數據在不同的系統(tǒng)里邊，它的存儲方式、表示方式完全都不一樣。所以為了做這部分工作，誕生了早期的 Data Warehouse。我們以規(guī)整化的數據、元數據，把這一批數據做處理。

對于一個企業(yè)級的大數據平臺，我們除了要做 BI 的這部分工作，還有一個額外的需求，就是機器學習。我們希望我們的大數據架構可以用來支撐機器學習。可以在架構圖中看到，在前面會有數據通道。數據通道可以理解為 BI 里 ETL 的這一部分，但本質上它高于 ETL，對于數據通道來說，它和ETL的差別在于ETL需要對數據做轉換，而數據通道僅僅是同步數據，其次ETL相對是個獨立模塊，而數據通道是平臺的一部分，受調度器管理的，比如我們的數據通道的功能可以是爬蟲。

數據湖

接下來我們會進入數據湖。數據湖是大數據里邊提出的一個概念，從本質上來講，它主要負責的是數據存儲，對于數據存儲來講，它在大數據之下，它要解決好幾種問題，即結構化數據、半結構化數據、非結構化數據這些不同數據類型的存儲。

其次的話，它要解決的是數據安全性、數據可靠性。在這個基礎之上，大家目前看到的 Hadoop 的底層數據實現hdfs它也是數據湖會常用到的一種實現。

數據探索

再往下，我們可以看到數據探索。當你成為一個企業(yè)級大數據平臺之后，會面臨這樣的情況：

我給企業(yè)做了數據整合，我們的數據湖都存在了，但在接下來要做機器學習的時候，會發(fā)現一個問題——我沒有辦法快速的知道，在企業(yè)里邊我到底需要哪些數據；或者說企業(yè)現在已有的這些數據，但是這些數據特別大，我們怎么才能夠知道目前有哪些數據？都是什么格式？

在這個之上誕生的服務叫做 data discovery，翻譯過來是數據探索。這一項工作本質上是為數據科學家做準備的。我們在搭建了數據服務平臺之后，我們需要做一系列的調研，從數據科學家的角度來審視這批數據，來看它代表的特征和維度到底能不能給我們提供一個非常好的人工智能的支撐。

所以，這部分工作更多的是由具有豐富經驗的數據科學家來承擔的。他們需要的就是一個簡單的數據探索工具，因為并不需要全部拿出去。而對于數據湖來講，我們里面放的數據基本上都是 PB 的。在我們所做的項目里面，TB 和 TB 以上的數據特別常見。所以對于數據科學家來講，沒有必要 load 完整的數據，代價太大，更希望的是快速檢索到數據格式，然后哪幾條要列數據出來，看一下這個數據符不符合我的需求，所以在這個之上，我們需要一個數據探索的服務，給他提供這樣的支撐。

另外，本質上來講它還有一個功能：管理數據服務的云數據。因為我們既然需要快速的查找數據，那么對于數據湖來講，我們的數據（元數據）是不是需要被管理起來？比如說，如果我們提供的是一個數據平臺，從數據通道進來的數據到底是屬于哪一個業(yè)務系統(tǒng)的，是怎么規(guī)劃的，都會在里邊。

Data Warehouse vs. 數據湖

再下邊的話到了數據預處理。

它的數據來自于數據湖。這里提一下數據湖和數據倉庫的差異。在傳統(tǒng) BI 系統(tǒng)里，數據源到數據存儲之間有一個過程叫做 ETL。做數據規(guī)整之后，ETL 會再把數據送入 Data Warehouse，而在大數據架構里面我們我們會發(fā)現，其實我們的基本處理，是在數據湖之上做的數據預處理。

這個時候，數據湖和 Data Warehouse 的區(qū)別在哪個地方？

首先對 Data Warehouse 的所有數據都是被規(guī)整過的，意味著它的數據是結構化的，結構化就意味著信息被丟失了。丟失的數據，可能對于你的靜態(tài)業(yè)務需求并不是那么明顯——比如說我只是出個報表，或者只是做一些統(tǒng)計，求平均之類的計算，那我可能把數據規(guī)整了，沒有什么問題。但如果要做機器學習，我們更希望提取到全量的數據特征。而一旦數據被規(guī)整，很大一部分信息就丟失了。這樣以來，當通過機器學習做特征提取的時候，就會出現非常不準確的問題。

另外，對 Data Warehouse 來講，它更注重的是對結構化數據的管理。而在大數據之下，其實結構化數據只是我們要處理的一部分數據，并不是全量的。除此之外，我們有非結構化數據和半結構化數據，而對于這種數據的處理，Data Warehouse 并不是特別的有效。

數據湖的概念因此誕生。我們的所有數據都放在數據湖，我們的處理放在數據預處理這一塊。預處理會跟隨我們的業(yè)務，當我們需要一個什么樣的業(yè)務的時候，會通過數據預處理來處理。這里的話，我們把之前提到的工作，從數據通道到數據湖之間的這個位置，挪到了后面的數據預處理。

對于企業(yè)來講，我們的組織結構都能良好的運作。因為在 BI、Data Warehouse 來講，會有一個團隊或者說一個角色，專門負責 ETL 這個工作；或者把數據從另外一個地方做處理之后遷移過來。這樣的話，當我們的業(yè)務發(fā)生變化，我們的整個數據源要從新數據接觸的地方重新清洗過來，重新打通。這一個響應周期會特別長，

而在大數據架構之下，由于有數據湖，這一塊業(yè)務發(fā)生變更的是我們所做的，挪的只是計算。我們的計算規(guī)則發(fā)生了變化，但數據湖里面的數據照樣在里邊。所以計算的代價肯定是遠遠小于挪數據的。

數據預處理

數據預處理之后，會有兩個分支。上邊的分支是在線分析、數據可視化。這一塊來講，都是為了符合和囊括早期我們在做 BI 系統(tǒng)所需要的那些東西。比如說我們要做靜態(tài)報表展現，在 BI 系統(tǒng)里最終出來的報表有上鉆和下鉆。這些需求方式其實用在線分析都可以做到。而目前在大數據方面，我們也會把傳統(tǒng)思想、傳統(tǒng)BI 方式里邊的一些思想借鑒過來，它們是特別優(yōu)秀的。比如說 Olap 和創(chuàng)建 Cube 的這種方式，在整個數據分析里邊有非常好的作用。所以目前來講，這一塊我們是可以完全涵蓋的。

下邊是機器學習和決策分析。數據預處理本身并不是做一些靜態(tài)的報表分析相關的工作，而數據預處理囊括了特征提取，這是用來給機器學習做支撐的部分。這樣的話，我們數據預處理出來的分支既可以滿足它靜態(tài)的數據分析，也可以滿足我們要做機器學習相關的操作。

最下層有一個服務調度。我們可以看到我們的服務調度，從基數到最終，都是被整個服務調度起來的，就我們會建立一個統(tǒng)一的大數據調度系統(tǒng)，而這樣一個好處在于，所有的任務被調度系統(tǒng)統(tǒng)一調度，會有一個非常好的任務編排按序執(zhí)行。

另外一種方式。對于早期做 BI 系統(tǒng)時的 ETL 工具，像大家見得比較多的 Kettle 這種工具，相對來講會缺乏調度功能。第一它缺乏調度，第二的話它不是特別友好的支持分布式運行。比如說我們運行一個 Kettle的腳本，它可以把數據從一個數據源抽到另外一個數據源，但本身來講，你這個工具沒法像 Spark 那樣分布到不同節(jié)點，并行得做處理。所以，當我們有一個服務調度層的時候，可以把所有的任務全部調度起來。這樣的話，我們既保證了所有的 job 是可被監(jiān)控的，其次也可以保存一部分狀態(tài)，比如說我某一個 job 失敗，我知道從哪個地方再次恢復。當我們有了服務調度，我們能夠拿到它的所有狀態(tài)。對于最右邊這塊，我們可以給它做到很好的監(jiān)控。

企業(yè)數據成熟度模型

前邊我提到，對于一個企業(yè)來講，我們無論是做人工智能還是做數據分析，前提一定是規(guī)劃好它的大數據平臺。大數據平臺直接決定了后面所有的效果到底好不好。所以我們定義了一個企業(yè)數據成熟度的模型。在目前來講，可能很多需求或者說我們所見到的場景，大家都會說我們就是要做人工智能，我們的目標是做人工智能。但實際上，從現實情況來講，要到達真正的成熟的人工智能，它中間有很大的跨度。

那這個跨度到底怎樣去衡量？

TensorFlow在工程項目中的應用公開課視頻+文字轉錄（上） | AI 研習社

在這之上，我們提出一個數據傳輸模型，評估當前你所在的狀態(tài)在哪個位置；其次，你想要的是一個什么結果。

比如說在第一個階段，我們想要知道的，只是從數據里面發(fā)現問題。這時的需求很簡單，我只是做一個訂單報表，展示相關的工具。這個時候，你可能并不會實施人工智能的一些功能，因為還沒有到達這個層次。你當前所具備的需求，或者說你所具備的數據源，根本不支持你做這件事兒。

有了該評估之后，除了可以梳理出它的現狀，和給它做評估之外，我們還可以根據前邊的整個大數據方案來決定你可以實施到哪一層。前邊我們看到的大數據架構方案，本質上它的每一塊可以獨立出來，作為一個循序漸進的過程。這里我們可以看到好幾個階段：

首先，看它發(fā)生了什么。
第二，分析它為什么發(fā)生。
第三個階段，知道它將會發(fā)生什么。

這個階段會涉及人工智能。也就是說，只有到達第三個階段的時候，我們才認為對企業(yè)來講，你的所有的業(yè)務需求和數據支撐已經到達了人工智能需要介入的階段。這個時候，我們會在你的大數據平臺之上，考慮把你的整個機器學習接入。

所以，達到這種不同階段實現不一樣的功能，也是對數據平臺的一個非常嚴格的考核。就是你的每一個階段可以無縫的遞增到下一個階段。之后，當我們預測了將會發(fā)生什么事的時候，我們一定會想怎樣去優(yōu)化它，這就到了最后一個階段。

當我們的機器有了數據、有了模型，機器學習的整個體系已經非常完善了，就可以達到一個自選型的功能。它可以根據你的數據，找出你自己依靠人的經驗都沒有發(fā)現的東西。這是我們希望達到的終極目標。

大數據平臺架構

在這一節(jié)將為大家展示，我們所做過的、或我們看到總結下來的大數據架構的不同實踐方式。

傳統(tǒng)架構

TensorFlow在工程項目中的應用公開課視頻+文字轉錄（上） | AI 研習社

這是一個傳統(tǒng)的架構。在機器學習很早之前有一個過程：做 BI 系統(tǒng)之后會有一個階段——當數據量上來， Data Warehouse 的數據處理會出現瓶頸。這時候，我們需要一種架構，保持原來的業(yè)務不變。保持外圍需求，替換底層的技術部分，這樣整體性能會得到提升。這種架構的實現一般會比較簡單。從最簡單來講，就是我們根據左邊的數據源，它可能是數據庫或者其他的 FTP，通過 ETL 工具把數據放到數據存儲層里邊。在最右邊給大家提供一個和原來效果差不多的服務，在中間的話會有一個數據存儲和一個搜索引擎。這種搜索引擎主要提供檢索的功能。這種傳統(tǒng)架構發(fā)展起來之后的話，我們又有了另外一種架構，叫流市架構。

上文提到，傳統(tǒng)架構本身是一個線性的服務。相對而言，它的響應比較慢，ETL 更多是一個定時的。對于定時的數據，我們的接入更多的是面對別人的備份數據庫，或者說，是在業(yè)務系統(tǒng)真正把數據落地到數據庫之后，我們才接入的。在這個角度來說，我們的所有數據是嚴重滯后于業(yè)務發(fā)展的，即業(yè)務產生數據。當業(yè)務產生數據之后，你需要隔很長時間才能拿到這批數據。

流式架構

在這之上我們提出了流式架構。流式架構就是：當數據進來之后，我們直接以流的形式把數據接入，甚至拿到流數據之后，我們把流數據以消息的形式直接推送到前端。這樣能很好地滿足僅僅具有預警類的功能。比如說我是做運維的，那我可能需要一個流式數據，來更好地滿足我當前的一個實質性。

TensorFlow在工程項目中的應用公開課視頻+文字轉錄（上） | AI 研習社

Lambda 架構

在流式架構之后，演變出了 Lambda 架構。

前幾年，這個架構在我們所有的系統(tǒng)里邊、涉及社交大數據架構平臺的時候都被廣泛實施。Lambda 架構在很長一段時間都是優(yōu)先的選擇。它主要分為兩個批次，整合了傳統(tǒng)架構和流式架構的一些優(yōu)點。在前面的話，對于數據處理這塊它是一樣的，是將數據接入。但在數據接入之后，它會分為兩個部分：

TensorFlow在工程項目中的應用公開課視頻+文字轉錄（上） | AI 研習社

首先，你的數據會進入數據湖，被永久存儲起來。

其次，數據會進入流處理。流處理的數據，根據你的一部分計算結果，立馬會以消息的形式直接推送給前端。流式處理，和上邊的 batch 處理，也就是數據存儲和數據預處理，這一層我們一般稱為 batch job；而下面的流處理，我們稱為實時處理。這兩者的邏輯是一樣的，但面對的數據不一樣。上面數據存儲、數據預處理這一塊，面對的是全量數據；而下面流式處理面對的是增量數據。在 Lambda 架構里邊有一個技術叫做前端 view 合并，就是我的流式處理是根據增量數據計算出來的結果，立馬就給前端展示；數據進來之后它會觸發(fā)一個 batch job，觸發(fā)全量計算。當全量計算完成之后，它會把這個結果集和流式處理計算出來的結果集進行合并，保證最終一致性。因為流失處理有可能會出錯，畢竟它是增量計算，那么全量計算一定要保證最終結果是正確的，所以這個時候會用 bash job 出來的結果去覆蓋流式處理，我們叫它最終一致性，就可以保證數據的正確性。

Kappa 架構

它相對于 Lambda 架構做了一部分的改進：在 Kappa 架構里邊，我們認為數據都是流式的，就是說我們的所有數據都可以被流式處理。數據接入時，我們的數據進入了消息隊列，那么它會放入數據存儲里邊，同時也會進入流式處理。流式處理就和之前一樣：在做了處理之后以消息的形式推送到前端。

TensorFlow在工程項目中的應用公開課視頻+文字轉錄（上） | AI 研習社

那為什么在數據存儲這一塊，它沒有了 batch job 這一層？它不再做離線計算，因為我們的所有數據是可重播的，當我們發(fā)現某個某一個結果計算不正確的時候，我們需要重算。對于 Kappa 架構來講，它認為重算就是把之前的數據接入這個動作再重復一遍。所以說，它把所有數據都以流式的方式去處理，這樣避免了進行一模一樣的邏輯計算。

我在前面提到， Lambda 架構分為兩部分，一個流式的，一個 batch job 。它們面對的數據集不一樣，但計算邏輯都一樣。而 Kappa 架構就省掉了，把相同這一部分進行了合并。

Unified 架構

TensorFlow在工程項目中的應用公開課視頻+文字轉錄（上） | AI 研習社

相比起來，它和 Lambda 架構有一點相似。不同之處在于，它的流式處理變成了模型相關的東西。它是目前，我們做大數據架構和機器學習架構整合起來非常完美的一個架構，在這個架構里面我們可以很好地把機器學習放過來。在 batch job 這一層它主要做的是模型訓練。當模型訓練之后，新數據進來，以流式的形式經過模型就會預測出結果。這個結果可以消息的形式被推送出去。這樣的話，在最外層，你就可以拿到流式處理被預算出來的結果。

未完待續(xù)，請關注雷鋒網AI 研習社后續(xù)整理。

“TensorFlow & 神經網絡算法高級應用班”要開課啦！

TensorFlow在工程項目中的應用公開課視頻+文字轉錄（上） | AI 研習社

下周，ThoughtWorks 佟達、白發(fā)川兩位老師主持的 TensorFlow 培訓將上線 mooc.ai，向學員系統(tǒng)性地傳道解惑。

你是否一直希望有個老司機能手把手帶領入門？這就是一次好機會。

ThoughtWorks

授課方 ThoughtWorks 是全球領先的 IT 咨詢公司，聯(lián)合國婦女兒童組織、世界衛(wèi)生組織合作伙伴?？偛吭谥ゼ痈?，42 個辦公室分布在全球的 15 個國家。

2012年，ThoughtWorks 排在 Google，Facebook 之前，被評為全球最難面試的公司。

2016 年，ThoughtWorks 力壓群雄，獲得全球“最佳女性科技人員雇主”獎項。

培訓課介紹：

從初級到高級，理論+實戰(zhàn)，一站式深度了解 TensorFlow！

本課程面向深度學習開發(fā)者，講授如何利用 TensorFlow 解決圖像識別、文本分析等具體問題。課程跨度為 10 周，將從 TensorFlow 的原理與基礎實戰(zhàn)技巧開始，一步步教授學員如何在 TensorFlow 上搭建 CNN、自編碼、RNN、GAN 等模型，并最終掌握一整套基于 TensorFlow 做深度學習開發(fā)的專業(yè)技能。

兩名授課老師佟達、白發(fā)川身為 ThoughtWorks 的資深技術專家，具有豐富的大數據平臺搭建、深度學習系統(tǒng)開發(fā)項目經驗。

開課時間：4 月 25 日（星期二）開課，每周二、四晚 20：00-21：00

開課時長：總學時 20 小時，分 10 周完成，每周2次，每次 1個小時

授課地址：http://www.mooc.ai/course/82

線上授課，開放預約！

手把手教你如何用 TensorFlow 實現基于 DNN 的文本分類

萬事開頭難！入門TensorFlow，這9個問題TF Boys 必須要搞清楚

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。