0
一年前,李彥宏曾發(fā)表演講稱,云計(jì)算、大數(shù)據(jù)、人工智能正逐漸走向“三位一體”。他指出,深度學(xué)習(xí)賦予人工智能實(shí)用價(jià)值。這一年來,不少公司都在搶灘AI與云計(jì)算結(jié)合市場(chǎng),物聯(lián)網(wǎng)時(shí)代的到來也為此加了一把火。
才云科技(Caicloud)創(chuàng)始人兼 CEO 張?chǎng)尾┦空J(rèn)為,“容器技術(shù)正在迅速發(fā)展成為云計(jì)算領(lǐng)域的新貨幣,并向著軟件交付的事實(shí)標(biāo)準(zhǔn)大步邁進(jìn)?!弊鳛樵朴?jì)算的一部分,有些人試圖將AI與容器云相結(jié)合。
才云科技是一家深耕容器集群管理的創(chuàng)業(yè)公司,現(xiàn)在他們想為自己貼上“深度學(xué)習(xí)容器云公司標(biāo)簽”。今年以來,才云動(dòng)作不小。在3月的發(fā)布會(huì)上,除了宣布獲得由經(jīng)緯中國(guó)領(lǐng)投的4000萬A輪融資,才云迭代了 CLaaS 2.0 容器云PaaS平臺(tái),并推出新產(chǎn)品—— TensorFlow As A Service(TaaS)深度學(xué)習(xí)平臺(tái)。
才云科技(Caicloud)CEO張?chǎng)?/span>
據(jù)了解,才云科技頗具谷歌氣質(zhì)。CEO 張?chǎng)问乔肮雀杓汗芾硐到y(tǒng)資深工程師,核心團(tuán)隊(duì)成員大多也是谷歌系,首席大數(shù)據(jù)科學(xué)家鄭澤宇是前谷歌高級(jí)工程師,CTO 鄧德源是前谷歌集群管理核心成員。2015年正值國(guó)內(nèi)云計(jì)算、大數(shù)據(jù)處于風(fēng)口浪尖之時(shí),政策也頻頻利好高科技創(chuàng)業(yè),在這個(gè)大背景下張?chǎng)嗡麄冸x職創(chuàng)業(yè),將谷歌云服務(wù)集群技術(shù)帶回國(guó)內(nèi),為國(guó)內(nèi)企業(yè)提供開發(fā)維護(hù)服務(wù)。
具體來說,才云 Caicloud 平臺(tái)依托于物理機(jī),虛擬機(jī),微軟云,AWS 云平臺(tái),阿里云平臺(tái),創(chuàng)建了 Kubernetes 集群。Kubernetes 是谷歌基于十余年容器和集群管理方面的經(jīng)驗(yàn)基礎(chǔ)上開源的容器集群管理系統(tǒng),本質(zhì)上可看作是基于容器技術(shù)的 PaaS 平臺(tái)。在多個(gè) Kubernetes 集群之上,才云建立了 Caicloud CLaaS 容器集群管理平臺(tái)。在 CLaaS 平臺(tái)之上還有:分布式深度學(xué)習(xí)平臺(tái) TaaS,CI/CD 工具 Cyclone,以及 Cargo。
才云科技產(chǎn)品一覽
顯而易見,CLaaS與 TaaS 是拉動(dòng)才云發(fā)展的兩架馬車,兩者之間也能相互拉動(dòng)。CLaaS 與 TaaS 的關(guān)系可以類比早期微軟 Windows(CLaaS)和 Office(TaaS),Office 拉動(dòng)了 Windows 的市場(chǎng)份額,同時(shí) Windows 也為 Office 提供了獨(dú)特的底層支持。
基石 Caicloud CLaaS
Caicloud CLaaS 是才云的基礎(chǔ)產(chǎn)品。它是為企業(yè)客戶提供容器云解決方案的 PaaS 平臺(tái),共包含4款產(chǎn)品:Cargo(鏡像倉(cāng)庫(kù))、CLaaS(跨集群管理)、Cyclone(持續(xù)交付)、TaaS 及針對(duì)企業(yè)的大數(shù)據(jù)智能分析服務(wù)。
谷歌是容器領(lǐng)域的摩天巨擘。業(yè)內(nèi)人士稱,容器已經(jīng)成為了谷歌基礎(chǔ)設(shè)施上運(yùn)行的唯一實(shí)體。據(jù)了解,2005年谷歌就已經(jīng)基于底層技術(shù)開發(fā)了一些應(yīng)用,如搜索、視頻、大數(shù)據(jù)應(yīng)用等。這一套內(nèi)部使用多年的集群管理核心系統(tǒng)叫 Borg,2014年谷歌開源的 Kubernetes 系統(tǒng)受 Borg 啟發(fā)而誕生。張?chǎng)紊疃葏⑴c了研發(fā)過程,在他看來,容器并不僅是一種工具,未來會(huì)成為滿足業(yè)務(wù)需求的平臺(tái)。因此從創(chuàng)業(yè)伊始,才云便選擇了圍繞技術(shù)的產(chǎn)品化和生態(tài)建設(shè)這條路。
近日微軟宣布收購(gòu) Deis (專門開發(fā) Kubernetes 容器管理技術(shù)的軟件公司)。對(duì)此張?chǎng)伪硎?,谷歌、微軟兩巨頭之所以青睞 Kubernetes 的原因在于看到了容器集群管理的價(jià)值,
“隨著用戶與市場(chǎng)的成熟,人們意識(shí)到容器本身只是一個(gè)底層技術(shù),廣大開發(fā)者和運(yùn)維人員都不應(yīng)該過多關(guān)注這個(gè)盒子。谷歌早在10年前就意識(shí)到真正的核心的技術(shù)是對(duì)海量這類‘盒子’的管理、調(diào)度、和掌控;與這個(gè)管理系統(tǒng)打交道才應(yīng)該是開發(fā)、運(yùn)維人員去管理其應(yīng)用和服務(wù)的正確姿勢(shì)?!?/span>
谷歌奉行 AI First 戰(zhàn)略,深受熏陶的才云團(tuán)隊(duì)也很快意識(shí)到人工智能應(yīng)用將有望成為企業(yè)云的殺手級(jí)應(yīng)用。張?chǎng)握劦讲旁?CAI 戰(zhàn)略(Cloud+AI=CAI),他認(rèn)為云是 AI 落地的最好方式,AI 是云的靈魂和戰(zhàn)略布局,AI 理念于云的提升作用可能更大于技術(shù)的效用。
因此,TaaS 誕生了。TaaS 是以 TensorFlow 為核心的分布式訓(xùn)練及模型托管系統(tǒng),它結(jié)合了 Kubernetes 容器集群管理系統(tǒng) 與 TensorFlow 深度學(xué)習(xí)系統(tǒng)。
據(jù)雷鋒網(wǎng)了解,Tensorflow 是現(xiàn)階段主流深度學(xué)習(xí)框架之一,被廣泛應(yīng)用于國(guó)內(nèi)外大型企業(yè)。但 Tensorflow 也存在某些缺陷。在單機(jī)特定應(yīng)用場(chǎng)景里,即便使用目前最先進(jìn)的 GPU 都無法滿足其計(jì)算量的要求。而在集群環(huán)境下,TensorFlow 存在高門檻、難配置、難管理等問題。而才云通過在 Kubernetes 基礎(chǔ)上,支持 GPU 和可視化的 UI 封裝,使 GPU 在分布式系統(tǒng)中進(jìn)行隔離,能對(duì) GPU 進(jìn)行更加靈活自由的調(diào)度使用, 從而提升深度學(xué)習(xí)任務(wù)的訓(xùn)練速度。
通過kubernetes在分布式環(huán)境中進(jìn)行GPU隔離
TaaS界面
趙慧智是前惠普 Kubernetes 技術(shù)領(lǐng)域的 GPU 專家、現(xiàn)才云云開源高級(jí)工程師,他對(duì)雷鋒網(wǎng)表示,才云AI方向其實(shí)有兩個(gè)產(chǎn)品。其中之一是企業(yè)定制化人工智能解決方案,才云會(huì)針對(duì)不同公司的業(yè)務(wù)模式和需求,設(shè)計(jì)不同的應(yīng)用模型。
另一個(gè)產(chǎn)品是 TaaS 深度學(xué)習(xí)私有云平臺(tái)。這是考慮到用戶(可能是機(jī)構(gòu)也可能是個(gè)人)在使用 TensorFlow 設(shè)計(jì)模型時(shí)的時(shí)間成本及使用效率問題。若在一臺(tái)機(jī)器上訓(xùn)練模型可能要幾個(gè)月甚至一年的時(shí)間,時(shí)間成本高,而單個(gè)用戶增加機(jī)器數(shù)量不經(jīng)濟(jì)也不實(shí)際?;诖送袋c(diǎn),才云提供通用型平臺(tái),用戶可以托管模型,平臺(tái)就能開始計(jì)算,無需整天監(jiān)管。除借助計(jì)算資源外,TensorFlow 本身有著局限,存在部署、資源管理、監(jiān)控、多用戶、集群管理等問題,TaaS 可以解決上述問題。趙慧智提到才云為企業(yè)設(shè)計(jì)的定制化解決方案也是在這個(gè)平臺(tái)上跑。
才云云開源高級(jí)工程師趙慧智
產(chǎn)品的最終目的是實(shí)踐應(yīng)用。才云告訴雷鋒網(wǎng),他們的目標(biāo)用戶是傳統(tǒng)企業(yè)和互聯(lián)網(wǎng)+轉(zhuǎn)型中的大企業(yè)。而對(duì)于特定領(lǐng)域,比如金融等合規(guī)性門檻較高的領(lǐng)域,尚未有已落地的定制案例。才云表示最近剛贏得金融客戶,目前還仍處于項(xiàng)目開發(fā)階段,計(jì)劃會(huì)有 200 個(gè)物理機(jī)節(jié)點(diǎn)上線。
為就一些通用解決方案來說,以營(yíng)銷活動(dòng)為例,高峰會(huì)出現(xiàn)大量的瞬時(shí)訪問量,卻又缺乏彈性收縮機(jī)制,缺乏高可用和負(fù)載均衡。Caicloud 可以動(dòng)態(tài)伸縮節(jié)點(diǎn)數(shù)量,支持資源水平擴(kuò)展。同時(shí)混合云的部署方式能支持瞬時(shí)高并發(fā),利用公有云資源滿足資源需求;若出現(xiàn)對(duì)于運(yùn)維要求很高,需要高效的大規(guī)模集群管理系統(tǒng)的情況,Caicloud 運(yùn)維平臺(tái)將由點(diǎn)及面,從日志收集到分析,應(yīng)用監(jiān)控到多級(jí)報(bào)警,從行為記錄到權(quán)限控制,所有信息都由可視化方式呈現(xiàn),提高運(yùn)維效率。
趙慧智表示 CLaaS 的通用效用體現(xiàn)在兩方面:
一方面能提高集群部署能力和管理能力,使監(jiān)控和日志管理會(huì)更簡(jiǎn)單,能更全局性地把握部署;
另一方面也有著所有云平臺(tái)都有的功能:節(jié)省用戶的硬件資源,維護(hù)應(yīng)用程序管理。
目前國(guó)家電網(wǎng)、錦江電商、通用集團(tuán)等機(jī)構(gòu)已采用 CLaaS 產(chǎn)品。錦江電商副總裁龔天乙提到了2個(gè)數(shù)字,錦江電商在與才云科技合作的大半年里,將95%以上的應(yīng)用都遷移到了容器集群產(chǎn)品上,錦江的應(yīng)用發(fā)布時(shí)間從小時(shí)級(jí)調(diào)到了分鐘級(jí)。
而在談到 TaaS 的應(yīng)用時(shí),趙慧智表示 TaaS 主要以業(yè)務(wù)為導(dǎo)向,不同的企業(yè)有著不同的業(yè)務(wù),才云也會(huì)分析業(yè)務(wù),提供不同的解決方案,涉及金融、安防、能源、教育等多領(lǐng)域。這里需要指出一點(diǎn),TaaS 私有云于3月底才正式發(fā)布,公有云處于內(nèi)測(cè)階段,所以目前才云也無法提供真實(shí)的應(yīng)用案例和客戶使用效果。
前文也已提到,CLaaS 與 TaaS 之間存在相互拉動(dòng)關(guān)系,這種良性關(guān)系不僅體現(xiàn)在技術(shù)端,也表現(xiàn)在產(chǎn)品交叉銷售方面。兩大產(chǎn)品的目標(biāo)用戶相同,若以 TaaS 服務(wù)切入企業(yè),客戶能夠更直接地體驗(yàn)才云 PaaS 平臺(tái),了解平臺(tái)的價(jià)值。這為接下來的銷售提供鋪墊,反之亦然。
最后,在雷鋒網(wǎng)問到與客戶合作過程中有什么困難時(shí),趙慧智答道:
才云做的是從基礎(chǔ)設(shè)施深入到業(yè)務(wù)層面的整合通用解決方案,那么就會(huì)面臨一個(gè)問題:企業(yè)定制化需求,這需要雙方大量溝通。對(duì)才云來說定制化服務(wù)其實(shí)是有一定挑戰(zhàn),我們會(huì)用通用方式、從底層數(shù)據(jù)模型中抽象出來去解決,例如模板化應(yīng)用編排。
雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。