0
字幕組雙語原文:六點規(guī)則讓你的ML模型部署的更快
英語原文:Six Rules for Deploying your Machine Learning Models Faster
翻譯:雷鋒字幕組(yhfwww)
數(shù)據(jù)科學和機器學習幾乎可以改善組織的任何方面,但前提是你的想法得到利用。在過去的一年中,我們學到了很多關于更快地構建和部署機器學習模型的知識,我們想分享一些我們在這里學到的東西。
圖:《棕色田野上奔跑的獵豹》 來自《Unsplash》,作者Cara Fuller
在我們的組織中,我們需要盡快從我們的分析投資中獲得回報。我們需要更快地將機器學習模型應用到生產(chǎn)中。最重要的是,我們不想讓偉大的想法停留在紙面上,只能等著被使用。
傳統(tǒng)上,我們將為每個數(shù)據(jù)產(chǎn)品構建為定制解決方案。每個定制解決方案之間幾乎沒有重用。我們需要的是一條生產(chǎn)數(shù)據(jù)產(chǎn)品的流水線。
因此,我們建立了一條流水線來構建、測試和部署數(shù)據(jù)產(chǎn)品,我們稱之為機器學習平臺。有了它,我們現(xiàn)在可以在幾分鐘內(nèi)將模型部署到生產(chǎn)環(huán)境中。我們不再需要等那么長時間才能享受分析投資的回報。
在這個過程中,我們學習了一些關于如何安全、快速地構建、測試和部署機器學習模型的重要規(guī)則。這些規(guī)則改變了我們的工作方式,希望您會發(fā)現(xiàn)它們對您和您的組織有用。
在我們的機器學習平臺存在之前,數(shù)據(jù)科學家創(chuàng)建的模型將交給IT部門,這樣他們就可以為每個模型創(chuàng)建數(shù)據(jù)管道和模型部署環(huán)境。有些模型在部署之前甚至被重寫成另一種語言。
我們構建了機器學習平臺,為模型構建者提供了通過內(nèi)部模型管理流程自主部署模型的能力。自助服務是提高速度的關鍵。
容器提供了一種很好的隔離和模型版本管理的方法。如果您的組織使用標準服務器負載,您可能會發(fā)現(xiàn)很難在該標準服務器上安裝依賴項和構件。容器解決了這個問題??赡芊掌鞴芾韱T安裝程序包的時間太長。容器也能解決這個問題。您可能需要托管同一模型的新版本和舊版本一段時間,每個版本都需要一組不同的依賴關系。容器也有助于版本控制策略。
您的企業(yè)可能是全云的,有云的,或者沒有云的,但是即使您當前沒有使用云,您也可能在考慮它。容器非常輕便。如果您采用基于容器的方法,您可以在本地或云上的任何地方運行這些模型。
讓您的數(shù)據(jù)科學家能夠自助服務地將模型部署到生產(chǎn)環(huán)境中,同時還要負責編寫產(chǎn)品質量代碼。
這可能意味著你的模型構建團隊必須提升他們的軟件工程水平。了解一點Python語法并調(diào)用API并不能使您成為一名優(yōu)秀的軟件工程師。當您構建組織將在生產(chǎn)系統(tǒng)中使用的軟件時,軟件質量至少與數(shù)據(jù)和模型質量同等重要。
這可能意味著采用諸如測試驅動開發(fā)和代碼評審之類的實踐。這可能意味著嘗試配對編程。在使用notebook時,您應該仔細考慮如何以及何時使用筆記本,以及對軟件質量的影響。幸運的是,這些模式在軟件工程界是眾所周知的,并且非常適合大多數(shù)團隊。
平臺的速度和穩(wěn)定性都依賴于模型部署平臺和過程的自動化。如果你想更快,那就毫不妥協(xié)地采用自動化。在我們的機器學習平臺上,我們已經(jīng)自動化了整個模型生命周期。持續(xù)集成和持續(xù)交付推動了平臺上的模型測試和模型部署。
我們還自動化了底層平臺基礎設施的配置和部署。在這樣做的過程中,我們的團隊學會了將這些自動化虛擬機視為一次性資源。沒有人登錄到服務器進行管理,所有管理任務都是自動化的。這意味著無論我們擴展多少,每個服務器都是一致配置的。我們沒有升級服務器,而是用新的基礎設施自動重新部署平臺。
到目前為止,我主要關注構建、培訓和部署,但這只是機器學習模型生命周期的第一部分。許多型號都會逐漸變差,隨著時間的推移性能會下降。部署的模型需要監(jiān)控和調(diào)整。每個部署的模型都應該記錄所有的輸入、輸出和異常。模型部署平臺需要提供日志存儲和模型性能可視化。
在我們的機器學習平臺上,每個模型將每次執(zhí)行記錄為一個通用格式。每個托管模型應用程序都以一種通用的方式發(fā)出日志。我們路由和存儲這些日志,使用它們監(jiān)視模型性能并幫助識別模型漂移。最后,我們會自動創(chuàng)建模型儀表板,以提供關于每個模型如何執(zhí)行的額外見解。
密切關注模型性能是有效管理機器學習模型生命周期的關鍵。不能忽視模型監(jiān)視作為模型整個生命周期的一部分。
軟件工程師已經(jīng)提出了很棒的方法和設計模式,我們可以用它們來構建可移植的和有彈性的應用程序。如果您的模型構建者知道這些方法,那么其中許多方法可以很容易地適應機器學習應用程序。利用外面的東西。
機器學習平臺的非官方座右銘?-????noShelfWare
將這六條規(guī)則結合起來有助于我們更快地獲得結果,我希望它們也能幫助貴公司。數(shù)據(jù)科學應該是創(chuàng)造有影響力的軟件。白皮書、儀表盤、詞云和餅圖再也不能削減開支了,如果他們真的這樣做的話。取得成果需要很困難的工作。
這不是一條容易的路。史蒂夫·喬布斯說:“偉大的創(chuàng)意和偉大的產(chǎn)品之間還有著大量的工程步驟。”要想快速進入市場,你可能需要戴上DevOps的帽子。這意味著你的團隊可能需要提升他們的軟件工程技能。
但是,這是值得的。過去有時需要12個月的時間,現(xiàn)在在我們公司只需要幾分鐘。更重要的是,我們不是在構建分析書架軟件。
雷鋒字幕組是一個由 AI 愛好者組成的翻譯團隊,匯聚五百多位志愿者的力量,分享最新的海外AI資訊,交流關于人工智能技術領域的行業(yè)變革與技術創(chuàng)新的見解。
團隊成員有大數(shù)據(jù)專家、算法工程師、圖像處理工程師、產(chǎn)品經(jīng)理、產(chǎn)品運營、IT咨詢?nèi)?、在校師生;志愿者們來自IBM、AVL、Adobe、阿里、百度等知名企業(yè),北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內(nèi)外高校研究所。
如果,你也是位熱愛分享的AI愛好者。歡迎與雷鋒字幕組一起,學習新知,分享成長。
雷鋒網(wǎng)雷鋒網(wǎng)
雷峰網(wǎng)版權文章,未經(jīng)授權禁止轉載。詳情見轉載須知。