0
本文作者: 王悅 | 2024-03-13 15:31 |
3月11日,AI數(shù)據(jù)技術(shù)公司星塵數(shù)據(jù)(Stardust AI)正式發(fā)布MorningStar——一款面向AI的數(shù)據(jù)閉環(huán)產(chǎn)品。MorningStar是目前首個專注數(shù)據(jù)價值發(fā)現(xiàn)的AI數(shù)據(jù)平臺,基于DataOps的理念打造,全面覆蓋AI算法從訓練到生產(chǎn)全鏈路中的數(shù)據(jù)發(fā)現(xiàn)、管理、協(xié)作、迭代等各個環(huán)節(jié)。
▲MorningStar正式發(fā)布
數(shù)據(jù)技術(shù)已經(jīng)推動了人工智能的三次變革。在大模型時代,各行各業(yè)都需要基于自身數(shù)據(jù)打造超級員工,以提高企業(yè)的生產(chǎn)效率。模型和算力可以購買,但數(shù)據(jù)需要精細化、全流程的管理,才能釋放真正的價值。企業(yè)需要搭建一個可發(fā)現(xiàn)、可管理、可協(xié)作、可迭代的數(shù)據(jù)管道,才能具備獲取數(shù)據(jù)、生產(chǎn)數(shù)據(jù)、持續(xù)迭代數(shù)據(jù)的能力,促進內(nèi)部以數(shù)據(jù)為中心的協(xié)作,從而在AI2.0時代中獲得核心競爭力。
MorningStar是市面上唯一一個專為AI2.0時代企業(yè)打造的數(shù)據(jù)閉環(huán)產(chǎn)品,全面覆蓋AI算法從訓練到生產(chǎn)全鏈路中的數(shù)據(jù)管理、迭代、優(yōu)化、挖掘等閉環(huán)鏈路,致力于幫助企業(yè)建立高效的數(shù)據(jù)閉環(huán)系統(tǒng),實現(xiàn)數(shù)據(jù)價值最大化和模型效果最優(yōu)化,助力打造差異化競爭力壁壘。
一、精準狙擊AI“數(shù)據(jù)債”,MorningStar應運而生
近年來,AI算法經(jīng)歷了多個發(fā)展階段,但都和數(shù)據(jù)的突破息息相關(guān)。2009年,ImageNet項目充分展示了深度神經(jīng)網(wǎng)絡(luò)的潛力。該項目不僅證實了深度學習模型處理復雜視覺任務(wù)的能力,也凸顯了大規(guī)模標注數(shù)據(jù)在訓練高效模型中的重要性。2017年,Transformer架構(gòu)的推出及其在BERT和GPT等模型中的應用,帶來了另一次飛躍。這一階段的關(guān)鍵創(chuàng)新在于能夠利用全網(wǎng)數(shù)據(jù)進行大規(guī)模并行訓練,顯著提升了模型的理解和生成能力。2022年,大語言模型進一步證明了數(shù)據(jù)策略和數(shù)據(jù)質(zhì)量對于模型的重要性。
過去,MLOps一直是業(yè)界關(guān)注的焦點,即如何優(yōu)化模型的性能。2021年吳恩達提出了Data-centric AI的主張,許多研究人員開始將目光轉(zhuǎn)向以數(shù)據(jù)為中心的AI研究。其主要目標是加強數(shù)據(jù)的質(zhì)量和數(shù)量,而不過多關(guān)注模型結(jié)構(gòu)的調(diào)整。在大模型領(lǐng)域,這種轉(zhuǎn)變尤為顯著。例如,相較于GPT2,GPT3在模型結(jié)構(gòu)上的改變微乎其微,更多的精力放在了清洗高質(zhì)量的大規(guī)模訓練數(shù)據(jù)上。同樣,ChatGPT與GPT3相比,也沒有改變模型結(jié)構(gòu),而是采用了全新的數(shù)據(jù)策略與人類意圖對齊。
AI的三次變革凸顯了數(shù)據(jù)技術(shù)在推動機器學習算法進步方面的關(guān)鍵作用。事實上,算法開發(fā)過程中有80%的工作與數(shù)據(jù)相關(guān)。一個算法的上線部署需要經(jīng)歷需求定義、方案制定、數(shù)據(jù)采集、數(shù)據(jù)標注、模型設(shè)計、訓練、指標測試、推理優(yōu)化等等。在各個環(huán)節(jié)中,各個角色跨組織協(xié)同會導致企業(yè)數(shù)據(jù)債的產(chǎn)生。簡單來說,數(shù)據(jù)債指的是企業(yè)當前狀態(tài)與最大化數(shù)據(jù)價值之間的差距。數(shù)據(jù)債包含算法和其他部門的認知差別、項目時間上的認知差別、文檔和數(shù)據(jù)語義的差距、不同數(shù)據(jù)集定義之間的差距等。數(shù)據(jù)債不僅會導致數(shù)據(jù)價值無法釋放,運營成本不斷增加,還會影響模型的上線和迭代效率。
▲機器學習全生命周期數(shù)據(jù)債
“為了解決機器學習中的數(shù)據(jù)債問題,MorningStar應運而生?!毙菈m數(shù)據(jù)創(chuàng)始人&CEO章磊表示:“MorningStar專注于發(fā)現(xiàn)數(shù)據(jù)價值,加速模型迭代,為AI2.0打造以數(shù)據(jù)為中心的協(xié)作環(huán)境,消除數(shù)據(jù)債。”
MorningStar全面覆蓋AI全生命周期的數(shù)據(jù)閉環(huán),不僅能確保數(shù)據(jù)的統(tǒng)一管理和快速迭代,還集成了主流難例數(shù)據(jù)的發(fā)現(xiàn)策略,支持AI算法的高效迭代,為企業(yè)提供一個全面的數(shù)據(jù)維護工具,以滿足其對數(shù)據(jù)管理和價值挖掘的需求。
二、重構(gòu)數(shù)據(jù)閉環(huán),打通AI數(shù)據(jù)全生命周期管理
在機器學習中,模型在整個流程中所占比重很少,算法工程師絕大部分時間都是花在思考業(yè)務(wù)、數(shù)據(jù)標注和數(shù)據(jù)分析上,以提高模型的泛化性。算法工程師需要耗費大量的時間和精力仔細研究數(shù)據(jù),找出異常之處,了解數(shù)據(jù)規(guī)律,反復編排流程,比較版本差異,以提高模型的泛化性,達到最佳效果。例如:難以直觀看到數(shù)據(jù)分布,效率低;數(shù)據(jù)語義缺乏記錄,難復現(xiàn);數(shù)據(jù)指標不完善,難挖掘;數(shù)據(jù)量巨大,檢索困難......據(jù)OpenAI內(nèi)部工程師透露,由于數(shù)據(jù)歷史語義丟失,ChatGPT之前曾一度面臨模型無法復現(xiàn)的問題。
針對這些痛點,星塵數(shù)據(jù)自主研發(fā)了AI數(shù)據(jù)全生命周期管理功能,強化數(shù)據(jù)版本控制、快捷數(shù)據(jù)切片、可追溯數(shù)據(jù)血緣和安全管控。MorningStar集成了八大功能,其自動化工作流能夠確保數(shù)據(jù)在每個階段都能得到妥善管理和最優(yōu)化。
▲MorningStar數(shù)據(jù)閉環(huán)
● 數(shù)據(jù)可視化:支持多源、多格式、異構(gòu)的結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一管理,實現(xiàn)全面而高效的數(shù)據(jù)收集與存儲。
● 數(shù)據(jù)生命周期管理:用戶可以通過平臺進行數(shù)據(jù)流程的編排和調(diào)度,實現(xiàn)數(shù)據(jù)的自動化處理和轉(zhuǎn)換,同時記錄全生命周期數(shù)據(jù)信息,確保數(shù)據(jù)的可追溯性和操作的可復現(xiàn)性。
● 數(shù)據(jù)探索:提供超大規(guī)模AI數(shù)據(jù)管理能力,用戶可以利用平臺的強大搜索功能,通過多語義、跨模態(tài)等方式快速找到所需的數(shù)據(jù),并進行可視化分析。
● 難例發(fā)現(xiàn):集成主流難例發(fā)現(xiàn)策略,如主動學習等,為算法工程師提供數(shù)據(jù)特征分布、可視化和模型指標計算等便捷功能。
● 人類反饋:創(chuàng)建高質(zhì)量的人類反饋通道,一鍵送標至自動化標注系統(tǒng)Rosetta。
● 數(shù)據(jù)合成:支持可控數(shù)據(jù)生成,填補現(xiàn)實世界中的數(shù)據(jù)空白,提高模型的魯棒性和適應性。
● 算法指標跟蹤:支持SDK,打通算法和數(shù)據(jù)的反饋閉環(huán),可進行算法管理和指標評測,提升模型迭代的效率和可靠性。
● 數(shù)據(jù)連接:推理管理與性能監(jiān)控,實現(xiàn)模型部署和優(yōu)化的高效循環(huán)。
▲ AI數(shù)據(jù)發(fā)現(xiàn)、管理、協(xié)作、迭代平臺MorningStar
章磊表示:“MorningStar的目標用戶主要分為三類:機器學習算法工程師、業(yè)務(wù)人員、研發(fā)負責人。對于不同的用戶,我們的平臺可以滿足各種需求,包括發(fā)現(xiàn)數(shù)據(jù)中的難例,跟蹤指標,記錄數(shù)據(jù)全生命周期等等,從而讓數(shù)據(jù)價值最大化,模型更好地迭代。”
三、集合主流難例發(fā)現(xiàn)策略,大幅提高算法效果
MorningStar具備豐富的數(shù)據(jù)挖掘工具,兼容各類難例數(shù)據(jù)發(fā)現(xiàn)策略,助力發(fā)現(xiàn)數(shù)據(jù)的全面價值,包括細顆粒度可視化、指標計算、數(shù)據(jù)分布探索、跨模態(tài)數(shù)據(jù)檢索等。通過人工監(jiān)督、語義檢索、特征生成和數(shù)據(jù)增強等手段,提高算法效果,助力算法迭代降本增效。
▲通過數(shù)據(jù)分布發(fā)現(xiàn)難例
此外,MorningStar具備強大的指標追蹤與模型分析能力,能夠保障模型訓練過程的可追溯性與可迭代性。通過一系列數(shù)據(jù)追溯、模型調(diào)試和分析生成工具,助力實現(xiàn)和維護高質(zhì)量、可再生產(chǎn)的AI模型。
▲MorningStar客戶案例
一位自動駕駛算法工程師曾反饋,原本需要花費1天時間才能發(fā)現(xiàn)的難例,通過MorningStar平臺只需要1-2小時即可,大大提高了迭代效率。
四、解鎖數(shù)據(jù)潛力,實現(xiàn)數(shù)據(jù)價值的最大化
現(xiàn)階段,算力和基座模型都可以直接購買,公域數(shù)據(jù)逐漸成為標品的情況下,私域數(shù)據(jù)成為了企業(yè)最核心的競爭力。然而,數(shù)據(jù)量并不等于數(shù)據(jù)質(zhì)量,企業(yè)只有自身具備沉淀私域高質(zhì)量數(shù)據(jù)的能力、即可直接用于生成超級員工的數(shù)據(jù),才能獲得市場競爭的核心優(yōu)勢。從這個角度上看,具有數(shù)據(jù)價值發(fā)現(xiàn)的數(shù)據(jù)管理平臺,成為了AI2.0時代的必然趨勢和全新挑戰(zhàn)。
MorningStar致力于幫助企業(yè)建立可發(fā)現(xiàn)、可管理、可協(xié)作、可迭代的數(shù)據(jù)管道,將助力企業(yè)在未來競爭激烈的市場中占據(jù)領(lǐng)先地位。
數(shù)據(jù)價值可發(fā)現(xiàn)
MorningStar能夠幫助企業(yè)將海量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)為數(shù)據(jù)洞察,幫助企業(yè)作出更明智的決策,優(yōu)化業(yè)務(wù)流程,提高效率和競爭力。
數(shù)據(jù)要素可管理
MorningStar支持對數(shù)據(jù)集進行全面分析,助力企業(yè)和團隊負責人實現(xiàn)企業(yè)級數(shù)據(jù)要素管理分析,一覽呈現(xiàn)數(shù)據(jù)資產(chǎn)規(guī)模、內(nèi)容分布、歸屬權(quán)等維度的信息。
數(shù)據(jù)應用可協(xié)作
MorningStar提供了協(xié)作和共享功能,支持數(shù)據(jù)權(quán)限管理,使團隊協(xié)作更安全。企業(yè)可以創(chuàng)建多個用戶賬號,控制數(shù)據(jù)訪問權(quán)限,并支持實時協(xié)作編輯數(shù)據(jù)。
數(shù)據(jù)資產(chǎn)可迭代
MorningStar支持數(shù)據(jù)版本控制和追溯,幫助企業(yè)跟蹤數(shù)據(jù)的使用過程。通過不斷地迭代和改進數(shù)據(jù)資產(chǎn),保持數(shù)據(jù)的活力和價值,適應不斷變化的業(yè)務(wù)環(huán)境。
章磊介紹說:“在 AI2.0 時代,掌握自己的數(shù)據(jù)就是掌握自己的模型?!逼髽I(yè)數(shù)據(jù)價值的核心在于定義、管理和迭代數(shù)據(jù)。通過可發(fā)現(xiàn)、可管理、可協(xié)作、可迭代的數(shù)據(jù)管道,企業(yè)的生產(chǎn)力可實現(xiàn)10倍以上的提升。雷峰網(wǎng)雷峰網(wǎng)(公眾號:雷峰網(wǎng))雷峰網(wǎng)
隨著大模型的普及,AI已經(jīng)迅速滲透到各行各業(yè),企業(yè)擁有的數(shù)據(jù)是核心競爭優(yōu)勢。MorningStar不僅能夠支持企業(yè)高效迭代AI數(shù)據(jù)的關(guān)鍵環(huán)節(jié),避免數(shù)據(jù)債風險的積累,還能減少低價值數(shù)據(jù)成本的浪費,解決模型訓練和應用效果反饋鏈條過長等問題。作為AI數(shù)據(jù)服務(wù)的先行者,星塵數(shù)據(jù)不僅將用MorningStar助力AI2.0發(fā)展,還將持續(xù)以數(shù)據(jù)為中心,推出新的功能和服務(wù),以滿足用戶不斷變化的需求,發(fā)現(xiàn)數(shù)據(jù)價值,加速AI創(chuàng)新。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。