丁香五月天婷婷久久婷婷色综合91|国产传媒自偷自拍|久久影院亚洲精品|国产欧美VA天堂国产美女自慰视屏|免费黄色av网站|婷婷丁香五月激情四射|日韩AV一区二区中文字幕在线观看|亚洲欧美日本性爱|日日噜噜噜夜夜噜噜噜|中文Av日韩一区二区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給這只萌萌
發(fā)送

0

結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該被人工智能遺忘!

本文作者: 這只萌萌 編輯:幸麗娟 2020-03-07 16:43
導(dǎo)語:應(yīng)用價(jià)值巨大!

在處理非結(jié)構(gòu)化數(shù)據(jù)的問題上,人工智能和深度學(xué)習(xí)方法一直都表現(xiàn)出眾且廣為人知,無論是在自然語言處理、知識(shí)庫(kù)自動(dòng)構(gòu)建,還是圖像視頻的識(shí)別和生成應(yīng)用中,都有很多成熟案例。

然而對(duì)于結(jié)構(gòu)化數(shù)據(jù)的研究,似乎已經(jīng)被人工智能和深度學(xué)習(xí)忘之腦后。結(jié)構(gòu)化數(shù)據(jù)普遍存在于各類商業(yè)應(yīng)用軟件和系統(tǒng)中,例如產(chǎn)品數(shù)據(jù)存儲(chǔ),交易日志,ERP 和 CRM 系統(tǒng)中都存在大量結(jié)構(gòu)化數(shù)據(jù),這些結(jié)構(gòu)化數(shù)據(jù)仍應(yīng)用著陳舊的數(shù)據(jù)技術(shù)處理,如基于規(guī)則的系統(tǒng),決策樹等。這樣的方法需要人工進(jìn)行特征提取,操作繁瑣且需要耗費(fèi)大量人力進(jìn)行數(shù)據(jù)標(biāo)簽。

雖然人工智能的最新發(fā)展已經(jīng)從非結(jié)構(gòu)化數(shù)據(jù)中挖掘出了巨大價(jià)值,但對(duì)結(jié)構(gòu)化數(shù)據(jù)而言,其研究和應(yīng)用也是不可忽視的,因?yàn)榻Y(jié)構(gòu)化數(shù)據(jù)對(duì)于驅(qū)動(dòng)企業(yè)的業(yè)務(wù)發(fā)展、營(yíng)收、數(shù)據(jù)安全以及數(shù)據(jù)治理方面都有著重大意義。

不同于非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)的 AI 研究一直存在著一個(gè)巨大的挑戰(zhàn),那就是其對(duì)于數(shù)據(jù)質(zhì)量的高度敏感性。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)而言,人們或許可以接受分辨率不高的視頻,略帶瑕疵的圖像識(shí)別。但對(duì)于擁有大量結(jié)構(gòu)化數(shù)據(jù)的大型企業(yè)來說,其核心業(yè)務(wù)數(shù)據(jù)是不容許有絲毫差錯(cuò)的。比如對(duì)于制藥公司來說,藥品的劑量、價(jià)格和數(shù)量即使出現(xiàn)細(xì)微的數(shù)據(jù)錯(cuò)誤,都有可能帶來巨大的災(zāi)難。

研究這些核心業(yè)務(wù)數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù))在人工智能上的應(yīng)用,是具有極大價(jià)值的,但受限于數(shù)據(jù)質(zhì)量的高要求,大型企業(yè)在這類研究上舉步維艱。盡管人工智能在結(jié)構(gòu)化數(shù)據(jù)上的應(yīng)用研究已經(jīng)有數(shù)十年的時(shí)間,但目前仍進(jìn)展甚微。

數(shù)據(jù)背后的業(yè)務(wù)復(fù)雜性,基于特定規(guī)則和邏輯的系統(tǒng)復(fù)雜性,需要人工介入的數(shù)據(jù)清洗和準(zhǔn)備工作的高成本,都阻礙著這一研究的發(fā)展。要在結(jié)構(gòu)化數(shù)據(jù) AI 應(yīng)用上有所成果,首先需要解決人工數(shù)據(jù)清洗和準(zhǔn)備的問題,找到極少或者沒有人為干預(yù)的自動(dòng)化方法,才能使得這一應(yīng)用可落地可拓展。

這也是為什么機(jī)器學(xué)習(xí)方法能適用于結(jié)構(gòu)化數(shù)據(jù)準(zhǔn)備和清洗的原因,最終的解決方案需要能夠提取企業(yè)數(shù)據(jù)特征并且理解毫不相干的數(shù)據(jù)上下文,能夠從大量數(shù)據(jù)集中訓(xùn)練出模型,預(yù)測(cè)數(shù)據(jù)質(zhì)量,甚至能提出數(shù)據(jù)質(zhì)量的修復(fù)建議。

將這樣的模型應(yīng)用于數(shù)據(jù)準(zhǔn)備和清洗中,可以解決結(jié)構(gòu)化數(shù)據(jù)長(zhǎng)期以來存在的問題——需要大量人工介入的數(shù)據(jù)準(zhǔn)備和清洗工作。這樣的解決方案有以下的要求:

  • 可以將業(yè)務(wù)規(guī)則在內(nèi)的所有信號(hào)和上下文,函數(shù)依賴和鍵等約束條件以及數(shù)據(jù)的統(tǒng)計(jì)屬性進(jìn)行組合。

  • 能夠避免構(gòu)建大量的規(guī)則,同時(shí)可以兼容極端情況。在許多情況下,結(jié)構(gòu)化數(shù)據(jù)中的規(guī)則管理比清洗噪音數(shù)據(jù)更具挑戰(zhàn)性,成本更高。

  • 最終,模型所提供的預(yù)測(cè)應(yīng)用于標(biāo)準(zhǔn)的數(shù)據(jù)質(zhì)量測(cè)試中,能夠傳達(dá)一種「信心」:模型的預(yù)測(cè)能夠解決大多數(shù)情況,而人工,只需要專注去處理特殊的案例。

雖然結(jié)構(gòu)化數(shù)據(jù)在 AI 應(yīng)用的研究中困難重重,我們還是找到了一些方法并有所進(jìn)展。處理結(jié)構(gòu)化數(shù)據(jù)并不僅僅依賴于數(shù)據(jù)本身的特征 (稀疏,異構(gòu),豐富的語義和領(lǐng)域知識(shí)),數(shù)據(jù)表集合 (列名,字段類型,域和各種完整性約束等)可以解碼各數(shù)據(jù)塊之間的語義和可能存在的交互的重要信息。
舉個(gè)例子,兩個(gè)不同的城市不可能都對(duì)應(yīng)相同的郵政編碼,一個(gè)項(xiàng)目的總預(yù)算不可能超過其計(jì)劃的開支。這都是可以明確提供的條件約束,這些條件約束增強(qiáng)了機(jī)器學(xué)習(xí)模型在結(jié)構(gòu)化數(shù)據(jù)處理上的能力,而不僅僅是做統(tǒng)計(jì)分析。

處理結(jié)構(gòu)化數(shù)據(jù)的其中一大挑戰(zhàn)在于,結(jié)構(gòu)化數(shù)據(jù)可能是異構(gòu)的,同時(shí)組合了不同類型的數(shù)據(jù)結(jié)構(gòu),例如文本數(shù)據(jù)、定類數(shù)據(jù)、數(shù)字甚至圖像數(shù)據(jù)。其次,數(shù)據(jù)表有可能非常稀疏。想象一個(gè) 100 列的表格,每列都有 10 到 1000 個(gè)可能值(例如制造商的類型,大小,價(jià)格等),行則有幾百萬行。由于只有一小部分列值的組合有意義,可以想象,這個(gè)表格可能的組合空間有多么「空」。

如果沒有任何結(jié)構(gòu)、領(lǐng)域知識(shí)和條件約束,就很難了解數(shù)據(jù)如何生成及其準(zhǔn)確性。因此,在構(gòu)建結(jié)構(gòu)化數(shù)據(jù)準(zhǔn)備和清洗的解決方案過程中,我們總結(jié)了存在的三個(gè)主要挑戰(zhàn):

  • 如何將背景知識(shí)轉(zhuǎn)化為模型輸入,以解決數(shù)據(jù)稀疏性和異構(gòu)性帶來的挑戰(zhàn)?在預(yù)測(cè)某個(gè)列中的值時(shí),我們?nèi)绾卧跈C(jī)器學(xué)習(xí)模型中傳遞關(guān)鍵約束、函數(shù)依賴關(guān)系、否定約束和其他復(fù)雜的完整性邏輯作為模型輸入?

  • 在訓(xùn)練數(shù)據(jù)有限且存在臟數(shù)據(jù),甚至有時(shí)都沒有訓(xùn)練數(shù)據(jù)的情況下如何學(xué)習(xí)模型呢?以識(shí)別結(jié)構(gòu)化數(shù)據(jù)錯(cuò)誤的模型為例,該模型查找各種數(shù)據(jù)錯(cuò)誤,包括錯(cuò)別字、缺失值、錯(cuò)誤值、矛盾事實(shí)、數(shù)據(jù)錯(cuò)位等問題。使用非常有限的可用錯(cuò)誤樣本和可用數(shù)據(jù)中存在的這些錯(cuò)誤來訓(xùn)練這樣的模型,就是需要克服的挑戰(zhàn)。

  •  模型如何拓展到大規(guī)模應(yīng)用?如何能支撐上百萬個(gè)的隨機(jī)變量?如果把實(shí)驗(yàn)條件下訓(xùn)練出來的模型,直接應(yīng)用到復(fù)雜商業(yè)環(huán)境中的結(jié)構(gòu)化數(shù)據(jù),毫無疑問,結(jié)果肯定是失敗的。

我們開發(fā)了 inductiv,這是一個(gè)用于結(jié)構(gòu)化數(shù)據(jù)的 AI 平臺(tái),訓(xùn)練模型理解數(shù)據(jù)的生成和「污染」過程。inductiv 可用于結(jié)構(gòu)化數(shù)據(jù)的準(zhǔn)備和清洗,例如錯(cuò)誤檢測(cè)、預(yù)測(cè)缺失值、錯(cuò)誤校正、空值補(bǔ)齊、數(shù)據(jù)融合等。Inductiv 歸屬于學(xué)術(shù)開源項(xiàng)目 HoloClean(www.holoclean.io),該項(xiàng)目是我們?cè)?2017 年與滑鐵盧大學(xué)、威斯康星大學(xué)麥迪遜分校和斯坦福大學(xué)合作啟動(dòng)的。

一、將數(shù)據(jù)清洗視為一個(gè) AI 任務(wù)

HoloClean 采用經(jīng)典的噪聲通道模型來學(xué)習(xí)數(shù)據(jù)的生成和「污染」過程。完整的研究論文:https://cs.uwaterloo.ca/~ilyas/papers/DeSaICDT2019.pdf。

HoloClean 利用所有已知的領(lǐng)域知識(shí)(例如規(guī)則)、數(shù)據(jù)中的統(tǒng)計(jì)信息以及其他可信任來源作為屬性,來構(gòu)建復(fù)雜的數(shù)據(jù)生成和錯(cuò)誤檢測(cè)模型,此模型可用于發(fā)現(xiàn)錯(cuò)誤并能夠提供修復(fù)建議,給出最有可能的替換值。

結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該被人工智能遺忘!

圖 1 :「干凈」的數(shù)據(jù)是按照一定的生成過程生成的。我們也觀察到了臟數(shù)據(jù)的生成過程。通過建模和參數(shù)化,我們將數(shù)據(jù)清理轉(zhuǎn)變?yōu)榱艘粋€(gè)推斷問題

雖然這樣的模型已經(jīng)幫助我們將數(shù)據(jù)清理和數(shù)據(jù)錯(cuò)誤檢測(cè)問題轉(zhuǎn)變?yōu)闄C(jī)器學(xué)習(xí)中的推理問題,但要訓(xùn)練出表達(dá)力足夠強(qiáng),能夠?qū)?yīng)用規(guī)?;哪P停€是極有難度的。


二、構(gòu)建數(shù)據(jù)錯(cuò)誤檢測(cè)的解決方案

針對(duì)上文提到的挑戰(zhàn),如何使用很少的樣本數(shù)據(jù)進(jìn)行訓(xùn)練的問題,我們?cè)谡撐闹刑岢隽私鉀Q方案。

  • 模型。數(shù)據(jù)錯(cuò)誤的異構(gòu)性和異構(gòu)性帶來的其他影響,導(dǎo)致很難找到適合的統(tǒng)計(jì)特征和完整性約束作為屬性,來幫助區(qū)分錯(cuò)誤值和正確值。這些屬性對(duì)應(yīng)著數(shù)據(jù)庫(kù)的屬性級(jí)、元組級(jí)和數(shù)據(jù)集級(jí)的特征,而這些特征都是用來表示數(shù)據(jù)分布的。圖 2 中描述的模型學(xué)習(xí)了一個(gè)表示層,該層通過捕獲這些多級(jí)特征,來學(xué)習(xí)應(yīng)用于錯(cuò)誤檢測(cè)的二分類器。

  • 數(shù)據(jù)不平衡。數(shù)據(jù)錯(cuò)誤的種類非常多,但通常樣本數(shù)據(jù)中出現(xiàn)的錯(cuò)誤數(shù)據(jù)是很少的,因此機(jī)器學(xué)習(xí)算法在面對(duì)不平衡的數(shù)據(jù)集時(shí),訓(xùn)練出來的結(jié)果通常不太樂觀。因此,不常見的數(shù)據(jù)錯(cuò)誤,其特征經(jīng)常被識(shí)別為噪音,因此被忽略。與常見數(shù)據(jù)錯(cuò)誤相比,不常見的數(shù)據(jù)錯(cuò)誤其識(shí)別的錯(cuò)誤率很高。如圖 3,我們提出了應(yīng)用「數(shù)據(jù)擴(kuò)增強(qiáng)」方法,按照學(xué)習(xí)到的錯(cuò)誤生成策略來制造許多「?jìng)巍瑰e(cuò)誤,使用少量的真實(shí)數(shù)據(jù)錯(cuò)誤來學(xué)習(xí)策略參數(shù)。當(dāng)樣本的錯(cuò)誤數(shù)據(jù)有限時(shí),這一方法可以用于增加錯(cuò)誤數(shù)據(jù)在樣本數(shù)據(jù)中的分布。

結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該被人工智能遺忘!

圖 2: 具有多級(jí)特征的錯(cuò)誤檢測(cè)模型

結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該被人工智能遺忘!

圖 3: 使用錯(cuò)誤生成策略以解決訓(xùn)練數(shù)據(jù)不平衡問題

三、inductiv 引擎:現(xiàn)代 AI 在結(jié)構(gòu)化數(shù)據(jù)中的應(yīng)用

諸如數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)清洗、錯(cuò)誤檢測(cè)和缺失值填補(bǔ)之類的數(shù)據(jù)問題,都可以應(yīng)用一個(gè)統(tǒng)一的、可規(guī)?;耐评硪孢M(jìn)行建模。這樣的引擎要求能夠?qū)Α附Y(jié)構(gòu)化」數(shù)據(jù)的生成以及錯(cuò)誤的產(chǎn)生進(jìn)行建模。更重要的是,結(jié)合我們上文提到的各種挑戰(zhàn),這一模型還需要納入一些現(xiàn)代機(jī)器學(xué)習(xí)原理:

  • 用于生成訓(xùn)練數(shù)據(jù)的?數(shù)據(jù)增強(qiáng)和數(shù)據(jù)編程

  • 目標(biāo)列/值建模所需要的各種上下文的表示,例如學(xué)習(xí)異構(gòu)數(shù)據(jù)的嵌入空間

  • 自我監(jiān)督學(xué)習(xí),盡可能利用所有數(shù)據(jù)。比如使用其他值來重建某些觀察到的數(shù)據(jù)值

  • 將領(lǐng)域知識(shí)和規(guī)則輸入到模型中,擴(kuò)展模型的表達(dá)能力

  • 進(jìn)行一些系統(tǒng)級(jí)別的優(yōu)化,例如學(xué)習(xí)數(shù)據(jù)分區(qū)和本地索引,以完善模型的可拓展性,提高模型適應(yīng)多種數(shù)據(jù)分布的能力。

Inductiv 將我們之前提到的所有研究,融合于一個(gè)統(tǒng)一的 AI 內(nèi)核中,它可以支持多種數(shù)據(jù)準(zhǔn)備和清洗的應(yīng)用。

圖 4 描繪了前文提到的多種方法的核心組成部分,以處理不同的數(shù)據(jù)類型(例如量化數(shù)據(jù)的回歸分析,定類數(shù)據(jù)的分類)。這些方法包括了基于注意力的上下文表示機(jī)制、分布式學(xué)習(xí)、數(shù)據(jù)切片以及多任務(wù)學(xué)習(xí)的自我監(jiān)督。

在 MLSys 2020 論文中,我們提出了一種基于注意力的學(xué)習(xí)架構(gòu),用于混合類型結(jié)構(gòu)化數(shù)據(jù)的缺失值填補(bǔ)(圖 5)。

結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該被人工智能遺忘!

圖 4:Inductiv 統(tǒng)一推理引擎的核心組成部分

結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該被人工智能遺忘!

圖5:基于注意力的上下文表示和多任務(wù)學(xué)習(xí)的示例架構(gòu)

四、結(jié)語

如今的商業(yè)化數(shù)據(jù)中,絕大部分重要數(shù)據(jù)都是結(jié)構(gòu)化的,然而由于對(duì)數(shù)據(jù)質(zhì)量的高要求,使得很多有價(jià)值的研究都望而卻步。

通過采用機(jī)器學(xué)習(xí)的方法,我們可以將結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)準(zhǔn)備和清洗問題都視為一個(gè)統(tǒng)一的預(yù)測(cè)任務(wù),不過這種方式存在著規(guī)?;?,異構(gòu)性,稀疏性以及復(fù)雜語義和專業(yè)領(lǐng)域知識(shí)的挑戰(zhàn)。  雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

而 Inductiv 引擎作為首個(gè)用于結(jié)構(gòu)化數(shù)據(jù)處理的可擴(kuò)展 AI 平臺(tái),則成功解決了這些挑戰(zhàn)!

via https://towardsdatascience.com/ai-should-not-leave-structured-data-behind-33474f9cd07a

雷峰網(wǎng)原創(chuàng)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該被人工智能遺忘!

分享:
相關(guān)文章
當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚懮暾?qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說