結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該被人工智能遺忘！

本文作者：這只萌萌

編輯：幸麗娟

2020-03-07 16:43

導(dǎo)語：應(yīng)用價(jià)值巨大！

在處理非結(jié)構(gòu)化數(shù)據(jù)的問題上，人工智能和深度學(xué)習(xí)方法一直都表現(xiàn)出眾且廣為人知，無論是在自然語言處理、知識(shí)庫(kù)自動(dòng)構(gòu)建，還是圖像視頻的識(shí)別和生成應(yīng)用中，都有很多成熟案例。

然而對(duì)于結(jié)構(gòu)化數(shù)據(jù)的研究，似乎已經(jīng)被人工智能和深度學(xué)習(xí)忘之腦后。結(jié)構(gòu)化數(shù)據(jù)普遍存在于各類商業(yè)應(yīng)用軟件和系統(tǒng)中，例如產(chǎn)品數(shù)據(jù)存儲(chǔ)，交易日志，ERP 和 CRM 系統(tǒng)中都存在大量結(jié)構(gòu)化數(shù)據(jù)，這些結(jié)構(gòu)化數(shù)據(jù)仍應(yīng)用著陳舊的數(shù)據(jù)技術(shù)處理，如基于規(guī)則的系統(tǒng)，決策樹等。這樣的方法需要人工進(jìn)行特征提取，操作繁瑣且需要耗費(fèi)大量人力進(jìn)行數(shù)據(jù)標(biāo)簽。

雖然人工智能的最新發(fā)展已經(jīng)從非結(jié)構(gòu)化數(shù)據(jù)中挖掘出了巨大價(jià)值，但對(duì)結(jié)構(gòu)化數(shù)據(jù)而言，其研究和應(yīng)用也是不可忽視的，因?yàn)榻Y(jié)構(gòu)化數(shù)據(jù)對(duì)于驅(qū)動(dòng)企業(yè)的業(yè)務(wù)發(fā)展、營(yíng)收、數(shù)據(jù)安全以及數(shù)據(jù)治理方面都有著重大意義。

不同于非結(jié)構(gòu)化數(shù)據(jù)，結(jié)構(gòu)化數(shù)據(jù)的 AI 研究一直存在著一個(gè)巨大的挑戰(zhàn)，那就是其對(duì)于數(shù)據(jù)質(zhì)量的高度敏感性。對(duì)于非結(jié)構(gòu)化數(shù)據(jù)而言，人們或許可以接受分辨率不高的視頻，略帶瑕疵的圖像識(shí)別。但對(duì)于擁有大量結(jié)構(gòu)化數(shù)據(jù)的大型企業(yè)來說，其核心業(yè)務(wù)數(shù)據(jù)是不容許有絲毫差錯(cuò)的。比如對(duì)于制藥公司來說，藥品的劑量、價(jià)格和數(shù)量即使出現(xiàn)細(xì)微的數(shù)據(jù)錯(cuò)誤，都有可能帶來巨大的災(zāi)難。

研究這些核心業(yè)務(wù)數(shù)據(jù)（結(jié)構(gòu)化數(shù)據(jù)）在人工智能上的應(yīng)用，是具有極大價(jià)值的，但受限于數(shù)據(jù)質(zhì)量的高要求，大型企業(yè)在這類研究上舉步維艱。盡管人工智能在結(jié)構(gòu)化數(shù)據(jù)上的應(yīng)用研究已經(jīng)有數(shù)十年的時(shí)間，但目前仍進(jìn)展甚微。

數(shù)據(jù)背后的業(yè)務(wù)復(fù)雜性，基于特定規(guī)則和邏輯的系統(tǒng)復(fù)雜性，需要人工介入的數(shù)據(jù)清洗和準(zhǔn)備工作的高成本，都阻礙著這一研究的發(fā)展。要在結(jié)構(gòu)化數(shù)據(jù) AI 應(yīng)用上有所成果，首先需要解決人工數(shù)據(jù)清洗和準(zhǔn)備的問題，找到極少或者沒有人為干預(yù)的自動(dòng)化方法，才能使得這一應(yīng)用可落地可拓展。

這也是為什么機(jī)器學(xué)習(xí)方法能適用于結(jié)構(gòu)化數(shù)據(jù)準(zhǔn)備和清洗的原因，最終的解決方案需要能夠提取企業(yè)數(shù)據(jù)特征并且理解毫不相干的數(shù)據(jù)上下文，能夠從大量數(shù)據(jù)集中訓(xùn)練出模型，預(yù)測(cè)數(shù)據(jù)質(zhì)量，甚至能提出數(shù)據(jù)質(zhì)量的修復(fù)建議。

將這樣的模型應(yīng)用于數(shù)據(jù)準(zhǔn)備和清洗中，可以解決結(jié)構(gòu)化數(shù)據(jù)長(zhǎng)期以來存在的問題——需要大量人工介入的數(shù)據(jù)準(zhǔn)備和清洗工作。這樣的解決方案有以下的要求：

可以將業(yè)務(wù)規(guī)則在內(nèi)的所有信號(hào)和上下文，函數(shù)依賴和鍵等約束條件以及數(shù)據(jù)的統(tǒng)計(jì)屬性進(jìn)行組合。
能夠避免構(gòu)建大量的規(guī)則，同時(shí)可以兼容極端情況。在許多情況下，結(jié)構(gòu)化數(shù)據(jù)中的規(guī)則管理比清洗噪音數(shù)據(jù)更具挑戰(zhàn)性，成本更高。
最終，模型所提供的預(yù)測(cè)應(yīng)用于標(biāo)準(zhǔn)的數(shù)據(jù)質(zhì)量測(cè)試中，能夠傳達(dá)一種「信心」：模型的預(yù)測(cè)能夠解決大多數(shù)情況，而人工，只需要專注去處理特殊的案例。

雖然結(jié)構(gòu)化數(shù)據(jù)在 AI 應(yīng)用的研究中困難重重，我們還是找到了一些方法并有所進(jìn)展。處理結(jié)構(gòu)化數(shù)據(jù)并不僅僅依賴于數(shù)據(jù)本身的特征 (稀疏，異構(gòu)，豐富的語義和領(lǐng)域知識(shí)），數(shù)據(jù)表集合 (列名，字段類型，域和各種完整性約束等）可以解碼各數(shù)據(jù)塊之間的語義和可能存在的交互的重要信息。
舉個(gè)例子，兩個(gè)不同的城市不可能都對(duì)應(yīng)相同的郵政編碼，一個(gè)項(xiàng)目的總預(yù)算不可能超過其計(jì)劃的開支。這都是可以明確提供的條件約束，這些條件約束增強(qiáng)了機(jī)器學(xué)習(xí)模型在結(jié)構(gòu)化數(shù)據(jù)處理上的能力，而不僅僅是做統(tǒng)計(jì)分析。

處理結(jié)構(gòu)化數(shù)據(jù)的其中一大挑戰(zhàn)在于，結(jié)構(gòu)化數(shù)據(jù)可能是異構(gòu)的，同時(shí)組合了不同類型的數(shù)據(jù)結(jié)構(gòu)，例如文本數(shù)據(jù)、定類數(shù)據(jù)、數(shù)字甚至圖像數(shù)據(jù)。其次，數(shù)據(jù)表有可能非常稀疏。想象一個(gè) 100 列的表格，每列都有 10 到 1000 個(gè)可能值（例如制造商的類型，大小，價(jià)格等），行則有幾百萬行。由于只有一小部分列值的組合有意義，可以想象，這個(gè)表格可能的組合空間有多么「空」。

如果沒有任何結(jié)構(gòu)、領(lǐng)域知識(shí)和條件約束，就很難了解數(shù)據(jù)如何生成及其準(zhǔn)確性。因此，在構(gòu)建結(jié)構(gòu)化數(shù)據(jù)準(zhǔn)備和清洗的解決方案過程中，我們總結(jié)了存在的三個(gè)主要挑戰(zhàn)：

如何將背景知識(shí)轉(zhuǎn)化為模型輸入，以解決數(shù)據(jù)稀疏性和異構(gòu)性帶來的挑戰(zhàn)？在預(yù)測(cè)某個(gè)列中的值時(shí)，我們?nèi)绾卧跈C(jī)器學(xué)習(xí)模型中傳遞關(guān)鍵約束、函數(shù)依賴關(guān)系、否定約束和其他復(fù)雜的完整性邏輯作為模型輸入？
在訓(xùn)練數(shù)據(jù)有限且存在臟數(shù)據(jù)，甚至有時(shí)都沒有訓(xùn)練數(shù)據(jù)的情況下如何學(xué)習(xí)模型呢？以識(shí)別結(jié)構(gòu)化數(shù)據(jù)錯(cuò)誤的模型為例，該模型查找各種數(shù)據(jù)錯(cuò)誤，包括錯(cuò)別字、缺失值、錯(cuò)誤值、矛盾事實(shí)、數(shù)據(jù)錯(cuò)位等問題。使用非常有限的可用錯(cuò)誤樣本和可用數(shù)據(jù)中存在的這些錯(cuò)誤來訓(xùn)練這樣的模型，就是需要克服的挑戰(zhàn)。
模型如何拓展到大規(guī)模應(yīng)用？如何能支撐上百萬個(gè)的隨機(jī)變量？如果把實(shí)驗(yàn)條件下訓(xùn)練出來的模型，直接應(yīng)用到復(fù)雜商業(yè)環(huán)境中的結(jié)構(gòu)化數(shù)據(jù)，毫無疑問，結(jié)果肯定是失敗的。

我們開發(fā)了 inductiv，這是一個(gè)用于結(jié)構(gòu)化數(shù)據(jù)的 AI 平臺(tái)，訓(xùn)練模型理解數(shù)據(jù)的生成和「污染」過程。inductiv 可用于結(jié)構(gòu)化數(shù)據(jù)的準(zhǔn)備和清洗，例如錯(cuò)誤檢測(cè)、預(yù)測(cè)缺失值、錯(cuò)誤校正、空值補(bǔ)齊、數(shù)據(jù)融合等。Inductiv 歸屬于學(xué)術(shù)開源項(xiàng)目 HoloClean（www.holoclean.io），該項(xiàng)目是我們?cè)?2017 年與滑鐵盧大學(xué)、威斯康星大學(xué)麥迪遜分校和斯坦福大學(xué)合作啟動(dòng)的。

一、將數(shù)據(jù)清洗視為一個(gè) AI 任務(wù)

HoloClean 采用經(jīng)典的噪聲通道模型來學(xué)習(xí)數(shù)據(jù)的生成和「污染」過程。完整的研究論文：https://cs.uwaterloo.ca/~ilyas/papers/DeSaICDT2019.pdf。

HoloClean 利用所有已知的領(lǐng)域知識(shí)（例如規(guī)則）、數(shù)據(jù)中的統(tǒng)計(jì)信息以及其他可信任來源作為屬性，來構(gòu)建復(fù)雜的數(shù)據(jù)生成和錯(cuò)誤檢測(cè)模型，此模型可用于發(fā)現(xiàn)錯(cuò)誤并能夠提供修復(fù)建議，給出最有可能的替換值。

圖 1 :「干凈」的數(shù)據(jù)是按照一定的生成過程生成的。我們也觀察到了臟數(shù)據(jù)的生成過程。通過建模和參數(shù)化，我們將數(shù)據(jù)清理轉(zhuǎn)變?yōu)榱艘粋€(gè)推斷問題

雖然這樣的模型已經(jīng)幫助我們將數(shù)據(jù)清理和數(shù)據(jù)錯(cuò)誤檢測(cè)問題轉(zhuǎn)變?yōu)闄C(jī)器學(xué)習(xí)中的推理問題，但要訓(xùn)練出表達(dá)力足夠強(qiáng)，能夠?qū)?yīng)用規(guī)?；哪Ｐ停€是極有難度的。

二、構(gòu)建數(shù)據(jù)錯(cuò)誤檢測(cè)的解決方案

針對(duì)上文提到的挑戰(zhàn)，如何使用很少的樣本數(shù)據(jù)進(jìn)行訓(xùn)練的問題，我們?cè)谡撐闹刑岢隽私鉀Q方案。

模型。數(shù)據(jù)錯(cuò)誤的異構(gòu)性和異構(gòu)性帶來的其他影響，導(dǎo)致很難找到適合的統(tǒng)計(jì)特征和完整性約束作為屬性，來幫助區(qū)分錯(cuò)誤值和正確值。這些屬性對(duì)應(yīng)著數(shù)據(jù)庫(kù)的屬性級(jí)、元組級(jí)和數(shù)據(jù)集級(jí)的特征，而這些特征都是用來表示數(shù)據(jù)分布的。圖 2 中描述的模型學(xué)習(xí)了一個(gè)表示層，該層通過捕獲這些多級(jí)特征，來學(xué)習(xí)應(yīng)用于錯(cuò)誤檢測(cè)的二分類器。
數(shù)據(jù)不平衡。數(shù)據(jù)錯(cuò)誤的種類非常多，但通常樣本數(shù)據(jù)中出現(xiàn)的錯(cuò)誤數(shù)據(jù)是很少的，因此機(jī)器學(xué)習(xí)算法在面對(duì)不平衡的數(shù)據(jù)集時(shí)，訓(xùn)練出來的結(jié)果通常不太樂觀。因此，不常見的數(shù)據(jù)錯(cuò)誤，其特征經(jīng)常被識(shí)別為噪音，因此被忽略。與常見數(shù)據(jù)錯(cuò)誤相比，不常見的數(shù)據(jù)錯(cuò)誤其識(shí)別的錯(cuò)誤率很高。如圖 3，我們提出了應(yīng)用「數(shù)據(jù)擴(kuò)增強(qiáng)」方法，按照學(xué)習(xí)到的錯(cuò)誤生成策略來制造許多「?jìng)巍瑰e(cuò)誤，使用少量的真實(shí)數(shù)據(jù)錯(cuò)誤來學(xué)習(xí)策略參數(shù)。當(dāng)樣本的錯(cuò)誤數(shù)據(jù)有限時(shí)，這一方法可以用于增加錯(cuò)誤數(shù)據(jù)在樣本數(shù)據(jù)中的分布。

結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該被人工智能遺忘！

圖 2: 具有多級(jí)特征的錯(cuò)誤檢測(cè)模型

結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該被人工智能遺忘！

圖 3: 使用錯(cuò)誤生成策略以解決訓(xùn)練數(shù)據(jù)不平衡問題

三、inductiv 引擎：現(xiàn)代 AI 在結(jié)構(gòu)化數(shù)據(jù)中的應(yīng)用

諸如數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)清洗、錯(cuò)誤檢測(cè)和缺失值填補(bǔ)之類的數(shù)據(jù)問題，都可以應(yīng)用一個(gè)統(tǒng)一的、可規(guī)?；耐评硪孢M(jìn)行建模。這樣的引擎要求能夠?qū)Α附Y(jié)構(gòu)化」數(shù)據(jù)的生成以及錯(cuò)誤的產(chǎn)生進(jìn)行建模。更重要的是，結(jié)合我們上文提到的各種挑戰(zhàn)，這一模型還需要納入一些現(xiàn)代機(jī)器學(xué)習(xí)原理：

用于生成訓(xùn)練數(shù)據(jù)的?數(shù)據(jù)增強(qiáng)和數(shù)據(jù)編程
目標(biāo)列/值建模所需要的各種上下文的表示，例如學(xué)習(xí)異構(gòu)數(shù)據(jù)的嵌入空間
自我監(jiān)督學(xué)習(xí)，盡可能利用所有數(shù)據(jù)。比如使用其他值來重建某些觀察到的數(shù)據(jù)值
將領(lǐng)域知識(shí)和規(guī)則輸入到模型中，擴(kuò)展模型的表達(dá)能力
進(jìn)行一些系統(tǒng)級(jí)別的優(yōu)化，例如學(xué)習(xí)數(shù)據(jù)分區(qū)和本地索引，以完善模型的可拓展性，提高模型適應(yīng)多種數(shù)據(jù)分布的能力。

Inductiv 將我們之前提到的所有研究，融合于一個(gè)統(tǒng)一的 AI 內(nèi)核中，它可以支持多種數(shù)據(jù)準(zhǔn)備和清洗的應(yīng)用。

圖 4 描繪了前文提到的多種方法的核心組成部分，以處理不同的數(shù)據(jù)類型（例如量化數(shù)據(jù)的回歸分析，定類數(shù)據(jù)的分類）。這些方法包括了基于注意力的上下文表示機(jī)制、分布式學(xué)習(xí)、數(shù)據(jù)切片以及多任務(wù)學(xué)習(xí)的自我監(jiān)督。

在 MLSys 2020 論文中，我們提出了一種基于注意力的學(xué)習(xí)架構(gòu)，用于混合類型結(jié)構(gòu)化數(shù)據(jù)的缺失值填補(bǔ)（圖 5）。

結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該被人工智能遺忘！

圖 4：Inductiv 統(tǒng)一推理引擎的核心組成部分

結(jié)構(gòu)化數(shù)據(jù)不應(yīng)該被人工智能遺忘！

圖5：基于注意力的上下文表示和多任務(wù)學(xué)習(xí)的示例架構(gòu)

四、結(jié)語

如今的商業(yè)化數(shù)據(jù)中，絕大部分重要數(shù)據(jù)都是結(jié)構(gòu)化的，然而由于對(duì)數(shù)據(jù)質(zhì)量的高要求，使得很多有價(jià)值的研究都望而卻步。

通過采用機(jī)器學(xué)習(xí)的方法，我們可以將結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)準(zhǔn)備和清洗問題都視為一個(gè)統(tǒng)一的預(yù)測(cè)任務(wù)，不過這種方式存在著規(guī)?；?，異構(gòu)性，稀疏性以及復(fù)雜語義和專業(yè)領(lǐng)域知識(shí)的挑戰(zhàn)。雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

而 Inductiv 引擎作為首個(gè)用于結(jié)構(gòu)化數(shù)據(jù)處理的可擴(kuò)展 AI 平臺(tái)，則成功解決了這些挑戰(zhàn)！

via https://towardsdatascience.com/ai-should-not-leave-structured-data-behind-33474f9cd07a

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。