BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊：從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系（分享總結(jié)）

本文作者：汪思穎

2017-11-10 14:59

導(dǎo)語(yǔ)：數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量等與深度學(xué)習(xí)算法之間的關(guān)系

雷鋒網(wǎng) AI科級(jí)評(píng)論按，深度模型在機(jī)器學(xué)習(xí)很多領(lǐng)域都取得了巨大成功，但也對(duì)算法的原材料訓(xùn)練數(shù)據(jù)提出了更多的要求。對(duì)于研發(fā)高水平的算法，數(shù)據(jù)的高質(zhì)量采集、清洗、處理等等對(duì)算法效果會(huì)有直接影響。

在近期雷鋒網(wǎng) AI研習(xí)社的線上分享會(huì)，來自 BasicFinder 標(biāo)注平臺(tái)的數(shù)據(jù)科學(xué)家吳昊為大家介紹了數(shù)據(jù)規(guī)模、數(shù)據(jù)質(zhì)量等與深度學(xué)習(xí)算法之間的關(guān)系，以及為算法做數(shù)據(jù)準(zhǔn)備的一些經(jīng)驗(yàn)。

吳昊，本科畢業(yè)于上海交通大學(xué)，碩士畢業(yè)于紐約大學(xué)，現(xiàn)任 BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家，專注于數(shù)據(jù)眾包策略研究、深度學(xué)習(xí)模型數(shù)據(jù)采集與標(biāo)記方案咨詢及優(yōu)化。

分享內(nèi)容：

大家好，我叫吳昊。本科畢業(yè)于上海交通大學(xué)，研究生畢業(yè)于紐約大學(xué)。我之前做過兩年左右的算法研究工作，我們公司 BasicFinder 平臺(tái)主要提供一些數(shù)據(jù)方面的服務(wù)，包括采集、標(biāo)注、清洗、其它別的加工等等。我今天分享的主題是AI數(shù)據(jù)面面觀。

BasicFinder 標(biāo)注平臺(tái)數(shù)據(jù)科學(xué)家吳昊：從數(shù)據(jù)采集與標(biāo)記行業(yè)看數(shù)據(jù)與深度學(xué)習(xí)之關(guān)系（分享總結(jié)）

下面是今天分享的目錄，分為四部分：

數(shù)據(jù)規(guī)模
數(shù)據(jù)質(zhì)量
無監(jiān)督學(xué)習(xí)與遷移學(xué)習(xí)
做算法研發(fā)在數(shù)據(jù)準(zhǔn)備方面的注意事項(xiàng)

數(shù)據(jù)規(guī)模

先看數(shù)據(jù)規(guī)模，數(shù)據(jù)規(guī)模與算法模型的容量其實(shí)是比較相關(guān)的。算法模型的容量越大，就意味著算法能表示相對(duì)來說更復(fù)雜的關(guān)系。

當(dāng)數(shù)據(jù)規(guī)模相對(duì)過大時(shí)，在訓(xùn)練過程中容易產(chǎn)生欠學(xué)習(xí)（underfitting）。另一方面，在數(shù)據(jù)規(guī)模相對(duì)過小的情況下，就會(huì)產(chǎn)生過學(xué)習(xí)（overfitting）。

近年來流行的深度學(xué)習(xí)模型可以擁有非常大的容量，模型中普遍用的神經(jīng)網(wǎng)絡(luò)算法，層數(shù)可以增加，每層神經(jīng)元個(gè)數(shù)可以增加，那么模型的表達(dá)能力也會(huì)增加。下圖是一個(gè)例子。此外學(xué)術(shù)界也會(huì)做一些新的研究來增加模型的表達(dá)能力。另一方面得益于GPU，比較復(fù)雜模型的訓(xùn)練也會(huì)比以前快很多。

現(xiàn)在有一個(gè)問題，數(shù)據(jù)更多的話效果就會(huì)更好，那么究竟有多好呢？Google的一遍論文解決了這個(gè)問題。

這個(gè)數(shù)據(jù)集是ImageNet的兩百多倍。隨著數(shù)據(jù)集里樣本數(shù)量的增多，在COCO上的結(jié)果比用之前的數(shù)據(jù)集至少高出三個(gè)點(diǎn)，而在算法的其他方面都沒有太多變化。可以看到數(shù)據(jù)規(guī)模的增大對(duì)算法的效果提升還是比較明顯的。

在工業(yè)界，數(shù)據(jù)規(guī)模更容易成為算法研發(fā)的關(guān)鍵因素。如果有更多的數(shù)據(jù)，就可以使用容量更大、更復(fù)雜的模型，得到效果更好的算法。當(dāng)數(shù)據(jù)大到一定程度，數(shù)據(jù)和算法之間可以進(jìn)行反復(fù)迭代，形成壁壘，為公司提供競(jìng)爭(zhēng)力。

數(shù)據(jù)質(zhì)量

數(shù)據(jù)質(zhì)量會(huì)影響算法效果。

對(duì)于質(zhì)量一般的數(shù)據(jù)，比如經(jīng)過爬蟲得來的數(shù)據(jù)，經(jīng)過清洗、處理后，算法效果會(huì)有明顯提升。如果數(shù)據(jù)質(zhì)量已經(jīng)很高了，再去提升數(shù)據(jù)質(zhì)量，算法效果的提升比較有限。

另外還要考慮到成本和收益的權(quán)衡問題：想獲得質(zhì)量更高的數(shù)據(jù)，成本也會(huì)更高。

接下來講一下對(duì)數(shù)據(jù)質(zhì)量的評(píng)估。數(shù)據(jù)質(zhì)量評(píng)估主要包括兩個(gè)方面，一是原始采集數(shù)據(jù)質(zhì)量，二是數(shù)據(jù)標(biāo)注質(zhì)量。

下面是對(duì)原始采集數(shù)據(jù)質(zhì)量的評(píng)估：

圖像、視頻：分辨率，清晰度，光照，色彩等
語(yǔ)音：清晰度，背景音等
文本：是否自然語(yǔ)言，是否專業(yè)，與主題相關(guān)性等

下面是對(duì)數(shù)據(jù)標(biāo)注質(zhì)量的評(píng)估：

標(biāo)注正確率（類別數(shù)據(jù)）
標(biāo)注精確度（坐標(biāo)、時(shí)間點(diǎn)、個(gè)數(shù)、文字等）
標(biāo)注完備性（是否漏，是否重復(fù)）
標(biāo)注一致性（前后規(guī)則是否一致）

人工標(biāo)記的大規(guī)模數(shù)據(jù)一般都會(huì)含有噪聲，一些經(jīng)典數(shù)據(jù)集也含有噪聲，例如人臉LFW、MS COCO等，這是不可避免的，不過在可以接受的限度內(nèi)就行。

無監(jiān)督學(xué)習(xí)與遷移學(xué)習(xí)

接下來談一下無監(jiān)督學(xué)習(xí)與遷移學(xué)習(xí)，遷移學(xué)習(xí)已經(jīng)有一個(gè)比較大的數(shù)據(jù)集作為基礎(chǔ)了，再用人工標(biāo)注一小部分新數(shù)據(jù)。

對(duì)于無監(jiān)督學(xué)習(xí)，基本上不需要人工標(biāo)注，主要是學(xué)習(xí)數(shù)據(jù)本身的分布特性。比如說聚類算法，就是試圖找出數(shù)據(jù)集中分布的中心，所以不太需要人工標(biāo)注。

目前工業(yè)界相對(duì)來說比較好的結(jié)果還是通過監(jiān)督學(xué)習(xí)而來，很多都需要大量人工標(biāo)注的數(shù)據(jù)。無監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)在未來還是有待學(xué)術(shù)界研究，以望更大的突破。另外，在未來數(shù)據(jù)規(guī)模進(jìn)一步提升的情況下，無監(jiān)督學(xué)習(xí)和遷移學(xué)習(xí)會(huì)有更多的用武之地。

數(shù)據(jù)準(zhǔn)備方面的一些經(jīng)驗(yàn)

最后介紹我們?cè)陂_展業(yè)務(wù)中的一些經(jīng)驗(yàn)。

數(shù)據(jù)準(zhǔn)備最開始是數(shù)據(jù)獲取，數(shù)據(jù)的獲取也分為幾種情況，比較常見的是互聯(lián)網(wǎng)公開獲?。ü_數(shù)據(jù)集、爬蟲等），除此之外還有專業(yè)數(shù)據(jù)采集。在專業(yè)數(shù)據(jù)采集時(shí)，需要考慮采集方式：一是采集內(nèi)容、采集規(guī)模、預(yù)算；二是采集過程要盡量與實(shí)際使用場(chǎng)景相一致；三是要考慮對(duì)數(shù)據(jù)集的要求，比如多樣性；四是采集是否涉及隱私、個(gè)人權(quán)利如肖像權(quán)、著作權(quán)等。

最后還有采集時(shí)間的要求。

然后是數(shù)據(jù)清洗。采集來的數(shù)據(jù)很多都需要清洗，例如爬蟲、監(jiān)控視頻等。

數(shù)據(jù)清洗之后就要進(jìn)行數(shù)據(jù)標(biāo)注，標(biāo)注的規(guī)則要盡可能地詳盡、清楚，需要給出文檔和例子。專業(yè)的標(biāo)注過程，一般有試標(biāo)階段，這個(gè)階段需要詳細(xì)了解并確定需求。此外，在試標(biāo)和正式標(biāo)注過程中也會(huì)遇到不確定的情況，需要及時(shí)進(jìn)行溝通，否則可能會(huì)影響到整體標(biāo)注質(zhì)量。

對(duì)于數(shù)據(jù)標(biāo)注的方式，以及最終的輸出格式，都需要算法研發(fā)人員來制定，有可能的話還是盡量使用常見的方式和格式。