深度、卷積、和遞歸三種模型中，哪個將是人類行為識別方面的佼佼者？

本文作者：李尊

2016-07-11 14:13

導(dǎo)語：針對可穿戴設(shè)備收集的數(shù)據(jù)集，深度、卷積、遞歸模型對人類行為進(jìn)行識別哪個表現(xiàn)更好。

導(dǎo)讀：2016國際人工智能聯(lián)合會議（IJCAI2016）于7月9日至7月15日舉行，今年會議聚焦于人類意識的人工智能。本文是IJCAI2016接收論文之一，除了論文詳解之外，我們另外邀請到哈爾濱工業(yè)大學(xué)李衍杰副教授進(jìn)行點評。

深度、卷積、遞歸模型對人類行為進(jìn)行識別（可穿戴設(shè)備數(shù)據(jù)）

聯(lián)合編譯：Blake、陳圳、章敏

摘要

普適計算領(lǐng)域中人類活動識別已經(jīng)開始使用深度學(xué)習(xí)來取代以前的依靠手工提取分類的分析技術(shù)。但是由于這些深度技術(shù)都是基于不同的應(yīng)用層面，從識別手勢到區(qū)分跑步、爬樓梯等一系列活動，所以很難對這些問題提出一個普遍適用的方案。在本文中我們認(rèn)真地探索了深度、卷積、遞歸方式對三種代表性的包含運用可穿戴感應(yīng)器測得的運動數(shù)據(jù)組進(jìn)行的實驗。我們將展示怎樣訓(xùn)練遞歸方法并介紹一種創(chuàng)新性的規(guī)范方式，講述它們?nèi)绾卧诖笮突A(chǔ)數(shù)據(jù)集上實現(xiàn)現(xiàn)有技術(shù)下最好的表現(xiàn)。通過使用隨機樣本模型進(jìn)行數(shù)千次實驗，我們對每個人類活動識別中的不同任務(wù)中的模型適用性進(jìn)行了探究，對使用fANOVA架構(gòu)的超參數(shù)影響做了探索，為以后想將深度學(xué)習(xí)應(yīng)用到他們的研究中的學(xué)者提供了參考。

1. 引言

過去幾年里深度學(xué)習(xí)已經(jīng)成為機器學(xué)習(xí)領(lǐng)域中最流行的研究方向。由于這個概念的流行導(dǎo)致它的分支已經(jīng)快速擴張，且在學(xué)術(shù)界和商業(yè)界的推動下勢必還會進(jìn)一步推進(jìn)。對于普通人來說，深度學(xué)習(xí)中像Torch7這一類機器學(xué)習(xí)框架已經(jīng)隨手可及，深度學(xué)習(xí)對一系列的運用層面也有相當(dāng)大的影響。

另外一個因為深度學(xué)習(xí)受益的領(lǐng)域是在普適計算方面的人類活動識別（HAR）。在HAR領(lǐng)域中占主導(dǎo)地位的技術(shù)方法包括用身體佩帶的傳感器，手動設(shè)計特征提取程序，以及各種（監(jiān)督）分類方法。在許多情況下這些相對簡單的裝置就足夠了，能夠得到令人印象深刻的識別精度。然而對于更復(fù)雜的行為，例如在醫(yī)學(xué)應(yīng)用中，這種手動調(diào)教方法還是存在顯著挑戰(zhàn)。有些工作還進(jìn)一步進(jìn)行，這也許可以解釋一些明顯的慣性在通過深度學(xué)習(xí)技術(shù)領(lǐng)域的主要技術(shù)途徑。

深度學(xué)習(xí)在普適計算方面的人類識別活動上有機會造成很大影響。它可以替代缺乏有利于其他領(lǐng)域如語音識別強大的魯棒性，設(shè)計了手動特征提取程序。然而，對于從業(yè)者來說困難的是選擇為他們的應(yīng)用最合適的深度學(xué)習(xí)方法。促進(jìn)深度學(xué)習(xí)幾乎都提供了最佳的系統(tǒng)，很少有工作包括在其最優(yōu)參數(shù)是如何被發(fā)現(xiàn)等細(xì)節(jié)。由于只有一個分?jǐn)?shù)報告，平均性能與峰值性能比較結(jié)果仍不清楚。

在本文中，我們運用目前最先進(jìn)的深度學(xué)習(xí)方法對普適計算中的人類行為識別中的三種問題進(jìn)行了探索。針對深度、卷積和遞歸模型的訓(xùn)練過程進(jìn)行了詳細(xì)描述，并且我們針對遞歸性網(wǎng)絡(luò)介紹一種創(chuàng)新規(guī)劃方法。在4000多個實驗中，我們探討HAR中每個超參數(shù)對不同的影響，為以后想將深度學(xué)習(xí)應(yīng)用到他們的研究中的學(xué)者提供了參考。在這些實驗的過程中我們發(fā)現(xiàn)，遞歸性網(wǎng)絡(luò)實現(xiàn)了目前最佳的表現(xiàn)。

深度、卷積、和遞歸三種模型中，哪個將是人類行為識別方面的佼佼者？

圖1 本文中使用的模型

2. 普適計算中的深度學(xué)習(xí)

通過穿戴設(shè)備感應(yīng)器獲得的運動數(shù)據(jù)是多元時間序列數(shù)據(jù)，這些數(shù)據(jù)都有相關(guān)的高維時空頻率（20Hz-200Hz）。在普適計算領(lǐng)域中分析這些數(shù)據(jù)基本上是在Bulling等人所提出的基礎(chǔ)方法上進(jìn)行的。第一步是把時間序列數(shù)據(jù)分割成相鄰的片段，通常是通過單個特點或者是滑動窗分割技術(shù)。在分割出一系列特性中，在每一幀最有可能包含的是統(tǒng)計特性或者頻率域中的詞干。

目前在普適計算領(lǐng)域中最流行的方法是卷積網(wǎng)絡(luò)，許多作者都用它來處理活動識別任務(wù)。更進(jìn)一步的是，卷積網(wǎng)絡(luò)已經(jīng)被用來處理特定領(lǐng)域的問題，像在Autism中檢測常規(guī)運動等，它們以及能將其提升到目前最佳的水準(zhǔn)。

3. 針對人類活動識別對深度學(xué)習(xí)進(jìn)行比較

雖然在不同情境的人類行為識別（HAR）方面已經(jīng)有過一系列的研究探索，但是對于深度學(xué)習(xí)的兼容性上仍然缺乏一個系統(tǒng)性的研究。研究者進(jìn)行初步試驗對邊界空間進(jìn)行探索，但通常忽略了細(xì)節(jié)問題，這使得整個過程仍然不明確且難以重復(fù)。相應(yīng)的，像CNNs這樣的單一網(wǎng)絡(luò)在單一應(yīng)用情境下表現(xiàn)良好。然而，單個的良好表現(xiàn)并不能代表整體在普適計算在人類行為識別上的普遍適用性。在限定條件下的探索實驗中，這些結(jié)果有多少代表性？哪些參數(shù)對于最終表現(xiàn)影響最大？實驗者怎么找到那個剛好適合他們研究的參數(shù)？這些問題對于研究學(xué)者們十分重要，但是目前這些問題仍然沒有解答。

在本文中我們首先提出了在三種代表性數(shù)據(jù)集上最流行的深度學(xué)習(xí)方法的表現(xiàn)。

這些包括幾個典型的應(yīng)用情境，如控制手勢、重復(fù)動作和帕金森疾病中的醫(yī)學(xué)運用。對三種模型的比較如下。為了探索每種方法的適用性我們選取了一系列合理范圍的超參數(shù)，同時隨機模型配置。

為了探討每一種方法的適用性，我們?yōu)槊恳粋€超參數(shù)和隨機樣本模型配置都選擇了合理的范圍。并且，通過上千次的實驗對它的性能做出報告，同時分析超參數(shù)對每種方法的影響。

3.1深度前饋網(wǎng)絡(luò)（DNN）

我們使用了深度前饋網(wǎng)絡(luò)，它相當(dāng)于五個有著softmax-group的隱層的神經(jīng)網(wǎng)絡(luò)。DNN代表網(wǎng)絡(luò)輸入數(shù)據(jù)的一個非線性轉(zhuǎn)換序列。我們遵循規(guī)則，并提出了一個有著N個隱層的網(wǎng)絡(luò)作為N層網(wǎng)絡(luò)。每個隱層都包含有，相同的數(shù)量的單元，對應(yīng)的線性轉(zhuǎn)換，和一個激活函數(shù)（ReLU）。我們使用了兩個不同規(guī)范技術(shù)：（i）Dropout：在訓(xùn)練期間，每一個隱層的每個單元都通過一個概率Pdrop設(shè)置成0，而在推斷時，每一個單元的輸出都通過1/pdrop進(jìn)行縮放（所有實驗的dropout率都是固定值0.5）。（ii）Max-in準(zhǔn)則：每個批梯度下降之后，網(wǎng)絡(luò)中每個單元的輸入量都被放縮到一個最大歐式長度din。對于限制方法中超參數(shù)的數(shù)量，我們選擇不去進(jìn)行任何生成的預(yù)訓(xùn)練，并且只依靠監(jiān)督學(xué)習(xí)的方法。輸入到網(wǎng)絡(luò)中的輸入數(shù)據(jù)相當(dāng)于每個移動數(shù)據(jù)的幀。每個幀都由Rd中不同數(shù)量的s樣本組成，也就是簡單地連接到一個單一的向量FtRs*d。圖1（d）中對模型進(jìn)行了說明。

DNN是用批梯度下降的方法進(jìn)行訓(xùn)練的，其中每一個批梯度下降包含64個幀，并且它是根據(jù)測試集中的階級分層進(jìn)行分層的。我們使用隨機梯度下降的方法，盡量減小陰性似然。

3.2卷積網(wǎng)絡(luò)（CNN）

卷積網(wǎng)絡(luò)的目標(biāo)是在輸入數(shù)據(jù)的模式匹配中引入一個位置，并且確保每個有運動數(shù)據(jù)幀的模式的精確位置，的平移不變性（例如，發(fā)生的時間）。我們研究了卷積網(wǎng)絡(luò)的性能，遵循了[Srivastava等人，2014]在結(jié)構(gòu)方面的建議，并且規(guī)范化了技術(shù)。圖1（c）說明CNN的整體結(jié)構(gòu)。每個CNN包含至少一個暫存的卷積層，一個pooling層，和一個完整的連接層——在最高等級Softmax-group之前。暫存的卷積層相當(dāng)于有著nf種不同特征圖——寬度為Kw，的輸入序列的卷積。最后的max-pooling，即是尋找寬度為mw范圍中最大值，并對應(yīng)一個子采樣，向系統(tǒng)引入平移不變性。整個實驗中max-pooling的寬度為固定值2。每個max-pooling層的輸出都通過一個激活函數(shù)進(jìn)行轉(zhuǎn)換。隨后的完全連接的部分有效地對應(yīng)一個DNN并且遵循上述相同的架構(gòu)。

對于規(guī)則化，我們應(yīng)用了每一個max-pooling層/完全連接層的dropout,在整個實驗中可能的dropout Pidrop在i層中是固定值（p1drop=0.1，p2drop=0.25，pi>2drop=0.5）。類似于DNN我們同樣使用了max-in準(zhǔn)則。輸入到CNN的輸入數(shù)據(jù)，如DNN中一樣，對應(yīng)移動數(shù)據(jù)的幀

。然而，并非連接不同的輸入維度，矩陣結(jié)構(gòu)被保留（FtRsxRd）。CNN的訓(xùn)練，使用了批梯度下降法（64幀）和隨機梯度下降法，以盡量減少陰性似然。

3.3遞歸網(wǎng)絡(luò)

為了研究移動數(shù)據(jù)的時序依賴，我們使用了遞歸數(shù)據(jù)網(wǎng)絡(luò)，它基于vanilla變型（不包括peephole聯(lián)系）的LSTM單元。當(dāng)網(wǎng)絡(luò)中的一些連接形成定向循環(huán)時，該結(jié)構(gòu)是遞歸的，其中當(dāng)前的時間t會考慮到前面時間t-1的網(wǎng)絡(luò)狀態(tài)。當(dāng)錯誤的衍生物通過遞歸網(wǎng)絡(luò)中的很多層“通過時間”進(jìn)行反向傳播時，LSTM單元用于抑制梯度下降。每一個LSTM單元（聯(lián)合）都會持續(xù)追蹤代表他“記憶”的內(nèi)部狀態(tài)（the constant error carousel）。隨著時間的推移，該單元學(xué)會，輸出，覆蓋，或者基于當(dāng)前的輸出和過去的內(nèi)部狀態(tài)清空他們的內(nèi)存，從而使一個系統(tǒng)保留數(shù)百個時間步長的信息。

我們實現(xiàn)了兩個有特色的LSTM遞歸網(wǎng)絡(luò)：（i）深度前饋LSTMs，它包含多種遞歸單元層，并及時聯(lián)系“前饋”（見圖1（a））；（ii）雙向LSTMs，它包含了兩個平行的遞歸層，在一個連接了它們在時間步長t時內(nèi)部狀態(tài)的層之后（見圖1（b）），延伸到當(dāng)前時間步長的未來和過去中。

實際上這兩種特色的LSTM，在他們的應(yīng)用要求方面有著很大不同。前饋LSTM聯(lián)系當(dāng)前的時間步長，是基于它看到了過去，并且，在推理時，“未來”還不知道的情況下，它本質(zhì)上適合于實時應(yīng)用。另一方面雙向LSTMs利用了未來和過去的上下文，去解釋時間t時的輸入，這使得它更適合于離線分析場合。

在該工作中，我們應(yīng)用了三種不同設(shè)置的遞歸網(wǎng)絡(luò)，每一種都使用adagrad和max-in規(guī)則進(jìn)行訓(xùn)練以便最小化陰性似然。

在第一種情況下，在任何給定的時間t輸入到網(wǎng)絡(luò)的輸入數(shù)據(jù)，都對應(yīng)當(dāng)前幀的運動數(shù)據(jù)，它延伸到一個特定的時間長度，并且維度也被級聯(lián)（如前面的DNN一樣）。我們將該模型稱之為LSTM-F。前饋LSTMs達(dá)到第二種應(yīng)用情況，代表了實時的應(yīng)用，其中提出的每一個移動數(shù)據(jù)采樣都是針對于他們記錄序列中的網(wǎng)絡(luò)，稱之為LSTM-S。最后場景中，對于同樣的樣本到樣本預(yù)測問題，應(yīng)用了雙向LSTMs。我稱之為LSTM-S。

3.4對于HAR訓(xùn)練RNNs

RNNs相同的應(yīng)用，包括演講識別和自然語言處理。在這種設(shè)定下，輸入的上下文（例如，一個單詞）受限于它周圍的實體（例如，句子，段落）。訓(xùn)練RNNs時，通常把上下文的實體看成一個整體，例如在一個完整的句子中訓(xùn)練RNN。

在HAR中，移動數(shù)據(jù)個體樣本的上下文沒有得到很好的定義，至少，超越了鄰近樣本之間的直接關(guān)系，并且好像還取決于移動的類型和它更廣泛的行為情景。這是該領(lǐng)域眾所周知的事，并且它會影響選擇滑動窗口分割的窗口長度。

對于建立用于訓(xùn)練RNN的b批梯度下降，我們在開始和結(jié)束訓(xùn)練集中，初始化了多個位置（pi）b。對于建立批梯度下降，我們采用了L樣本跟隨（pi）b中的每個位置，并且增加L步長的（pi）b，它可能纏繞到該序列結(jié)束。我們發(fā)現(xiàn)隨機初始化位置以避免梯度振蕩是非常重要的。當(dāng)這個方法保留對RNN提出的樣品排序時，它不允許每一個批梯度下降層，都關(guān)于類-分布。

4.實驗

實驗中研究的不同種類的超參數(shù)在表1中列出。最后一列表示了每個數(shù)據(jù)集采樣的參數(shù)配置的數(shù)目，它們被挑選出來代表一個相等量的計算時間。我們在三個代表了HAR典型問題的基準(zhǔn)數(shù)據(jù)集進(jìn)行了實驗（下文進(jìn)行描述）。實驗是在一個有著3個GPUs (NVidia GTX980 Ti)的機器上進(jìn)行，其中除了最大的網(wǎng)絡(luò)，兩個模型配置都在不同的GPU上運行。

在每次訓(xùn)練之后，我們都在驗證集中進(jìn)行性能評估。每個模型都訓(xùn)練了至少30次，其中最大的是300次。訓(xùn)練30次之后，如果在10次后驗證性能沒有得到提升，便終止訓(xùn)練。我們選擇了顯示最優(yōu)驗證集性能的次數(shù)，并且將對應(yīng)的模型應(yīng)用到測試集中。

4.1數(shù)據(jù)集

實驗中，我們研究了三個在普適計算中具有代表性的HAR數(shù)據(jù)集。每一個數(shù)據(jù)集都對應(yīng)一個HAR的應(yīng)用。第一個數(shù)據(jù)集，Opportunity，它包含如開門和關(guān)門的操控手勢，這種手勢持續(xù)時間段，而且是不重復(fù)的。第二個數(shù)據(jù)集，PAMAP2，它包含了典型的系統(tǒng)特征——長時間和重復(fù)的物理運動，這其目的是描述能源支出。第三個數(shù)據(jù)集，Daphnet Gait，對應(yīng)一個醫(yī)療應(yīng)用，它參與展現(xiàn)了一個典型帕金森氏病中的運動并發(fā)癥，眾所周知該疾病有著非常大的整體變化性。接下來我們詳細(xì)的描述每個數(shù)據(jù)集。

Opportunity數(shù)據(jù)集（Opp）

Chavarriaga等人，用4個參與者——被要求進(jìn)行相同的廚房活動，身上傳感器的數(shù)據(jù)組成了注釋記錄。數(shù)據(jù)是在頻率為30Hz的情況下，從人體12地方記錄到的，并且用了18個中級手勢進(jìn)行了注釋（例如，開門/關(guān)門）。每個對象，都從五個不同的方式進(jìn)行了數(shù)據(jù)記錄。我們使用的子集，沒有丟失任何的數(shù)據(jù)包——包括加速的記錄，如抬手臂，放回，和腳部完整的IMU數(shù)據(jù)。最終數(shù)據(jù)是79維度的。我們使用了對象1中的第2關(guān)作為我們的驗證集，并且通過使用我們測試集中對象2和3的第4和第5關(guān)，復(fù)制最流行的識別挑戰(zhàn)。剩余的數(shù)據(jù)被用于訓(xùn)練。對于幀到幀的分析，我們創(chuàng)造了持續(xù)時間為1秒和重疊部分為50%的滑動窗口。最終的訓(xùn)練集包含大概650k的樣本（43k的幀）。

PAMAP2數(shù)據(jù)集

Reiss和Strickere，在被要求進(jìn)行12項日常生活的9個參與者中，進(jìn)行了數(shù)據(jù)記錄，包括家庭活動和各種各樣的活動（北歐散步，踢足球，等）。加速度計，陀螺儀，磁力計，溫度，心率數(shù)據(jù)都是由位于手，胸部和腳踝的慣性測量單位記錄的（總共超過了10個小時）。最終的數(shù)據(jù)是52維度的。我們在驗證集中使用了對象5的第1和第2關(guān)，在測試集中使用對象6的第1和第2關(guān)。剩余的數(shù)據(jù)用于訓(xùn)練。在分析中，我們向下采樣計算器到33.3Hz，以便與Opportunity數(shù)據(jù)集有一個時間分辨率的比較。對于從幀到幀分析，我們用一個5.12秒的非重疊滑動窗口——它的相鄰窗口之間持續(xù)時間為一秒（78%重疊），復(fù)制以前的工作。該訓(xùn)練集包括大概473k的樣本（14k的幀）。

Daphnet Gait 數(shù)據(jù)集

（DG）Bachlin等人記錄了帕金森?。≒D）對于10個參與者的影響，這意味著開展活動，可能會導(dǎo)致步態(tài)凍結(jié)。凍結(jié)是帕金森病常見的運動并發(fā)癥，它會影響個體的移動，例如散步。我們的目的是檢測這些凍結(jié)的事件，以便通知未來情境激勵系統(tǒng)。這代表一個兩級的識別問題。加速器數(shù)據(jù)是從腳踝以上，膝蓋以上和軀干部位進(jìn)行記錄的。最終的數(shù)據(jù)是9維的。我們在驗證集中使用對象9的第1關(guān)，在測試集中使用了對象2的第1和第2關(guān)，并且使用剩余的數(shù)據(jù)進(jìn)行訓(xùn)練。據(jù)我們分析，我們向下采樣加速器數(shù)據(jù)到32Hz，對于幀到幀的分析，我們創(chuàng)造了持續(xù)1秒且重疊為50%的滑動窗口。整個訓(xùn)練集包含了大概470k的樣本（30k的幀）。

深度、卷積、和遞歸三種模型中，哪個將是人類行為識別方面的佼佼者？

表1：模式的超參數(shù)和實驗的數(shù)值范圍

通過逐幀分析，我們創(chuàng)造了持續(xù)時間為1秒且重疊部分為50%的滑動窗口。訓(xùn)練集大約包括470K的樣本（30k幀）。

4.2超參數(shù)的影響

為評價所有實驗中每一個參數(shù)的影響，我們運用fANOVA框架分析方法。fANOVA會決定每一個超參數(shù)對于網(wǎng)絡(luò)結(jié)構(gòu)表現(xiàn)的影響程度。它會就模式的表現(xiàn)建立一個預(yù)測模式，并作為超參數(shù)的函數(shù)。這一非線性模式隨即被分解成為超參數(shù)的相互作用函數(shù)。fANOVA曾在遞歸函數(shù)中進(jìn)行超函數(shù)探索。

對于探索者來說，知道模式的哪一方面對表現(xiàn)的影響最大是至關(guān)重要的。我們將模式的參數(shù)分成三類：（1）學(xué)習(xí)型參數(shù)，控制學(xué)習(xí)過程；（2）規(guī)則型參數(shù)，限制模式的建模能力以防止過度重合；（3）構(gòu)建型參數(shù)，影響模式的結(jié)構(gòu)。每一個超參數(shù)都不一樣，我們估計歸因于參數(shù)類別和不同等級參數(shù)之間的相互作用。

4.3 表現(xiàn)標(biāo)準(zhǔn)

由于在本次研究中所使用的數(shù)據(jù)集有偏重，所以要求表現(xiàn)標(biāo)準(zhǔn)的類別分布是獨立的。我們傾向于評估f1數(shù)值的平均值：

深度、卷積、和遞歸三種模型中，哪個將是人類行為識別方面的佼佼者？

相關(guān)研究曾使用加權(quán)f1分值作為主要表現(xiàn)標(biāo)準(zhǔn)。為把我們的結(jié)果和其他先進(jìn)方法進(jìn)行比較，我們會對加權(quán)f1分值進(jìn)行評估：

深度、卷積、和遞歸三種模型中，哪個將是人類行為識別方面的佼佼者？

Nc表示的是在c等級之內(nèi)的樣本數(shù)量，Ntoatal代表是樣本總數(shù)量。

深度、卷積、和遞歸三種模型中，哪個將是人類行為識別方面的佼佼者？

表2：每一模式和數(shù)據(jù)集所獲得的最好結(jié)果，和一些比較標(biāo)準(zhǔn)。變量增量（表格的下半部分）指代的是所有實驗中上等和中等表現(xiàn)之間的絕對差別。

5.結(jié)果

結(jié)果在圖2可見。圖（a-c）顯示的是主要表現(xiàn)標(biāo)準(zhǔn)在每一個數(shù)據(jù)中的累積分布。圖（d）通過fANOVA 解釋了每一超參數(shù)類型的影響。

總的來說，我們觀察了模式在OPP和DG上的優(yōu)秀表現(xiàn)分布，其中在（b-LSTM-S）表現(xiàn)最好f1的平均值超過了15%，在OPP中表現(xiàn)最差（DG上的平均值為12%）（見圖2）。在PAMAP2上的差別較小，但也有7%。在OPP上表現(xiàn)最好的方法超過目前的先進(jìn)方法，在f1的平均值上超過4%（加權(quán)f1值超過1%）。CNN模式發(fā)現(xiàn)此項研究比之前結(jié)果都要好，因為f1的平均值和加權(quán)平均值都超過5%（見圖2）。遞歸方法表現(xiàn)良好，它能就實驗樣品進(jìn)行建模，能對HAR進(jìn)行新（實時）運用，因為它們能緩解分割時間序列數(shù)據(jù)的壓力。

深度、卷積、和遞歸三種模型中，哪個將是人類行為識別方面的佼佼者？

圖2：(a)-(c)每一個數(shù)據(jù)集識別表現(xiàn)的累積分布；(d)從fANOVA分析得出的結(jié)果，并解釋超參數(shù)的種類對于識別表現(xiàn)的影響（見表1）。

在本次所研究的模式中，表現(xiàn)得分的分布不同。CNNs顯示最有特色的表現(xiàn)：模型配置的一小部分表現(xiàn)較差（例如，在PAMAP的得分為20%），而其余配置在表現(xiàn)上的差別卻不大。在PAMAP2中，例如，最優(yōu)表現(xiàn)和中等表現(xiàn)之間的f1平均值只相差7%（見表2）。DNNs顯示在OPP上所有方法的最優(yōu)和中等表現(xiàn)相差最大值為35。7%。兩個前置RNNs模式（LSTM-F，LSTM-S）在不同數(shù)據(jù)集上表現(xiàn)相似。尤其在PAMAP2和OPP上進(jìn)行探索的配置識別表現(xiàn)非凡。

超參數(shù)種類對于識別表現(xiàn)影響的解釋在圖2(d)中可見。有趣的是，我們觀察的是CNN中，參數(shù)的最一致影響。與我們期待相反的是，圍繞學(xué)習(xí)過程（見表1）的參數(shù)對于表現(xiàn)的影響最大。我們希望對于這一模式而言，擁有多樣選擇結(jié)構(gòu)變體影響會更大。對于DNNs，我們不會觀察任意超參數(shù)種類的系統(tǒng)影響。在PAMAP2中，準(zhǔn)確的學(xué)習(xí)參數(shù)會是最關(guān)鍵的。在OPP中，是模式結(jié)構(gòu)最關(guān)鍵。十分有趣的是，我們觀察到網(wǎng)絡(luò)結(jié)構(gòu)較淺的模式比深度網(wǎng)絡(luò)表現(xiàn)更好。在這一網(wǎng)絡(luò)結(jié)構(gòu)表現(xiàn)中有下降趨勢且?guī)в谐^3層的隱藏層。這可能與我們僅僅只依靠監(jiān)督進(jìn)行訓(xùn)練有關(guān)，因為生成訓(xùn)練能提深度網(wǎng)絡(luò)的表現(xiàn)。

在OPP中，基于框架的RNN（LSTM-F）的表現(xiàn)受本次研究中的結(jié)轉(zhuǎn)概率影響。由于經(jīng)常保持內(nèi)在狀態(tài)或是忘記內(nèi)部狀態(tài)，這都會導(dǎo)致表現(xiàn)結(jié)果較差。我們發(fā)現(xiàn)0.5的Pcarry在大多數(shù)情況下都表現(xiàn)良好。我們的發(fā)現(xiàn)值得進(jìn)行對轉(zhuǎn)結(jié)時間表進(jìn)行更加深入的研究，這會提高LSTM的表現(xiàn)。

基于樣本實驗的前向LSTMs(LSTM-S)的研究結(jié)果證明了之前的發(fā)現(xiàn)，因為對于這種模式其學(xué)習(xí)率是至關(guān)重要的參數(shù)。然而，對于雙向LSTM（b-LSTM-S），我們發(fā)現(xiàn)每一層的單元數(shù)對表現(xiàn)影響重大，所以實驗者應(yīng)重點關(guān)注此類參數(shù)。

6.討論

在本次研究中，我們探索了先進(jìn)深度學(xué)習(xí)方法通過使用便攜式傳感器對人類活動識別的表現(xiàn)。我們介紹了如何在此設(shè)定中訓(xùn)練遞歸方法并引入新穎的規(guī)則化方法。在數(shù)千次實驗中，我們用隨機選擇取樣的參數(shù)對模式的表現(xiàn)進(jìn)行評估。發(fā)現(xiàn)在Opportunity中雙向LSTMs比目前先進(jìn)的方法表現(xiàn)要好，基準(zhǔn)數(shù)據(jù)庫要更大，利潤更可關(guān)。

但是對于研究者而言有趣的，不是每一個模式的峰值性能，而是參數(shù)在適應(yīng)不同HAR任務(wù)時的探索和理解過程。對于時間較短但是按照時間順序發(fā)生的時間理解中，遞歸網(wǎng)絡(luò)模式比卷積模式表現(xiàn)得更好。因為遞歸模式有較好的理解語境能力。對于雙向RNNs，我們發(fā)現(xiàn)在所有的數(shù)據(jù)集中，每一層的單元數(shù)目對表現(xiàn)的影響都很大。對于持續(xù)時間長且是重復(fù)發(fā)生的動作，例如，走路，跑步；我們推薦使用CNNs模式。在此情景中平均表現(xiàn)能讓研究者更容易發(fā)現(xiàn)一個合適的配置，盡管RNNs模式和CNNs 模式表現(xiàn)差不多，甚至是RNNs有時表現(xiàn)的更好。我們強烈建議在優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)之前要開始探索學(xué)習(xí)率，因為在我們的試驗中發(fā)現(xiàn)學(xué)習(xí)率對表現(xiàn)的影響最大。

我們發(fā)現(xiàn)在不同的參數(shù)設(shè)置下，模式的識別表現(xiàn)都不一樣。Regular DNNs模式對于研究者來說是最可行的方法，因為它需要進(jìn)行大量的參數(shù)探索，并且在優(yōu)良表現(xiàn)和中等表現(xiàn)之間的跨度較大。所以研究者不應(yīng)舍棄在開始時識別表現(xiàn)較差的模式。更復(fù)雜的方法，例如，CNNs或是RNNs在表現(xiàn)上的差別較小，所以更可能發(fā)現(xiàn)表現(xiàn)較好的參數(shù)并且迭代次數(shù)也少。

點評

這篇文章主要針對人類行為識別問題，介紹并比較了三類不同的模型，包括DNN，CNN和RNN，并運用可穿戴傳感器的運動數(shù)據(jù)和人類運動識別中的不同任務(wù)（如開關(guān)門、帕金森病等的運動情況）對三類模型的適用性進(jìn)行了比較研究。
對于可穿戴設(shè)備收集得數(shù)據(jù)集，可穿戴設(shè)備主要以加速度計、陀螺儀等傳感器測得數(shù)據(jù)，精度會更高，但其應(yīng)用也就有了限制，必須在可以加裝這些傳感器的場景才行。音視頻就更為一般性些，只需要有話筒和攝像頭，不一定加在被監(jiān)控對象身上。
文中提到的實驗是深度學(xué)習(xí)在PD檢測方面的應(yīng)用，用以判斷病情。

via IJCAI 2016

PS : 本文由雷鋒網(wǎng)(搜索“雷鋒網(wǎng)”公眾號關(guān)注)(搜索“雷鋒網(wǎng)”公眾號關(guān)注)獨家編譯，未經(jīng)許可拒絕轉(zhuǎn)載！

雷峰網(wǎng)原創(chuàng)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

相關(guān)文章