0
本文作者: 汪思穎 | 2018-03-19 17:29 |
雷鋒網(wǎng) AI 研習(xí)社按,日前,谷歌發(fā)布機(jī)器學(xué)習(xí)術(shù)語表,AI 研習(xí)社獲其授權(quán)轉(zhuǎn)載。以下術(shù)語表中列出了一般的機(jī)器學(xué)習(xí)術(shù)語和 TensorFlow 專用術(shù)語的定義。本文為 A-L (術(shù)語首字母)部分,M-W 部分參見干貨來襲,谷歌最新機(jī)器學(xué)習(xí)術(shù)語表(下)。
A
A/B 測(cè)試 (A/B testing)
一種統(tǒng)計(jì)方法,用于將兩種或多種技術(shù)進(jìn)行比較,通常是將當(dāng)前采用的技術(shù)與新技術(shù)進(jìn)行比較。A/B 測(cè)試不僅旨在確定哪種技術(shù)的效果更好,而且還有助于了解相應(yīng)差異是否具有顯著的統(tǒng)計(jì)意義。A/B 測(cè)試通常是采用一種衡量方式對(duì)兩種技術(shù)進(jìn)行比較,但也適用于任意有限數(shù)量的技術(shù)和衡量方式。
準(zhǔn)確率 (accuracy)
分類模型的正確預(yù)測(cè)所占的比例。在多類別分類中,準(zhǔn)確率的定義如下:
在二元分類中,準(zhǔn)確率的定義如下:
請(qǐng)參閱真正例和真負(fù)例。
激活函數(shù) (activation function)
一種函數(shù)(例如 ReLU 或 S 型函數(shù)),用于對(duì)上一層的所有輸入求加權(quán)和,然后生成一個(gè)輸出值(通常為非線性值),并將其傳遞給下一層。
AdaGrad
一種先進(jìn)的梯度下降法,用于重新調(diào)整每個(gè)參數(shù)的梯度,以便有效地為每個(gè)參數(shù)指定獨(dú)立的學(xué)習(xí)速率。如需查看完整的解釋,請(qǐng)參閱這篇論文。
ROC 曲線下面積 (AUC, Area under the ROC Curve)
一種會(huì)考慮所有可能分類閾值的評(píng)估指標(biāo)。
ROC 曲線下面積是,對(duì)于隨機(jī)選擇的正類別樣本確實(shí)為正類別,以及隨機(jī)選擇的負(fù)類別樣本為正類別,分類器更確信前者的概率。
B
反向傳播算法 (backpropagation)
在神經(jīng)網(wǎng)絡(luò)上執(zhí)行梯度下降法的主要算法。該算法會(huì)先按前向傳播方式計(jì)算(并緩存)每個(gè)節(jié)點(diǎn)的輸出值,然后再按反向傳播遍歷圖的方式計(jì)算損失函數(shù)值相對(duì)于每個(gè)參數(shù)的偏導(dǎo)數(shù)。
基準(zhǔn) (baseline)
一種簡(jiǎn)單的模型或啟發(fā)法,用作比較模型效果時(shí)的參考點(diǎn)?;鶞?zhǔn)有助于模型開發(fā)者針對(duì)特定問題量化最低預(yù)期效果。
批次 (batch)
模型訓(xùn)練的一次迭代(即一次梯度更新)中使用的樣本集。
另請(qǐng)參閱批次規(guī)模。
批次規(guī)模 (batch size)
一個(gè)批次中的樣本數(shù)。例如,SGD 的批次規(guī)模為 1,而小批次的規(guī)模通常介于 10 到 1000 之間。批次規(guī)模在訓(xùn)練和推斷期間通常是固定的;不過,TensorFlow 允許使用動(dòng)態(tài)批次規(guī)模。
偏差 (bias)
距離原點(diǎn)的截距或偏移。偏差(也稱為偏差項(xiàng))在機(jī)器學(xué)習(xí)模型中以 b 或 w0 表示。例如,在下面的公式中,偏差為 b:
請(qǐng)勿與預(yù)測(cè)偏差混淆。
二元分類 (binary classification)
一種分類任務(wù),可輸出兩種互斥類別之一。例如,對(duì)電子郵件進(jìn)行評(píng)估并輸出“垃圾郵件”或“非垃圾郵件”的機(jī)器學(xué)習(xí)模型就是一個(gè)二元分類器。
分箱 (binning)
請(qǐng)參閱分桶。
分桶 (bucketing)
將一個(gè)特征(通常是連續(xù)特征)轉(zhuǎn)換成多個(gè)二元特征(稱為桶或箱),通常是根據(jù)值區(qū)間進(jìn)行轉(zhuǎn)換。例如,您可以將溫度區(qū)間分割為離散分箱,而不是將溫度表示成單個(gè)連續(xù)的浮點(diǎn)特征。假設(shè)溫度數(shù)據(jù)可精確到小數(shù)點(diǎn)后一位,則可以將介于 0.0 到 15.0 度之間的所有溫度都?xì)w入一個(gè)分箱,將介于 15.1 到 30.0 度之間的所有溫度歸入第二個(gè)分箱,并將介于 30.1 到 50.0 度之間的所有溫度歸入第三個(gè)分箱。
C
校準(zhǔn)層 (calibration layer)
一種預(yù)測(cè)后調(diào)整,通常是為了降低預(yù)測(cè)偏差。調(diào)整后的預(yù)測(cè)和概率應(yīng)與觀察到的標(biāo)簽集的分布一致。
候選采樣 (candidate sampling)
一種訓(xùn)練時(shí)進(jìn)行的優(yōu)化,會(huì)使用某種函數(shù)(例如 softmax)針對(duì)所有正類別標(biāo)簽計(jì)算概率,但對(duì)于負(fù)類別標(biāo)簽,則僅針對(duì)其隨機(jī)樣本計(jì)算概率。例如,如果某個(gè)樣本的標(biāo)簽為“小獵犬”和“狗”,則候選采樣將針對(duì)“小獵犬”和“狗”類別輸出以及其他類別(貓、棒棒糖、柵欄)的隨機(jī)子集計(jì)算預(yù)測(cè)概率和相應(yīng)的損失項(xiàng)。這種采樣基于的想法是,只要正類別始終得到適當(dāng)?shù)恼鰪?qiáng),負(fù)類別就可以從頻率較低的負(fù)增強(qiáng)中進(jìn)行學(xué)習(xí),這確實(shí)是在實(shí)際中觀察到的情況。候選采樣的目的是,通過不針對(duì)所有負(fù)類別計(jì)算預(yù)測(cè)結(jié)果來提高計(jì)算效率。
分類數(shù)據(jù) (categorical data)
一種特征,擁有一組離散的可能值。以某個(gè)名為 house style 的分類特征為例,該特征擁有一組離散的可能值(共三個(gè)),即 Tudor, ranch, colonial。通過將 house style 表示成分類數(shù)據(jù),相應(yīng)模型可以學(xué)習(xí) Tudor、ranch 和 colonial 分別對(duì)房?jī)r(jià)的影響。
有時(shí),離散集中的值是互斥的,只能將其中一個(gè)值應(yīng)用于指定樣本。例如,car maker 分類特征可能只允許一個(gè)樣本有一個(gè)值 (Toyota)。在其他情況下,則可以應(yīng)用多個(gè)值。一輛車可能會(huì)被噴涂多種不同的顏色,因此,car color 分類特征可能會(huì)允許單個(gè)樣本具有多個(gè)值(例如 red 和 white)。
分類特征有時(shí)稱為離散特征。
與數(shù)值數(shù)據(jù)相對(duì)。
檢查點(diǎn) (checkpoint)
一種數(shù)據(jù),用于捕獲模型變量在特定時(shí)間的狀態(tài)。借助檢查點(diǎn),可以導(dǎo)出模型權(quán)重,跨多個(gè)會(huì)話執(zhí)行訓(xùn)練,以及使訓(xùn)練在發(fā)生錯(cuò)誤之后得以繼續(xù)(例如作業(yè)搶占)。請(qǐng)注意,圖本身不包含在檢查點(diǎn)中。
類別 (class)
為標(biāo)簽枚舉的一組目標(biāo)值中的一個(gè)。例如,在檢測(cè)垃圾郵件的二元分類模型中,兩種類別分別是“垃圾郵件”和“非垃圾郵件”。在識(shí)別狗品種的多類別分類模型中,類別可以是“貴賓犬”、“小獵犬”、“哈巴犬”等等。
分類不平衡的數(shù)據(jù)集 (class-imbalanced data set)
一種二元分類問題,在此類問題中,兩種類別的標(biāo)簽在出現(xiàn)頻率方面具有很大的差距。例如,在某個(gè)疾病數(shù)據(jù)集中,0.0001 的樣本具有正類別標(biāo)簽,0.9999 的樣本具有負(fù)類別標(biāo)簽,這就屬于分類不平衡問題;但在某個(gè)足球比賽預(yù)測(cè)器中,0.51 的樣本的標(biāo)簽為其中一個(gè)球隊(duì)贏,0.49 的樣本的標(biāo)簽為另一個(gè)球隊(duì)贏,這就不屬于分類不平衡問題。
分類模型 (classification model)
一種機(jī)器學(xué)習(xí)模型,用于區(qū)分兩種或多種離散類別。例如,某個(gè)自然語言處理分類模型可以確定輸入的句子是法語、西班牙語還是意大利語。請(qǐng)與回歸模型進(jìn)行比較。
分類閾值 (classification threshold)
一種標(biāo)量值條件,應(yīng)用于模型預(yù)測(cè)的得分,旨在將正類別與負(fù)類別區(qū)分開。將邏輯回歸結(jié)果映射到二元分類時(shí)使用。以某個(gè)邏輯回歸模型為例,該模型用于確定指定電子郵件是垃圾郵件的概率。如果分類閾值為 0.9,那么邏輯回歸值高于 0.9 的電子郵件將被歸類為“垃圾郵件”,低于 0.9 的則被歸類為“非垃圾郵件”。
協(xié)同過濾 (collaborative filtering)
根據(jù)很多其他用戶的興趣來預(yù)測(cè)某位用戶的興趣。協(xié)同過濾通常用在推薦系統(tǒng)中。
混淆矩陣 (confusion matrix)
一種 NxN 表格,用于總結(jié)分類模型的預(yù)測(cè)成效;即標(biāo)簽和模型預(yù)測(cè)的分類之間的關(guān)聯(lián)。在混淆矩陣中,一個(gè)軸表示模型預(yù)測(cè)的標(biāo)簽,另一個(gè)軸表示實(shí)際標(biāo)簽。N 表示類別個(gè)數(shù)。在二元分類問題中,N=2。例如,下面顯示了一個(gè)二元分類問題的混淆矩陣示例:
上面的混淆矩陣顯示,在 19 個(gè)實(shí)際有腫瘤的樣本中,該模型正確地將 18 個(gè)歸類為有腫瘤(18 個(gè)真正例),錯(cuò)誤地將 1 個(gè)歸類為沒有腫瘤(1 個(gè)假負(fù)例)。同樣,在 458 個(gè)實(shí)際沒有腫瘤的樣本中,模型歸類正確的有 452 個(gè)(452 個(gè)真負(fù)例),歸類錯(cuò)誤的有 6 個(gè)(6 個(gè)假正例)。
多類別分類問題的混淆矩陣有助于確定出錯(cuò)模式。例如,某個(gè)混淆矩陣可以揭示,某個(gè)經(jīng)過訓(xùn)練以識(shí)別手寫數(shù)字的模型往往會(huì)將 4 錯(cuò)誤地預(yù)測(cè)為 9,將 7 錯(cuò)誤地預(yù)測(cè)為 1?;煜仃嚢?jì)算各種效果指標(biāo)(包括精確率和召回率)所需的充足信息。
連續(xù)特征 (continuous feature)
一種浮點(diǎn)特征,可能值的區(qū)間不受限制。與離散特征相對(duì)。
收斂 (convergence)
通俗來說,收斂通常是指在訓(xùn)練期間達(dá)到的一種狀態(tài),即經(jīng)過一定次數(shù)的迭代之后,訓(xùn)練損失和驗(yàn)證損失在每次迭代中的變化都非常小或根本沒有變化。也就是說,如果采用當(dāng)前數(shù)據(jù)進(jìn)行額外的訓(xùn)練將無法改進(jìn)模型,模型即達(dá)到收斂狀態(tài)。在深度學(xué)習(xí)中,損失值有時(shí)會(huì)在最終下降之前的多次迭代中保持不變或幾乎保持不變,暫時(shí)形成收斂的假象。
另請(qǐng)參閱早停法。
另請(qǐng)參閱 Boyd 和 Vandenberghe 合著的 Convex Optimization(《凸優(yōu)化》)。
凸函數(shù) (convex function)
一種函數(shù),函數(shù)圖像以上的區(qū)域?yàn)橥辜?。典型凸函?shù)的形狀類似于字母 U。例如,以下都是凸函數(shù):
相反,以下函數(shù)則不是凸函數(shù)。請(qǐng)注意圖像上方的區(qū)域如何不是凸集:
嚴(yán)格凸函數(shù)只有一個(gè)局部最低點(diǎn),該點(diǎn)也是全局最低點(diǎn)。經(jīng)典的 U 形函數(shù)都是嚴(yán)格凸函數(shù)。不過,有些凸函數(shù)(例如直線)則不是這樣。
很多常見的損失函數(shù)(包括下列函數(shù))都是凸函數(shù):
L2 損失函數(shù)
對(duì)數(shù)損失函數(shù)
L1 正則化
L2 正則化
梯度下降法的很多變體都一定能找到一個(gè)接近嚴(yán)格凸函數(shù)最小值的點(diǎn)。同樣,隨機(jī)梯度下降法的很多變體都有很高的可能性能夠找到接近嚴(yán)格凸函數(shù)最小值的點(diǎn)(但并非一定能找到)。
兩個(gè)凸函數(shù)的和(例如 L2 損失函數(shù) + L1 正則化)也是凸函數(shù)。
深度模型絕不會(huì)是凸函數(shù)。值得注意的是,專門針對(duì)凸優(yōu)化設(shè)計(jì)的算法往往總能在深度網(wǎng)絡(luò)上找到非常好的解決方案,雖然這些解決方案并不一定對(duì)應(yīng)于全局最小值。
凸優(yōu)化 (convex optimization)
使用數(shù)學(xué)方法(例如梯度下降法)尋找凸函數(shù)最小值的過程。機(jī)器學(xué)習(xí)方面的大量研究都是專注于如何通過公式將各種問題表示成凸優(yōu)化問題,以及如何更高效地解決這些問題。
如需完整的詳細(xì)信息,請(qǐng)參閱 Boyd 和 Vandenberghe 合著的 Convex Optimization(《凸優(yōu)化》)。
凸集 (convex set)
歐幾里得空間的一個(gè)子集,其中任意兩點(diǎn)之間的連線仍完全落在該子集內(nèi)。例如,下面的兩個(gè)圖形都是凸集:
相反,下面的兩個(gè)圖形都不是凸集:
成本 (cost)
是損失的同義詞。
交叉熵 (cross-entropy)
對(duì)數(shù)損失函數(shù)向多類別分類問題進(jìn)行的一種泛化。交叉熵可以量化兩種概率分布之間的差異。另請(qǐng)參閱困惑度。
自定義 Estimator (custom Estimator)
與預(yù)創(chuàng)建的 Estimator 相對(duì)。
D
數(shù)據(jù)集 (data set)
一組樣本的集合。
Dataset API (tf.data)
一種高級(jí)別的 TensorFlow API,用于讀取數(shù)據(jù)并將其轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法所需的格式。tf.data.Dataset 對(duì)象表示一系列元素,其中每個(gè)元素都包含一個(gè)或多個(gè)張量。tf.data.Iterator 對(duì)象可獲取 Dataset 中的元素。
如需詳細(xì)了解 Dataset API,請(qǐng)參閱《TensorFlow 編程人員指南》中的導(dǎo)入數(shù)據(jù)。
決策邊界 (decision boundary)
在二元分類或多類別分類問題中,模型學(xué)到的類別之間的分界線。例如,在以下表示某個(gè)二元分類問題的圖片中,決策邊界是橙色類別和藍(lán)色類別之間的分界線:
密集層 (dense layer)
是全連接層的同義詞。
深度模型 (deep model)
一種神經(jīng)網(wǎng)絡(luò),其中包含多個(gè)隱藏層。深度模型依賴于可訓(xùn)練的非線性關(guān)系。
與寬度模型相對(duì)。
密集特征 (dense feature)
一種大部分?jǐn)?shù)值是非零值的特征,通常是一個(gè)浮點(diǎn)值張量。參照稀疏特征。
衍生特征 (derived feature)
是合成特征的同義詞。
離散特征 (discrete feature)
一種特征,包含有限個(gè)可能值。例如,某個(gè)值只能是“動(dòng)物”、“蔬菜”或“礦物”的特征便是一個(gè)離散特征(或分類特征)。與連續(xù)特征相對(duì)。
丟棄正則化 (dropout regularization)
一種形式的正則化,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)方面非常有用。丟棄正則化的運(yùn)作機(jī)制是,在神經(jīng)網(wǎng)絡(luò)層的一個(gè)梯度步長中移除隨機(jī)選擇的固定數(shù)量的單元。丟棄的單元越多,正則化效果就越強(qiáng)。這類似于訓(xùn)練神經(jīng)網(wǎng)絡(luò)以模擬較小網(wǎng)絡(luò)的指數(shù)級(jí)規(guī)模集成學(xué)習(xí)。如需完整的詳細(xì)信息,請(qǐng)參閱 Dropout: A Simple Way to Prevent Neural Networks from Overfitting(《丟棄:一種防止神經(jīng)網(wǎng)絡(luò)過擬合的簡(jiǎn)單方法》)。
動(dòng)態(tài)模型 (dynamic model)
一種模型,以持續(xù)更新的方式在線接受訓(xùn)練。也就是說,數(shù)據(jù)會(huì)源源不斷地進(jìn)入這種模型。
E
早停法 (early stopping)
一種正則化方法,涉及在訓(xùn)練損失仍可以繼續(xù)減少之前結(jié)束模型訓(xùn)練。使用早停法時(shí),您會(huì)在基于驗(yàn)證數(shù)據(jù)集的損失開始增加(也就是泛化效果變差)時(shí)結(jié)束模型訓(xùn)練。
嵌套 (embeddings)
一種分類特征,以連續(xù)值特征表示。通常,嵌套是指將高維度向量映射到低維度的空間。例如,您可以采用以下兩種方式之一來表示英文句子中的單詞:
表示成包含百萬個(gè)元素(高維度)的稀疏向量,其中所有元素都是整數(shù)。向量中的每個(gè)單元格都表示一個(gè)單獨(dú)的英文單詞,單元格中的值表示相應(yīng)單詞在句子中出現(xiàn)的次數(shù)。由于單個(gè)英文句子包含的單詞不太可能超過 50 個(gè),因此向量中幾乎每個(gè)單元格都包含 0。少數(shù)非 0 的單元格中將包含一個(gè)非常小的整數(shù)(通常為 1),該整數(shù)表示相應(yīng)單詞在句子中出現(xiàn)的次數(shù)。
表示成包含數(shù)百個(gè)元素(低維度)的密集向量,其中每個(gè)元素都包含一個(gè)介于 0 到 1 之間的浮點(diǎn)值。這就是一種嵌套。
在 TensorFlow 中,會(huì)按反向傳播損失訓(xùn)練嵌套,和訓(xùn)練神經(jīng)網(wǎng)絡(luò)中的任何其他參數(shù)時(shí)一樣。
經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化 (ERM, empirical risk minimization)
用于選擇可以將基于訓(xùn)練集的損失降至最低的模型函數(shù)。與結(jié)構(gòu)風(fēng)險(xiǎn)最小化相對(duì)。
集成學(xué)習(xí) (ensemble)
多個(gè)模型的預(yù)測(cè)結(jié)果的并集。您可以通過以下一項(xiàng)或多項(xiàng)來創(chuàng)建集成學(xué)習(xí):
不同的初始化
不同的超參數(shù)
不同的整體結(jié)構(gòu)
深度模型和寬度模型屬于一種集成學(xué)習(xí)。
周期 (epoch)
在訓(xùn)練時(shí),整個(gè)數(shù)據(jù)集的一次完整遍歷,以便不漏掉任何一個(gè)樣本。因此,一個(gè)周期表示(N/批次規(guī)模)次訓(xùn)練迭代,其中 N 是樣本總數(shù)。
Estimator
tf.Estimator 類的一個(gè)實(shí)例,用于封裝負(fù)責(zé)構(gòu)建 TensorFlow 圖并運(yùn)行 TensorFlow 會(huì)話的邏輯。您可以創(chuàng)建自己的自定義 Estimator(如需相關(guān)介紹,請(qǐng)點(diǎn)擊此處),也可以將其他人預(yù)創(chuàng)建的 Estimator 實(shí)例化。
樣本 (example)
數(shù)據(jù)集的一行。一個(gè)樣本包含一個(gè)或多個(gè)特征,此外還可能包含一個(gè)標(biāo)簽。另請(qǐng)參閱有標(biāo)簽樣本和無標(biāo)簽樣本。
F
假負(fù)例 (FN, false negative)
被模型錯(cuò)誤地預(yù)測(cè)為負(fù)類別的樣本。例如,模型推斷出某封電子郵件不是垃圾郵件(負(fù)類別),但該電子郵件其實(shí)是垃圾郵件。
假正例 (FP, false positive)
被模型錯(cuò)誤地預(yù)測(cè)為正類別的樣本。例如,模型推斷出某封電子郵件是垃圾郵件(正類別),但該電子郵件其實(shí)不是垃圾郵件。
假正例率(false positive rate, 簡(jiǎn)稱 FP 率)
ROC 曲線中的 x 軸。FP 率的定義如下:
特征 (feature)
在進(jìn)行預(yù)測(cè)時(shí)使用的輸入變量。
特征列 (FeatureColumns)
一組相關(guān)特征,例如用戶可能居住的所有國家/地區(qū)的集合。樣本的特征列中可能包含一個(gè)或多個(gè)特征。
TensorFlow 中的特征列內(nèi)還封裝了元數(shù)據(jù),例如:
特征的數(shù)據(jù)類型
特征是固定長度還是應(yīng)轉(zhuǎn)換為嵌套
特征列可以包含單個(gè)特征。
“特征列”是 Google 專用的術(shù)語。特征列在 Yahoo/Microsoft 使用的 VW 系統(tǒng)中稱為“命名空間”,也稱為場(chǎng)。
特征組合 (feature cross)
通過將單獨(dú)的特征進(jìn)行組合(相乘或求笛卡爾積)而形成的合成特征。特征組合有助于表示非線性關(guān)系。
特征工程 (feature engineering)
指以下過程:確定哪些特征可能在訓(xùn)練模型方面非常有用,然后將日志文件及其他來源的原始數(shù)據(jù)轉(zhuǎn)換為所需的特征。在 TensorFlow 中,特征工程通常是指將原始日志文件條目轉(zhuǎn)換為 tf.Example proto buffer。另請(qǐng)參閱 tf.Transform。
特征工程有時(shí)稱為特征提取。
特征集 (feature set)
訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí)采用的一組特征。例如,對(duì)于某個(gè)用于預(yù)測(cè)房?jī)r(jià)的模型,郵政編碼、房屋面積以及房屋狀況可以組成一個(gè)簡(jiǎn)單的特征集。
特征規(guī)范 (feature spec)
用于描述如何從 tf.Example proto buffer 提取特征數(shù)據(jù)。由于 tf.Example proto buffer 只是一個(gè)數(shù)據(jù)容器,因此您必須指定以下內(nèi)容:
要提取的數(shù)據(jù)(即特征的鍵)
數(shù)據(jù)類型(例如 float 或 int)
長度(固定或可變)
Estimator API 提供了一些可用來根據(jù)給定 FeatureColumns 列表生成特征規(guī)范的工具。
完整 softmax (full softmax)
請(qǐng)參閱 softmax。與候選采樣相對(duì)。
全連接層 (fully connected layer)
一種隱藏層,其中的每個(gè)節(jié)點(diǎn)均與下一個(gè)隱藏層中的每個(gè)節(jié)點(diǎn)相連。
全連接層又稱為密集層。
G
泛化 (generalization)
指的是模型依據(jù)訓(xùn)練時(shí)采用的數(shù)據(jù),針對(duì)以前未見過的新數(shù)據(jù)做出正確預(yù)測(cè)的能力。
廣義線性模型 (generalized linear model)
最小二乘回歸模型(基于高斯噪聲)向其他類型的模型(基于其他類型的噪聲,例如泊松噪聲或分類噪聲)進(jìn)行的一種泛化。廣義線性模型的示例包括:
邏輯回歸
多類別回歸
最小二乘回歸
可以通過凸優(yōu)化找到廣義線性模型的參數(shù)。
廣義線性模型具有以下特性:
最優(yōu)的最小二乘回歸模型的平均預(yù)測(cè)結(jié)果等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。
最優(yōu)的邏輯回歸模型預(yù)測(cè)的平均概率等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。
廣義線性模型的功能受其特征的限制。與深度模型不同,廣義線性模型無法“學(xué)習(xí)新特征”。
梯度 (gradient)
偏導(dǎo)數(shù)相對(duì)于所有自變量的向量。在機(jī)器學(xué)習(xí)中,梯度是模型函數(shù)偏導(dǎo)數(shù)的向量。梯度指向最速上升的方向。
梯度裁剪 (gradient clipping)
在應(yīng)用梯度值之前先設(shè)置其上限。梯度裁剪有助于確保數(shù)值穩(wěn)定性以及防止梯度爆炸。
梯度下降法 (gradient descent)
一種通過計(jì)算并且減小梯度將損失降至最低的技術(shù),它以訓(xùn)練數(shù)據(jù)為條件,來計(jì)算損失相對(duì)于模型參數(shù)的梯度。通俗來說,梯度下降法以迭代方式調(diào)整參數(shù),逐漸找到權(quán)重和偏差的最佳組合,從而將損失降至最低。
圖 (graph)
TensorFlow 中的一種計(jì)算規(guī)范。圖中的節(jié)點(diǎn)表示操作。邊緣具有方向,表示將某項(xiàng)操作的結(jié)果(一個(gè)張量)作為一個(gè)操作數(shù)傳遞給另一項(xiàng)操作??梢允褂?nbsp;TensorBoard 直觀呈現(xiàn)圖。
H
啟發(fā)法 (heuristic)
一種非最優(yōu)但實(shí)用的問題解決方案,足以用于進(jìn)行改進(jìn)或從中學(xué)習(xí)。
隱藏層 (hidden layer)
神經(jīng)網(wǎng)絡(luò)中的合成層,介于輸入層(即特征)和輸出層(即預(yù)測(cè))之間。神經(jīng)網(wǎng)絡(luò)包含一個(gè)或多個(gè)隱藏層。
合頁損失函數(shù) (hinge loss)
一系列用于分類的損失函數(shù),旨在找到距離每個(gè)訓(xùn)練樣本都盡可能遠(yuǎn)的決策邊界,從而使樣本和邊界之間的裕度最大化。KSVM 使用合頁損失函數(shù)(或相關(guān)函數(shù),例如平方合頁損失函數(shù))。對(duì)于二元分類,合頁損失函數(shù)的定義如下:
其中“y'”表示分類器模型的原始輸出:
“y”表示真標(biāo)簽,值為 -1 或 +1。
因此,合頁損失與 (y * y') 的關(guān)系圖如下所示:
維持?jǐn)?shù)據(jù) (holdout data)
訓(xùn)練期間故意不使用(“維持”)的樣本。驗(yàn)證數(shù)據(jù)集和測(cè)試數(shù)據(jù)集都屬于維持?jǐn)?shù)據(jù)。維持?jǐn)?shù)據(jù)有助于評(píng)估模型向訓(xùn)練時(shí)所用數(shù)據(jù)之外的數(shù)據(jù)進(jìn)行泛化的能力。與基于訓(xùn)練數(shù)據(jù)集的損失相比,基于維持?jǐn)?shù)據(jù)集的損失有助于更好地估算基于未見過的數(shù)據(jù)集的損失。
超參數(shù) (hyperparameter)
在模型訓(xùn)練的連續(xù)過程中,您調(diào)節(jié)的“旋鈕”。例如,學(xué)習(xí)速率就是一種超參數(shù)。
與參數(shù)相對(duì)。
超平面 (hyperplane)
將一個(gè)空間劃分為兩個(gè)子空間的邊界。例如,在二維空間中,直線就是一個(gè)超平面,在三維空間中,平面則是一個(gè)超平面。在機(jī)器學(xué)習(xí)中更典型的是:超平面是分隔高維度空間的邊界。核支持向量機(jī)利用超平面將正類別和負(fù)類別區(qū)分開來(通常是在極高維度空間中)。
I
獨(dú)立同分布 (i.i.d, independently and identically distributed)
從不會(huì)改變的分布中提取的數(shù)據(jù),其中提取的每個(gè)值都不依賴于之前提取的值。i.i.d. 是機(jī)器學(xué)習(xí)的理想氣體 - 一種實(shí)用的數(shù)學(xué)結(jié)構(gòu),但在現(xiàn)實(shí)世界中幾乎從未發(fā)現(xiàn)過。例如,某個(gè)網(wǎng)頁的訪問者在短時(shí)間內(nèi)的分布可能為 i.i.d.,即分布在該短時(shí)間內(nèi)沒有變化,且一位用戶的訪問行為通常與另一位用戶的訪問行為無關(guān)。不過,如果將時(shí)間窗口擴(kuò)大,網(wǎng)頁訪問者的分布可能呈現(xiàn)出季節(jié)性變化。
推斷 (inference)
在機(jī)器學(xué)習(xí)中,推斷通常指以下過程:通過將訓(xùn)練過的模型應(yīng)用于無標(biāo)簽樣本來做出預(yù)測(cè)。在統(tǒng)計(jì)學(xué)中,推斷是指在某些觀測(cè)數(shù)據(jù)條件下擬合分布參數(shù)的過程。(請(qǐng)參閱維基百科中有關(guān)統(tǒng)計(jì)學(xué)推斷的文章。)
輸入函數(shù) (input function)
在 TensorFlow 中,用于將輸入數(shù)據(jù)返回到 Estimator 的訓(xùn)練、評(píng)估或預(yù)測(cè)方法的函數(shù)。例如,訓(xùn)練輸入函數(shù)用于返回訓(xùn)練集中的批次特征和標(biāo)簽。
輸入層 (input layer)
神經(jīng)網(wǎng)絡(luò)中的第一層(接收輸入數(shù)據(jù)的層)。
實(shí)例 (instance)
是樣本的同義詞。
可解釋性 (interpretability)
模型的預(yù)測(cè)可解釋的難易程度。深度模型通常不可解釋,也就是說,很難對(duì)深度模型的不同層進(jìn)行解釋。相比之下,線性回歸模型和寬度模型的可解釋性通常要好得多。
評(píng)分者間一致性信度 (inter-rater agreement)
一種衡量指標(biāo),用于衡量在執(zhí)行某項(xiàng)任務(wù)時(shí)評(píng)分者達(dá)成一致的頻率。如果評(píng)分者未達(dá)成一致,則可能需要改進(jìn)任務(wù)說明。有時(shí)也稱為注釋者間一致性信度或評(píng)分者間可靠性信度。另請(qǐng)參閱 Cohen's kappa(最熱門的評(píng)分者間一致性信度衡量指標(biāo)之一)。
迭代 (iteration)
模型的權(quán)重在訓(xùn)練期間的一次更新。迭代包含計(jì)算參數(shù)在單個(gè)批量數(shù)據(jù)上的梯度損失。
K
Keras
一種熱門的 Python 機(jī)器學(xué)習(xí) API。Keras 能夠在多種深度學(xué)習(xí)框架上運(yùn)行,其中包括 TensorFlow(在該框架上,Keras 作為 tf.keras 提供)。
核支持向量機(jī) (KSVM, Kernel Support Vector Machines)
一種分類算法,旨在通過將輸入數(shù)據(jù)向量映射到更高維度的空間,來最大化正類別和負(fù)類別之間的裕度。以某個(gè)輸入數(shù)據(jù)集包含一百個(gè)特征的分類問題為例。為了最大化正類別和負(fù)類別之間的裕度,KSVM 可以在內(nèi)部將這些特征映射到百萬維度的空間。KSVM 使用合頁損失函數(shù)。
L
L1 損失函數(shù) (L? loss)
一種損失函數(shù),基于模型預(yù)測(cè)的值與標(biāo)簽的實(shí)際值之差的絕對(duì)值。與 L2 損失函數(shù)相比,L1 損失函數(shù)對(duì)離群值的敏感性弱一些。
L1 正則化 (L? regularization)
一種正則化,根據(jù)權(quán)重的絕對(duì)值的總和來懲罰權(quán)重。在依賴稀疏特征的模型中,L1 正則化有助于使不相關(guān)或幾乎不相關(guān)的特征的權(quán)重正好為 0,從而將這些特征從模型中移除。與 L2 正則化相對(duì)。
L2 損失函數(shù) (L? loss)
請(qǐng)參閱平方損失函數(shù)。
L2 正則化 (L? regularization)
一種正則化,根據(jù)權(quán)重的平方和來懲罰權(quán)重。L2 正則化有助于使離群值(具有較大正值或較小負(fù)值)權(quán)重接近于 0,但又不正好為 0。(與 L1 正則化相對(duì)。)在線性模型中,L2 正則化始終可以改進(jìn)泛化。
標(biāo)簽 (label)
在監(jiān)督式學(xué)習(xí)中,標(biāo)簽指樣本的“答案”或“結(jié)果”部分。有標(biāo)簽數(shù)據(jù)集中的每個(gè)樣本都包含一個(gè)或多個(gè)特征以及一個(gè)標(biāo)簽。例如,在房屋數(shù)據(jù)集中,特征可以包括臥室數(shù)、衛(wèi)生間數(shù)以及房齡,而標(biāo)簽則可以是房?jī)r(jià)。在垃圾郵件檢測(cè)數(shù)據(jù)集中,特征可以包括主題行、發(fā)件人以及電子郵件本身,而標(biāo)簽則可以是“垃圾郵件”或“非垃圾郵件”。
有標(biāo)簽樣本 (labeled example)
包含特征和標(biāo)簽的樣本。在監(jiān)督式訓(xùn)練中,模型從有標(biāo)簽樣本中進(jìn)行學(xué)習(xí)。
lambda
是正則化率的同義詞。
(多含義術(shù)語,我們?cè)诖岁P(guān)注的是該術(shù)語在正則化中的定義。)
層 (layer)
神經(jīng)網(wǎng)絡(luò)中的一組神經(jīng)元,處理一組輸入特征,或一組神經(jīng)元的輸出。
此外還指 TensorFlow 中的抽象層。層是 Python 函數(shù),以張量和配置選項(xiàng)作為輸入,然后生成其他張量作為輸出。當(dāng)必要的張量組合起來,用戶便可以通過模型函數(shù)將結(jié)果轉(zhuǎn)換為 Estimator。
Layers API (tf.layers)
一種 TensorFlow API,用于以層組合的方式構(gòu)建深度神經(jīng)網(wǎng)絡(luò)。通過 Layers API,您可以構(gòu)建不同類型的層,例如:
通過 tf.layers.Dense 構(gòu)建全連接層。
通過 tf.layers.Conv2D 構(gòu)建卷積層。
在編寫自定義 Estimator 時(shí),您可以編寫“層”對(duì)象來定義所有隱藏層的特征。
Layers API 遵循 [Keras](#Keras) layers API 規(guī)范。也就是說,除了前綴不同以外,Layers API 中的所有函數(shù)均與 Keras layers API 中的對(duì)應(yīng)函數(shù)具有相同的名稱和簽名。
學(xué)習(xí)速率 (learning rate)
在訓(xùn)練模型時(shí)用于梯度下降的一個(gè)變量。在每次迭代期間,梯度下降法都會(huì)將學(xué)習(xí)速率與梯度相乘。得出的乘積稱為梯度步長。
學(xué)習(xí)速率是一個(gè)重要的超參數(shù)。
最小二乘回歸 (least squares regression)
一種通過最小化 L2 損失訓(xùn)練出的線性回歸模型。
線性回歸 (linear regression)
一種回歸模型,通過將輸入特征進(jìn)行線性組合,以連續(xù)值作為輸出。
邏輯回歸 (logistic regression)
一種模型,通過將 S 型函數(shù)應(yīng)用于線性預(yù)測(cè),生成分類問題中每個(gè)可能的離散標(biāo)簽值的概率。雖然邏輯回歸經(jīng)常用于二元分類問題,但也可用于多類別分類問題(其叫法變?yōu)?strong>多類別邏輯回歸或多項(xiàng)回歸)。
對(duì)數(shù)損失函數(shù) (Log Loss)
二元邏輯回歸中使用的損失函數(shù)。
損失 (Loss)
一種衡量指標(biāo),用于衡量模型的預(yù)測(cè)偏離其標(biāo)簽的程度?;蛘吒^地說是衡量模型有多差。要確定此值,模型必須定義損失函數(shù)。例如,線性回歸模型通常將均方誤差用于損失函數(shù),而邏輯回歸模型則使用對(duì)數(shù)損失函數(shù)。
雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。