干貨來襲，谷歌最新機(jī)器學(xué)習(xí)術(shù)語表（下）

本文作者：汪思穎

2018-03-20 14:24

導(dǎo)語：本術(shù)語表中列出了一般的機(jī)器學(xué)習(xí)術(shù)語和 TensorFlow 專用術(shù)語的定義。

雷鋒網(wǎng) AI 研習(xí)社按，日前，谷歌發(fā)布機(jī)器學(xué)習(xí)術(shù)語表，AI 研習(xí)社獲其授權(quán)轉(zhuǎn)載。以下術(shù)語表中列出了一般的機(jī)器學(xué)習(xí)術(shù)語和 TensorFlow 專用術(shù)語的定義。本文為 M-W（術(shù)語首字母）部分，A-L 部分參見干貨來襲，谷歌最新機(jī)器學(xué)習(xí)術(shù)語表（上）。

機(jī)器學(xué)習(xí) (machine learning)

一種程序或系統(tǒng)，用于根據(jù)輸入數(shù)據(jù)構(gòu)建（訓(xùn)練）預(yù)測模型。這種系統(tǒng)會(huì)利用學(xué)到的模型根據(jù)從分布（訓(xùn)練該模型時(shí)使用的同一分布）中提取的新數(shù)據(jù)（以前從未見過的數(shù)據(jù)）進(jìn)行實(shí)用的預(yù)測。機(jī)器學(xué)習(xí)還指與這些程序或系統(tǒng)相關(guān)的研究領(lǐng)域。

均方誤差 (MSE, Mean Squared Error)

每個(gè)樣本的平均平方損失。MSE 的計(jì)算方法是平方損失除以樣本數(shù)。TensorFlow Playground 顯示的“訓(xùn)練損失”值和“測試損失”值都是 MSE。

指標(biāo) (metric)

您關(guān)心的一個(gè)數(shù)值。可能可以也可能不可以直接在機(jī)器學(xué)習(xí)系統(tǒng)中得到優(yōu)化。您的系統(tǒng)嘗試優(yōu)化的指標(biāo)稱為目標(biāo)。

Metrics API (tf.metrics)

一種用于評(píng)估模型的 TensorFlow API。例如，tf.metrics.accuracy 用于確定模型的預(yù)測與標(biāo)簽匹配的頻率。在編寫自定義 Estimator 時(shí)，您可以調(diào)用 Metrics API 函數(shù)來指定應(yīng)如何評(píng)估您的模型。

小批次 (mini-batch)

從訓(xùn)練或推斷過程的一次迭代中一起運(yùn)行的整批樣本內(nèi)隨機(jī)選擇的一小部分。小批次的規(guī)模通常介于 10 到 1000 之間。與基于完整的訓(xùn)練數(shù)據(jù)計(jì)算損失相比，基于小批次數(shù)據(jù)計(jì)算損失要高效得多。

小批次隨機(jī)梯度下降法 (SGD, mini-batch stochastic gradient descent)

一種采用小批次樣本的梯度下降法。也就是說，小批次 SGD 會(huì)根據(jù)一小部分訓(xùn)練數(shù)據(jù)來估算梯度。Vanilla SGD 使用的小批次的規(guī)模為 1。

機(jī)器學(xué)習(xí)的縮寫。

模型 (model)

機(jī)器學(xué)習(xí)系統(tǒng)從訓(xùn)練數(shù)據(jù)學(xué)到的內(nèi)容的表示形式。多含義術(shù)語，可以理解為下列兩種相關(guān)含義之一：

一種 TensorFlow 圖，用于表示預(yù)測計(jì)算結(jié)構(gòu)。
該 TensorFlow 圖的特定權(quán)重和偏差，通過訓(xùn)練決定。

模型訓(xùn)練 (model training)

確定最佳模型的過程。

動(dòng)量 (Momentum)

一種先進(jìn)的梯度下降法，其中學(xué)習(xí)步長不僅取決于當(dāng)前步長的導(dǎo)數(shù)，還取決于之前一步或多步的步長的導(dǎo)數(shù)。動(dòng)量涉及計(jì)算梯度隨時(shí)間而變化的指數(shù)級(jí)加權(quán)移動(dòng)平均值，與物理學(xué)中的動(dòng)量類似。動(dòng)量有時(shí)可以防止學(xué)習(xí)過程被卡在局部最小的情況。

多類別分類 (multi-class classification)

區(qū)分兩種以上類別的分類問題。例如，楓樹大約有 128 種，因此，確定楓樹種類的模型就屬于多類別模型。反之，僅將電子郵件分為兩類（“垃圾郵件”和“非垃圾郵件”）的模型屬于二元分類模型。

多項(xiàng)分類 (multinomial classification)

是多類別分類的同義詞。

NaN 陷阱 (NaN trap)

模型中的一個(gè)數(shù)字在訓(xùn)練期間變成 NaN，這會(huì)導(dǎo)致模型中的很多或所有其他數(shù)字最終也會(huì)變成 NaN。

NaN 是“非數(shù)字”的縮寫。

負(fù)類別 (negative class)

在二元分類中，一種類別稱為正類別，另一種類別稱為負(fù)類別。正類別是我們要尋找的類別，負(fù)類別則是另一種可能性。例如，在醫(yī)學(xué)檢查中，負(fù)類別可以是“非腫瘤”。在電子郵件分類器中，負(fù)類別可以是“非垃圾郵件”。另請參閱正類別。

神經(jīng)網(wǎng)絡(luò) (neural network)

一種模型，靈感來源于腦部結(jié)構(gòu)，由多個(gè)層構(gòu)成（至少有一個(gè)是隱藏層），每個(gè)層都包含簡單相連的單元或神經(jīng)元（具有非線性關(guān)系）。

神經(jīng)元 (neuron)

神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn)，通常是接收多個(gè)輸入值并生成一個(gè)輸出值。神經(jīng)元通過將激活函數(shù)（非線性轉(zhuǎn)換）應(yīng)用于輸入值的加權(quán)和來計(jì)算輸出值。

節(jié)點(diǎn) (node)

多含義術(shù)語，可以理解為下列兩種含義之一：

隱藏層中的神經(jīng)元。
TensorFlow 圖中的操作。

標(biāo)準(zhǔn)化 (normalization)

將實(shí)際的值區(qū)間轉(zhuǎn)換為標(biāo)準(zhǔn)的值區(qū)間（通常為 -1 到 +1 或 0 到 1）的過程。例如，假設(shè)某個(gè)特征的自然區(qū)間是 800 到 6000。通過減法和除法運(yùn)算，您可以將這些值標(biāo)準(zhǔn)化為位于 -1 到 +1 區(qū)間內(nèi)。

另請參閱縮放。

數(shù)值數(shù)據(jù) (numerical data)

用整數(shù)或?qū)崝?shù)表示的特征。例如，在房地產(chǎn)模型中，您可能會(huì)用數(shù)值數(shù)據(jù)表示房子大小（以平方英尺或平方米為單位）。如果用數(shù)值數(shù)據(jù)表示特征，則可以表明特征的值相互之間具有數(shù)學(xué)關(guān)系，并且與標(biāo)簽可能也有數(shù)學(xué)關(guān)系。例如，如果用數(shù)值數(shù)據(jù)表示房子大小，則可以表明面積為 200 平方米的房子是面積為 100 平方米的房子的兩倍。此外，房子面積的平方米數(shù)可能與房價(jià)存在一定的數(shù)學(xué)關(guān)系。

并非所有整數(shù)數(shù)據(jù)都應(yīng)表示成數(shù)值數(shù)據(jù)。例如，世界上某些地區(qū)的郵政編碼是整數(shù)，但在模型中，不應(yīng)將整數(shù)郵政編碼表示成數(shù)值數(shù)據(jù)。這是因?yàn)猷]政編碼 20000 在效力上并不是郵政編碼 10000 的兩倍（或一半）。此外，雖然不同的郵政編碼確實(shí)與不同的房地產(chǎn)價(jià)值有關(guān)，但我們也不能假設(shè)郵政編碼為 20000 的房地產(chǎn)在價(jià)值上是郵政編碼為 10000 的房地產(chǎn)的兩倍。郵政編碼應(yīng)表示成分類數(shù)據(jù)。

數(shù)值特征有時(shí)稱為連續(xù)特征。

Numpy

一個(gè)開放源代碼數(shù)學(xué)庫，在 Python 中提供高效的數(shù)組操作。Pandas 就建立在 Numpy 之上。

目標(biāo) (objective)

算法嘗試優(yōu)化的指標(biāo)。

離線推斷 (offline inference)

生成一組預(yù)測，存儲(chǔ)這些預(yù)測，然后根據(jù)需求檢索這些預(yù)測。與在線推斷相對。

one-hot 編碼 (one-hot encoding)

一種稀疏向量，其中：

一個(gè)元素設(shè)為 1。
所有其他元素均設(shè)為 0。

one-hot 編碼常用于表示擁有有限個(gè)可能值的字符串或標(biāo)識(shí)符。例如，假設(shè)某個(gè)指定的植物學(xué)數(shù)據(jù)集記錄了 15000 個(gè)不同的物種，其中每個(gè)物種都用獨(dú)一無二的字符串標(biāo)識(shí)符來表示。在特征工程過程中，您可能需要將這些字符串標(biāo)識(shí)符編碼為 one-hot 向量，向量的大小為 15000。

一對多 (one-vs.-all)

假設(shè)某個(gè)分類問題有 N 種可能的解決方案，一對多解決方案將包含 N 個(gè)單獨(dú)的二元分類器 - 一個(gè)二元分類器對應(yīng)一種可能的結(jié)果。例如，假設(shè)某個(gè)模型用于區(qū)分樣本屬于動(dòng)物、蔬菜還是礦物，一對多解決方案將提供下列三個(gè)單獨(dú)的二元分類器：

動(dòng)物和非動(dòng)物
蔬菜和非蔬菜
礦物和非礦物

在線推斷 (online inference)

根據(jù)需求生成預(yù)測。與離線推斷相對。

操作 (op, Operation)

TensorFlow 圖中的節(jié)點(diǎn)。在 TensorFlow 中，任何創(chuàng)建、操縱或銷毀張量的過程都屬于操作。例如，矩陣相乘就是一種操作，該操作以兩個(gè)張量作為輸入，并生成一個(gè)張量作為輸出。

優(yōu)化器 (optimizer)

梯度下降法的一種具體實(shí)現(xiàn)。TensorFlow 的優(yōu)化器基類是 tf.train.Optimizer。不同的優(yōu)化器（tf.train.Optimizer 的子類）會(huì)考慮如下概念：

動(dòng)量 (Momentum)
更新頻率（AdaGrad = ADAptive GRADient descent； Adam = ADAptive with Momentum；RMSProp）
稀疏性/正則化 (Ftrl)
更復(fù)雜的計(jì)算方法（Proximal，等等）

甚至還包括 NN 驅(qū)動(dòng)的優(yōu)化器。

離群值 (outlier)

與大多數(shù)其他值差別很大的值。在機(jī)器學(xué)習(xí)中，下列所有值都是離群值。

絕對值很高的權(quán)重。
與實(shí)際值相差很大的預(yù)測值。
值比平均值高大約 3 個(gè)標(biāo)準(zhǔn)偏差的輸入數(shù)據(jù)。

離群值常常會(huì)導(dǎo)致模型訓(xùn)練出現(xiàn)問題。

輸出層 (output layer)

神經(jīng)網(wǎng)絡(luò)的“最后”一層，也是包含答案的層。

過擬合 (overfitting)

創(chuàng)建的模型與訓(xùn)練數(shù)據(jù)過于匹配，以致于模型無法根據(jù)新數(shù)據(jù)做出正確的預(yù)測。

Pandas

面向列的數(shù)據(jù)分析 API。很多機(jī)器學(xué)習(xí)框架（包括 TensorFlow）都支持將 Pandas 數(shù)據(jù)結(jié)構(gòu)作為輸入。請參閱 Pandas 文檔。

參數(shù) (parameter)

機(jī)器學(xué)習(xí)系統(tǒng)自行訓(xùn)練的模型的變量。例如，權(quán)重就是一種參數(shù)，它們的值是機(jī)器學(xué)習(xí)系統(tǒng)通過連續(xù)的訓(xùn)練迭代逐漸學(xué)習(xí)到的。與超參數(shù)相對。

參數(shù)服務(wù)器 (PS, Parameter Server)

一種作業(yè)，負(fù)責(zé)在分布式設(shè)置中跟蹤模型參數(shù)。

參數(shù)更新 (parameter update)

在訓(xùn)練期間（通常是在梯度下降法的單次迭代中）調(diào)整模型參數(shù)的操作。

偏導(dǎo)數(shù) (partial derivative)

一種導(dǎo)數(shù)，除一個(gè)變量之外的所有變量都被視為常量。例如，f(x, y) 對 x 的偏導(dǎo)數(shù)就是 f(x) 的導(dǎo)數(shù)（即，使 y 保持恒定）。f 對 x 的偏導(dǎo)數(shù)僅關(guān)注 x 如何變化，而忽略公式中的所有其他變量。

分區(qū)策略 (partitioning strategy)

參數(shù)服務(wù)器中分割變量的算法。

性能 (performance)

多含義術(shù)語，具有以下含義：

在軟件工程中的傳統(tǒng)含義。即：相應(yīng)軟件的運(yùn)行速度有多快（或有多高效）？
在機(jī)器學(xué)習(xí)中的含義。在機(jī)器學(xué)習(xí)領(lǐng)域，性能旨在回答以下問題：相應(yīng)模型的準(zhǔn)確度有多高？即模型在預(yù)測方面的表現(xiàn)有多好？

困惑度 (perplexity)

一種衡量指標(biāo)，用于衡量模型能夠多好地完成任務(wù)。例如，假設(shè)任務(wù)是讀取用戶使用智能手機(jī)鍵盤輸入字詞時(shí)輸入的前幾個(gè)字母，然后列出一組可能的完整字詞。此任務(wù)的困惑度 (P) 是：為了使列出的字詞中包含用戶嘗試輸入的實(shí)際字詞，您需要提供的猜測項(xiàng)的個(gè)數(shù)。

困惑度與交叉熵的關(guān)系如下：

P=2^{?cross entropy}

流水線 (pipeline)

機(jī)器學(xué)習(xí)算法的基礎(chǔ)架構(gòu)。流水線包括收集數(shù)據(jù)、將數(shù)據(jù)放入訓(xùn)練數(shù)據(jù)文件、訓(xùn)練一個(gè)或多個(gè)模型，以及將模型導(dǎo)出到生產(chǎn)環(huán)境。

正類別 (positive class)

在二元分類中，兩種可能的類別分別被標(biāo)記為正類別和負(fù)類別。正類別結(jié)果是我們要測試的對象。（不可否認(rèn)的是，我們會(huì)同時(shí)測試這兩種結(jié)果，但只關(guān)注正類別結(jié)果。）例如，在醫(yī)學(xué)檢查中，正類別可以是“腫瘤”。在電子郵件分類器中，正類別可以是“垃圾郵件”。

與負(fù)類別相對。

精確率 (precision)

一種分類模型指標(biāo)。精確率指模型正確預(yù)測正類別的頻率，即：

干貨來襲，谷歌最新機(jī)器學(xué)習(xí)術(shù)語表（下）

預(yù)測 (prediction)

模型在收到輸入的樣本后的輸出。

預(yù)測偏差 (prediction bias)

一個(gè)值，用于表明預(yù)測平均值與數(shù)據(jù)集中標(biāo)簽的平均值相差有多大。

預(yù)創(chuàng)建的 Estimator (pre-made Estimator)

其他人已建好的 Estimator。TensorFlow 提供了一些預(yù)創(chuàng)建的 Estimator，包括 DNNClassifier、DNNRegressor 和 LinearClassifier。您可以按照這些說明構(gòu)建自己預(yù)創(chuàng)建的 Estimator。

預(yù)訓(xùn)練模型 (pre-trained model)

已經(jīng)過訓(xùn)練的模型或模型組件（例如嵌套）。有時(shí)，您需要將預(yù)訓(xùn)練的嵌套饋送到神經(jīng)網(wǎng)絡(luò)。在其他時(shí)候，您的模型將自行訓(xùn)練嵌套，而不依賴于預(yù)訓(xùn)練的嵌套。

先驗(yàn)信念 (prior belief)

在開始采用相應(yīng)數(shù)據(jù)進(jìn)行訓(xùn)練之前，您對這些數(shù)據(jù)抱有的信念。例如，L2 正則化依賴的先驗(yàn)信念是權(quán)重應(yīng)該很小且應(yīng)以 0 為中心呈正態(tài)分布。

隊(duì)列 (queue)

一種 TensorFlow 操作，用于實(shí)現(xiàn)隊(duì)列數(shù)據(jù)結(jié)構(gòu)。通常用于 I/O 中。

等級(jí) (rank)

機(jī)器學(xué)習(xí)中的一個(gè)多含義術(shù)語，可以理解為下列含義之一：

張量中的維度數(shù)量。例如，標(biāo)量等級(jí)為 0，向量等級(jí)為 1，矩陣等級(jí)為 2。
在將類別從最高到最低進(jìn)行排序的機(jī)器學(xué)習(xí)問題中，類別的順序位置。例如，行為排序系統(tǒng)可以將狗狗的獎(jiǎng)勵(lì)從最高（牛排）到最低（枯萎的羽衣甘藍(lán)）進(jìn)行排序。

評(píng)分者 (rater)

為樣本提供標(biāo)簽的人。有時(shí)稱為“注釋者”。

召回率 (recall)

一種分類模型指標(biāo)，用于回答以下問題：在所有可能的正類別標(biāo)簽中，模型正確地識(shí)別出了多少個(gè)？即：

干貨來襲，谷歌最新機(jī)器學(xué)習(xí)術(shù)語表（下）

修正線性單元 (ReLU, Rectified Linear Unit)

一種激活函數(shù)，其規(guī)則如下：

如果輸入為負(fù)數(shù)或 0，則輸出 0。
如果輸入為正數(shù)，則輸出等于輸入。

回歸模型 (regression model)

一種模型，能夠輸出連續(xù)的值（通常為浮點(diǎn)值）。請與分類模型進(jìn)行比較，分類模型輸出離散值，例如“黃花菜”或“虎皮百合”。

正則化 (regularization)

對模型復(fù)雜度的懲罰。正則化有助于防止出現(xiàn)過擬合，包含以下類型：

L1 正則化
L2 正則化
丟棄正則化
早停法（這不是正式的正則化方法，但可以有效限制過擬合）

正則化率 (regularization rate)

一種標(biāo)量值，以 lambda 表示，用于指定正則化函數(shù)的相對重要性。從下面簡化的損失公式中可以看出正則化率的影響：

minimize(loss function + λ(regularization function))

提高正則化率可以減少過擬合，但可能會(huì)使模型的準(zhǔn)確率降低。

表示法 (representation)

將數(shù)據(jù)映射到實(shí)用特征的過程。

受試者工作特征曲線（receiver operating characteristic, 簡稱 ROC 曲線）

不同分類閾值下的真正例率和假正例率構(gòu)成的曲線。另請參閱曲線下面積。

根目錄 (root directory)

您指定的目錄，用于托管多個(gè)模型的 TensorFlow 檢查點(diǎn)和事件文件的子目錄。

均方根誤差 (RMSE, Root Mean Squared Error)

均方誤差的平方根。

SavedModel

保存和恢復(fù) TensorFlow 模型時(shí)建議使用的格式。SavedModel 是一種獨(dú)立于語言且可恢復(fù)的序列化格式，使較高級(jí)別的系統(tǒng)和工具可以創(chuàng)建、使用和轉(zhuǎn)換 TensorFlow 模型。

如需完整的詳細(xì)信息，請參閱《TensorFlow 編程人員指南》中的保存和恢復(fù)。

Saver

一種 TensorFlow 對象，負(fù)責(zé)保存模型檢查點(diǎn)。

縮放 (scaling)

特征工程中的一種常用做法，是對某個(gè)特征的值區(qū)間進(jìn)行調(diào)整，使之與數(shù)據(jù)集中其他特征的值區(qū)間一致。例如，假設(shè)您希望數(shù)據(jù)集中所有浮點(diǎn)特征的值都位于 0 到 1 區(qū)間內(nèi)，如果某個(gè)特征的值位于 0 到 500 區(qū)間內(nèi)，您就可以通過將每個(gè)值除以 500 來縮放該特征。

另請參閱標(biāo)準(zhǔn)化。

scikit-learn

一個(gè)熱門的開放源代碼機(jī)器學(xué)習(xí)平臺(tái)。請?jiān)L問 www.scikit-learn.org。

半監(jiān)督式學(xué)習(xí) (semi-supervised learning)

訓(xùn)練模型時(shí)采用的數(shù)據(jù)中，某些訓(xùn)練樣本有標(biāo)簽，而其他樣本則沒有標(biāo)簽。半監(jiān)督式學(xué)習(xí)采用的一種技術(shù)是推斷無標(biāo)簽樣本的標(biāo)簽，然后使用推斷出的標(biāo)簽進(jìn)行訓(xùn)練，以創(chuàng)建新模型。如果獲得有標(biāo)簽樣本需要高昂的成本，而無標(biāo)簽樣本則有很多，那么半監(jiān)督式學(xué)習(xí)將非常有用。

序列模型 (sequence model)

一種模型，其輸入具有序列依賴性。例如，根據(jù)之前觀看過的一系列視頻對觀看的下一個(gè)視頻進(jìn)行預(yù)測。

會(huì)話 (session)

維持 TensorFlow 程序中的狀態(tài)（例如變量）。

S 型函數(shù) (sigmoid function)

一種函數(shù)，可將邏輯回歸輸出或多項(xiàng)回歸輸出（對數(shù)幾率）映射到概率，以返回介于 0 到 1 之間的值。S 型函數(shù)的公式如下：

干貨來襲，谷歌最新機(jī)器學(xué)習(xí)術(shù)語表（下）

在邏輯回歸問題中，σ 非常簡單：

干貨來襲，谷歌最新機(jī)器學(xué)習(xí)術(shù)語表（下）

換句話說，S 型函數(shù)可將 σ 轉(zhuǎn)換為介于 0 到 1 之間的概率。

在某些神經(jīng)網(wǎng)絡(luò)中，S 型函數(shù)可作為激活函數(shù)使用。

softmax

一種函數(shù)，可提供多類別分類模型中每個(gè)可能類別的概率。這些概率的總和正好為 1.0。例如，softmax 可能會(huì)得出某個(gè)圖像是狗、貓和馬的概率分別是 0.9、0.08 和 0.02。（也稱為完整 softmax。）

與候選采樣相對。

稀疏特征 (sparse feature)

一種特征向量，其中的大多數(shù)值都為 0 或?yàn)榭铡＠?，某個(gè)向量包含一個(gè)為 1 的值和一百萬個(gè)為 0 的值，則該向量就屬于稀疏向量。再舉一個(gè)例子，搜索查詢中的單詞也可能屬于稀疏特征 - 在某種指定語言中有很多可能的單詞，但在某個(gè)指定的查詢中僅包含其中幾個(gè)。

與密集特征相對。

平方合頁損失函數(shù) (squared hinge loss)

合頁損失函數(shù)的平方。與常規(guī)合頁損失函數(shù)相比，平方合頁損失函數(shù)對離群值的懲罰更嚴(yán)厲。

平方損失函數(shù) (squared loss)

在線性回歸中使用的損失函數(shù)（也稱為 L2 損失函數(shù)）。該函數(shù)可計(jì)算模型為有標(biāo)簽樣本預(yù)測的值和標(biāo)簽的實(shí)際值之差的平方。由于取平方值，因此該損失函數(shù)會(huì)放大不佳預(yù)測的影響。也就是說，與 L1 損失函數(shù)相比，平方損失函數(shù)對離群值的反應(yīng)更強(qiáng)烈。

靜態(tài)模型 (static model)

離線訓(xùn)練的一種模型。

平穩(wěn)性 (stationarity)

數(shù)據(jù)集中數(shù)據(jù)的一種屬性，表示數(shù)據(jù)分布在一個(gè)或多個(gè)維度保持不變。這種維度最常見的是時(shí)間，即表明平穩(wěn)性的數(shù)據(jù)不隨時(shí)間而變化。例如，從 9 月到 12 月，表明平穩(wěn)性的數(shù)據(jù)沒有發(fā)生變化。

步 (step)

對一個(gè)批次的向前和向后評(píng)估。

步長 (step size)

是學(xué)習(xí)速率的同義詞。

隨機(jī)梯度下降法 (SGD, stochastic gradient descent)

批次規(guī)模為 1 的一種梯度下降法。換句話說，SGD 依賴于從數(shù)據(jù)集中隨機(jī)均勻選擇的單個(gè)樣本來計(jì)算每步的梯度估算值。

結(jié)構(gòu)風(fēng)險(xiǎn)最小化 (SRM, structural risk minimization)

一種算法，用于平衡以下兩個(gè)目標(biāo)：

期望構(gòu)建最具預(yù)測性的模型（例如損失最低）。
期望使模型盡可能簡單（例如強(qiáng)大的正則化）。

例如，旨在將基于訓(xùn)練集的損失和正則化降至最低的模型函數(shù)就是一種結(jié)構(gòu)風(fēng)險(xiǎn)最小化算法。

如需更多信息，請參閱 http://www.svms.org/srm/。

與經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化相對。

總結(jié) (summary)

在 TensorFlow 中的某一步計(jì)算出的一個(gè)值或一組值，通常用于在訓(xùn)練期間跟蹤模型指標(biāo)。

監(jiān)督式機(jī)器學(xué)習(xí) (supervised machine learning)

根據(jù)輸入數(shù)據(jù)及其對應(yīng)的標(biāo)簽來訓(xùn)練模型。監(jiān)督式機(jī)器學(xué)習(xí)類似于學(xué)生通過研究一系列問題及其對應(yīng)的答案來學(xué)習(xí)某個(gè)主題。在掌握了問題和答案之間的對應(yīng)關(guān)系后，學(xué)生便可以回答關(guān)于同一主題的新問題（以前從未見過的問題）。請與非監(jiān)督式機(jī)器學(xué)習(xí)進(jìn)行比較。

合成特征 (synthetic feature)

一種特征，不在輸入特征之列，而是從一個(gè)或多個(gè)輸入特征衍生而來。合成特征包括以下類型：

將一個(gè)特征與其本身或其他特征相乘（稱為特征組合）。
兩個(gè)特征相除。
對連續(xù)特征進(jìn)行分桶，以分為多個(gè)區(qū)間分箱。

通過標(biāo)準(zhǔn)化或縮放單獨(dú)創(chuàng)建的特征不屬于合成特征。

目標(biāo) (target)

是標(biāo)簽的同義詞。

時(shí)態(tài)數(shù)據(jù) (temporal data)

在不同時(shí)間點(diǎn)記錄的數(shù)據(jù)。例如，記錄的一年中每一天的冬外套銷量就屬于時(shí)態(tài)數(shù)據(jù)。

張量 (Tensor)

TensorFlow 程序中的主要數(shù)據(jù)結(jié)構(gòu)。張量是 N 維（其中 N 可能非常大）數(shù)據(jù)結(jié)構(gòu)，最常見的是標(biāo)量、向量或矩陣。張量的元素可以包含整數(shù)值、浮點(diǎn)值或字符串值。

張量處理單元 (TPU, Tensor Processing Unit)

一種 ASIC（應(yīng)用專用集成電路），用于優(yōu)化 TensorFlow 程序的性能。

張量等級(jí) (Tensor rank)

請參閱等級(jí)。

張量形狀 (Tensor shape)

張量在各種維度中包含的元素?cái)?shù)。例如，張量 [5, 10] 在一個(gè)維度中的形狀為 5，在另一個(gè)維度中的形狀為 10。

張量大小 (Tensor size)

張量包含的標(biāo)量總數(shù)。例如，張量 [5, 10] 的大小為 50。

TensorBoard

一個(gè)信息中心，用于顯示在執(zhí)行一個(gè)或多個(gè) TensorFlow 程序期間保存的摘要信息。

TensorFlow

一個(gè)大型的分布式機(jī)器學(xué)習(xí)平臺(tái)。該術(shù)語還指 TensorFlow 堆棧中的基本 API 層，該層支持對數(shù)據(jù)流圖進(jìn)行一般計(jì)算。

雖然 TensorFlow 主要應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域，但也可用于需要使用數(shù)據(jù)流圖進(jìn)行數(shù)值計(jì)算的非機(jī)器學(xué)習(xí)任務(wù)。

TensorFlow Playground

一款用于直觀呈現(xiàn)不同的超參數(shù)對模型（主要是神經(jīng)網(wǎng)絡(luò)）訓(xùn)練的影響的程序。要試用 TensorFlow Playground，請前往 http://playground.tensorflow.org。

TensorFlow Serving

一個(gè)平臺(tái)，用于將訓(xùn)練過的模型部署到生產(chǎn)環(huán)境。

測試集 (test set)

數(shù)據(jù)集的子集，用于在模型經(jīng)由驗(yàn)證集的初步驗(yàn)證之后測試模型。

與訓(xùn)練集和驗(yàn)證集相對。

tf.Example

一種標(biāo)準(zhǔn)的 proto buffer，旨在描述用于機(jī)器學(xué)習(xí)模型訓(xùn)練或推斷的輸入數(shù)據(jù)。

時(shí)間序列分析 (time series analysis)

機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的一個(gè)子領(lǐng)域，旨在分析時(shí)態(tài)數(shù)據(jù)。很多類型的機(jī)器學(xué)習(xí)問題都需要時(shí)間序列分析，其中包括分類、聚類、預(yù)測和異常檢測。例如，您可以利用時(shí)間序列分析根據(jù)歷史銷量數(shù)據(jù)預(yù)測未來每月的冬外套銷量。

訓(xùn)練 (training)

確定構(gòu)成模型的理想?yún)?shù)的過程。

訓(xùn)練集 (training set)

數(shù)據(jù)集的子集，用于訓(xùn)練模型。

與驗(yàn)證集和測試集相對。

轉(zhuǎn)移學(xué)習(xí) (transfer learning)

將信息從一個(gè)機(jī)器學(xué)習(xí)任務(wù)轉(zhuǎn)移到另一個(gè)機(jī)器學(xué)習(xí)任務(wù)。例如，在多任務(wù)學(xué)習(xí)中，一個(gè)模型可以完成多項(xiàng)任務(wù)，例如針對不同任務(wù)具有不同輸出節(jié)點(diǎn)的深度模型。轉(zhuǎn)移學(xué)習(xí)可能涉及將知識(shí)從較簡單任務(wù)的解決方案轉(zhuǎn)移到較復(fù)雜的任務(wù)，或者將知識(shí)從數(shù)據(jù)較多的任務(wù)轉(zhuǎn)移到數(shù)據(jù)較少的任務(wù)。

大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)都只能完成一項(xiàng)任務(wù)。轉(zhuǎn)移學(xué)習(xí)是邁向人工智能的一小步；在人工智能中，單個(gè)程序可以完成多項(xiàng)任務(wù)。

真負(fù)例 (TN, true negative)

被模型正確地預(yù)測為負(fù)類別的樣本。例如，模型推斷出某封電子郵件不是垃圾郵件，而該電子郵件確實(shí)不是垃圾郵件。

真正例 (TP, true positive)

被模型正確地預(yù)測為正類別的樣本。例如，模型推斷出某封電子郵件是垃圾郵件，而該電子郵件確實(shí)是垃圾郵件。

真正例率（true positive rate, 簡稱 TP 率）

是召回率的同義詞，即：

干貨來襲，谷歌最新機(jī)器學(xué)習(xí)術(shù)語表（下）

真正例率是 ROC 曲線的 y 軸。

無標(biāo)簽樣本 (unlabeled example)

包含特征但沒有標(biāo)簽的樣本。無標(biāo)簽樣本是用于進(jìn)行推斷的輸入內(nèi)容。在半監(jiān)督式和非監(jiān)督式學(xué)習(xí)中，無標(biāo)簽樣本在訓(xùn)練期間被使用。

非監(jiān)督式機(jī)器學(xué)習(xí) (unsupervised machine learning)

訓(xùn)練模型，以找出數(shù)據(jù)集（通常是無標(biāo)簽數(shù)據(jù)集）中的模式。

非監(jiān)督式機(jī)器學(xué)習(xí)最常見的用途是將數(shù)據(jù)分為不同的聚類，使相似的樣本位于同一組中。例如，非監(jiān)督式機(jī)器學(xué)習(xí)算法可以根據(jù)音樂的各種屬性將歌曲分為不同的聚類。所得聚類可以作為其他機(jī)器學(xué)習(xí)算法（例如音樂推薦服務(wù)）的輸入。在很難獲取真標(biāo)簽的領(lǐng)域，聚類可能會(huì)非常有用。例如，在反濫用和反欺詐等領(lǐng)域，聚類有助于人們更好地了解相關(guān)數(shù)據(jù)。

非監(jiān)督式機(jī)器學(xué)習(xí)的另一個(gè)例子是主成分分析 (PCA)。例如，通過對包含數(shù)百萬購物車中物品的數(shù)據(jù)集進(jìn)行主成分分析，可能會(huì)發(fā)現(xiàn)有檸檬的購物車中往往也有抗酸藥。

請與監(jiān)督式機(jī)器學(xué)習(xí)進(jìn)行比較。

驗(yàn)證集 (validation set)

數(shù)據(jù)集的一個(gè)子集，從訓(xùn)練集分離而來，用于調(diào)整超參數(shù)。

與訓(xùn)練集和測試集相對。

權(quán)重 (weight)

線性模型中特征的系數(shù)，或深度網(wǎng)絡(luò)中的邊。訓(xùn)練線性模型的目標(biāo)是確定每個(gè)特征的理想權(quán)重。如果權(quán)重為 0，則相應(yīng)的特征對模型來說沒有任何貢獻(xiàn)。

寬度模型 (wide model)

一種線性模型，通常有很多稀疏輸入特征。我們之所以稱之為“寬度模型”，是因?yàn)檫@是一種特殊類型的神經(jīng)網(wǎng)絡(luò)，其大量輸入均直接與輸出節(jié)點(diǎn)相連。與深度模型相比，寬度模型通常更易于調(diào)試和檢查。雖然寬度模型無法通過隱藏層來表示非線性關(guān)系，但可以利用特征組合、分桶等轉(zhuǎn)換以不同的方式為非線性關(guān)系建模。

與深度模型相對。

（完）

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

6人收藏

相關(guān)文章

汪思穎

編輯

關(guān)注AI學(xué)術(shù)，例如論文

發(fā)私信

當(dāng)月熱門文章