手把手教你在瀏覽器中使用臉部識別軟件包

本文作者： AI研習(xí)社-譯站

2018-07-19 17:41

導(dǎo)語：媽媽再也不用擔(dān)心我分不清楚網(wǎng)紅臉了

雷鋒網(wǎng)按：本文為雷鋒字幕組編譯的技術(shù)博客，原標(biāo)題 face-api.js?—?JavaScript API for Face Recognition in the Browser with tensorflow.js，作者為 Vincent Mühler 。

翻譯 | 王飛趙朋飛整理 | MY

手把手教你在瀏覽器中使用臉部識別軟件包

我可以很激動地說，我們終于有可能在瀏覽器中運行人臉識別程序了！在這篇文章中，我會給大家介紹一個基于 TensorFlow.js 核心的 JavaScript 模塊，這個模塊叫做 face-api.js。為了實現(xiàn)人臉檢測、人臉識別以及人臉特征點檢測的目的，該模塊分別實現(xiàn)了三種類型的卷積神經(jīng)網(wǎng)絡(luò)。

和往常一樣，我們先看一個簡單一點的代碼實例，用幾行的代碼以便能夠讓大家可以直接開始使用這個包。我們開始吧！

第一個 face-recognition.js，那么現(xiàn)在還有其他包嗎？

如果你有閱讀過我的另外一篇關(guān)于 nodejs 進行人臉識別方面的文章：Node.js+face-recognition.js: Simple and Robust Face Recognition using Deep Learning , 你可能會意識到，一段時間以前，我構(gòu)建過一個相似的包。比方說三個 face-recognition.js，將人臉識別功能引入 nodejs 當(dāng)中。

起初，我沒有想到在 javascript 社區(qū)中對臉部識別軟件包的需求如此之高。對于很多人來說，face-recognition.js 似乎是一個很不錯的免費軟件包了，另外也有像微軟和亞馬遜提供的付費軟件包。但是，一直有人問我能否在瀏覽器中完整地運行整個人臉識別的流程

最后的答案是肯定的，多虧了 tensorflow.js，利用好 tfjs-core, 我成功實現(xiàn)了部分相似的工具，這些小工具能夠讓你得到和使用 face-recognition.js 幾乎相似的運行結(jié)果，并且是在瀏覽器中。而且最棒的一點是你不需要再安裝任何依賴項，它可以直接運行。額外的好處是它還支持 GPU 加速，在 WebGL 上運行操作。

這足讓我相信 JavaScript 社區(qū)需要這樣的瀏覽器軟件包！接下來就是發(fā)揮你自己的想象力，你可以用這個來構(gòu)建各種各樣的應(yīng)用程序。：）

如何用深度學(xué)習(xí)來解決人臉識別的問題

如果你是那種想要盡快開始的人（或妹子），你可以跳過這一部分并直接跳到代碼部分。但為了更好地理解 face-api.js 中用于實現(xiàn)人臉識別的方法，我強烈建議你按照步驟來，因為我經(jīng)常被問到這一部分的問題。

為了簡單起見，我們實際想要實現(xiàn)的是給定一個人的臉部圖像然后對他/她進行識別，給定的圖像即輸入圖像。我們解決這個問題的方法是為每個我們想要識別的人提供一個（或多個）圖像，并用人名稱標(biāo)記，即參考數(shù)據(jù)?，F(xiàn)在我們將輸入圖像與參考數(shù)據(jù)進行比較，并找到最相似的參考圖像。如果兩個圖像足夠相似，那我們就輸出人名，否則我們輸出'未知'。

聽起來像是個不錯的計劃！但是這里仍存在兩個問題。首先，如果我們有一張顯示多個人的圖像，并且我們想要識別所有這些圖像，那該怎么辦呢？其次，我們還需要能夠獲得度量兩張人臉圖像的相似性的量，以便進行比較。

人臉檢測

第一個問題的答案是人臉檢測。簡單地說，我們首先找到輸入圖像中的所有的人臉。對于人臉檢測，face-api.js 實現(xiàn)了 SSD（Single Shot Multibox Detector），它基本上是一個基于 MobileNetV1 的 CNN，在網(wǎng)絡(luò)頂部疊加了一些額外的預(yù)測層。

這個網(wǎng)絡(luò)返回包圍每張臉的 bounding box，以及其對應(yīng)的分?jǐn)?shù)，即每個 boundingbox 中包含人臉的概率。這里的分?jǐn)?shù)用于過濾邊界框，因為圖像中可能根本不包含人臉。另外要注意的是，即使圖像中只有一個人，為了得到 boundingbox，也應(yīng)該首先進行人臉檢測這一步驟。

手把手教你在瀏覽器中使用臉部識別軟件包

人臉特征點檢測與人臉對齊

第一個問題解決了但是，我想指出我們接下來要對齊邊界框，在將它們傳遞到面部識別網(wǎng)絡(luò)之前，為每個框提取以面部為中心的圖像，因為這樣可以使面部識別更準(zhǔn)確！

針對這個目標(biāo)。face-api.js 已經(jīng)實現(xiàn)了一個簡單的 CNN，這個網(wǎng)絡(luò)能夠返回給定人臉圖片的 68 個臉部特征點。

手把手教你在瀏覽器中使用臉部識別軟件包

根據(jù)特征點的位置，boundingbox 可以被確定在臉部的中心。下面顯示的是人臉檢測的結(jié)果（左）以及人臉對齊后的結(jié)果（右）。

手把手教你在瀏覽器中使用臉部識別軟件包

人臉識別

現(xiàn)在我們可以將提取和對齊的人臉圖像提供給人臉識別網(wǎng)絡(luò)，該網(wǎng)絡(luò)基于類似 ResNet-34 的體系結(jié)構(gòu)，基本上與 dlib 中實現(xiàn)的體系結(jié)構(gòu)相對應(yīng)。該網(wǎng)絡(luò)已經(jīng)被訓(xùn)練，能夠?qū)W習(xí)將人臉的特征映射到一個人臉描述器上（具有 128 個值的特征向量），這一過程通常也被稱為面部嵌入。

現(xiàn)在回到我們最開始比較兩張臉的這個問題上：我們將使用每個提取的面部圖像的面部描述符，并將它們與參考數(shù)據(jù)的面部描述符進行比較。更確切地說，我們可以計算兩個面部描述符之間的歐氏距離，并基于閾值判斷兩個面是否相似（對于 150×150 大小的面部圖像來說，0.6 是比較好的閾值）。使用歐幾里德距離的效果非常好，但當(dāng)然你也可以使用你選擇的任何類型的分類器。以下 gif 可視化了兩張圖片通過歐幾里德距離進行比較的過程。

手把手教你在瀏覽器中使用臉部識別軟件包