Google 於 2015 年所提出的人臉辨識系統 Facenet,由於演算原理容易理解且應用方便,成為目前最流行的臉部識別技術。本篇文章介紹 Facenet 的辨識模型和架構,並在 Keras 環境下實際測試。
近年來透過深度學習以及 CNN,不但開啟了人臉辨識領域的新紀元,也讓傳統的 LBP、HOG 搭配支援向量機 SVM 的辨識方法顯得落伍。這些複雜的深度學習模型不但辨識率極高,而且能識別的人數級別與相片總量也都以萬級來計算,若侷限於學術的實驗情境下與人眼來比較,這成績已經遠遠抛開我們肉眼的能力了。
2015 年由 Google 所提出的 Facenet,在 LFW 人臉資料庫以 99.63% 的最佳成績刷新了記錄,由於其易於理解的演算原理以及應用方便,使得 Facenet 在眾多競爭者中(如 DeepFace、DeepID、Face++…等)異軍突起,成為目前最流行的臉部識別技術。下面,我們大致來瞭解一下 Facenet,並且學習如何來使用它。
Ps. LFW 資料集中收錄了 5749 位公眾人物的人臉影像,總共有超過一萬三千多張影像檔案。但大部份公眾人物的影像都只有一張,只有 1680 位有超過一張照片,而極少數有超過 10 張照片(台大計算中心網站連結)。
輸出量化特徵值,而非輸出分類結果
下圖是標準的臉部辨識作業流程,首先 1.針對輸入的影片或相片進行臉孔偵測 Face Detection,接著 2.進行臉部校正對齊 Face Alignment,然後開始 3.依據不同的算法來取得臉部的特徵 Feature Extraction,有了特徵,傳統的作法是 4.據此來計算與匹配不同的臉孔圖片,最後 5.透過 softmax 輸出至各分類結果,但 Facenet 則不然,模型所輸出的是該臉孔特徵的歐式距離總和。
只需不到短短一分鐘...
輸入您的信箱與ID註冊即可享有一切福利!
會員福利
免費電子報
會員搶先看
主題訂閱
好文收藏