【OpenVINO開發案例】深度 3D 人體重建應用於助聽器選配

Posted By 袁惠冠與黃泰銘 on 3 月 15, 2023 in Edge AI, Edge AI應用案例, Edge AI開發地圖, Intel, OpenVINO, OpenVINO應用, 智慧醫療, 案例研究 | 0 comments

本文由2022 Intel DevCup概念組冠軍「Hearing Edge」團隊所提供。

作品簡述

本作品使用 OpenVINO 進行人體建模（3D），並將其應用於助聽器選配，解決助聽器調整人、事、時、地、物之限制，更展現了數位醫療替身之前瞻運用。

在聽力師為個案選配助聽器時，使用本作品之隱含式三維人體建模技術基於 RGB 影像建立 3D 人體模型，並透過頭部 Refine 模組針對重點部位進行細節調整來達到數位替身之選配輔助，個案僅需輸入一張影像，即可透過此非接觸的 AI 選配技術，來解決實耳測量、個人化調整等臨床上的痛點，並藉由OpenVINO 的優化來部署於真實應用場域（遠程助聽器選配、非處方助聽器個人化調整與居家聽覺照顧）。

開發動機

本團隊為PSA 華科事業群慈善基金會聽覺照顧暨推廣中心袁惠冠聽力師與國立臺灣科技大學資訊工程所碩二生黃泰銘組成。

台灣即將面臨超高齡社會的挑戰，65 歲以上的高齡失能性聽損比例已超過四成，可想而知，未來高齡聽損者的人數必定會出現新的高峰。在未來，聽力損失問題只會更加嚴重，儘管可透過選配助聽器來改善，但是助聽器的選配與調整是關鍵技術，特別是實耳測量是調整助聽器的黃金標準，然而受限於時間、人力與空間限制，無法大量施行，且非處方助聽器開始販售，卻因為缺乏個人化即時調整，導致滿意度降低，銷售後將造成大量問題。因此，助聽器的調整影響了用戶的聽能復健之路能否穩定堅持，而即時準確的個人化選配將成為關鍵。

結合現今元宇宙熱潮、實際場域所遇到之痛點，本團隊利用電腦視覺技術與 AI 技術提出此概念作品，並透由 OpenVINO 優化並部署至邊緣裝置來展示，作為數位醫療替身之前瞻運用。

如何用OpenVINO實現本案的開發

本作品旨為解決現今無法即時準確的個人化選配之痛點。本團隊發現導致此問題重要關鍵包括人 (專業聽力師)、事 (需進行實耳測量來對助聽器進行調整)、時 (需預約可測量之日期時間)、地 (無法到府測量導致偏鄉聽損者降低時常調整意願)、物 (需專業儀器與設備才能完成測量)等因素。

受到元宇宙、數位醫療的啟發並且因為Kelli M. Watts [1] 等人在研究中表明，聽力師在進行實耳測量（Real Ear Measurement, REM）時，發現使用受測者的頭圍加上年齡作為特徵資訊，能夠預測耳道形狀導致共振狀況（RECD），此觀測數據為聽力師選配、調整之重要依據，因此本團隊認為：若是個案能夠經由人體掃描 (照片) 來夠獲取人體相關資訊 (耳朵相關參數)，即可遠端、即時的調整助聽器 (圖 1)。

（圖1）輸入單一 RGB 影像透過深度模型之推論來重建人體模型，以便獲取人體資訊數值。

若要讓數位替身的下游有良好的應用，如何輸入影像來建構數位替身模型就是關鍵技術。基於單影像之人體建模任務，PIFu [2] 提出了影像像素與空間中三維點對齊的方法，隨後PIFuHD [3] 優化來達成高解析度高細節的建模效果，到最近 ICON [4]、ECON [5] 等許多state-of-the-art 的建模方法，除了對輸入姿勢的泛化外，外觀細節也能夠良好的重建出來。

本作品旨在展現數位替身應用於助聽器的選配，系統架構圖為(圖 2)，其中採用最經典之建模方法PIFu [2] 作為人體重建模組，受到 JIFF [6] 啟發，發現頭部細節的優化技術能夠使五官資訊更加準確 (圖 3)，特別是聽力師所需的關鍵參數是要仰賴準確的耳朵建模，因此本系統也加入了頭部 Refine 模組概念，來增強耳朵等細節的重建效果。但在現實中卻存在一些阻礙，如稍微側臉時耳朵可能被遮擋而看不見，因此本團隊也參考 [7] 的方法加入預測臉部 Landmarks 的同時也預測不確定性之概念 (圖 4)。

最後提出使用 DNN 深度模型將重建出的三維人體模型與人體參數做映射轉換的概念，來獲取助聽器調整之最終參數。但由於建模為 3D 模型，需要耗費大量運算資源，本團隊考量到若要實際應用則必須能夠部署至邊緣裝置，決定使用 OpenVINO 針對模型做轉換、優化，並在 Intel NUC 上實機測試、跑分並且取得良好的性能提升。

（圖 2）本概念提案之系統架構圖，其中包含三維人體重建模組、頭部細節優化模組及 DNN 映射網路。

（圖 3）JIFF [2] 提出臉部優化模組來針對五關資訊進行補強。

（圖 4）[7] 建議在預測臉部特徵 Landmarks 加入二維高斯分布來表示是否被遮擋之不確定性。

在實作面上，我們分為兩個部分來介紹：其一為人體重建模組，其二為DNN 映射模組。

人體重建模組：

在最重要的人體重建模組中，現今的單影像重建仍多仰賴監督式學習來訓練模型，而對於立體的人體模型資料也需要巨量的運算資源，在缺乏資料與運算設備的情況下，頭部 Refine 模組與遮擋解決技巧無法透過實作來重新訓練網路，因此，為了呈現整體概念，我們使用 PIFu [2] 所提供的開源程式碼與預訓練權重，做為三維人體重建網路，並使用 OpenVINO 來優化模型，以及重新撰寫基於 OpenVINO 的推論程式碼。

(圖 5) 為人體重建網路的架構圖，主要由特徵提取器 HGFilter 與 SurfaceClassifier 所組成，HGFilter 會對輸入影像進行特徵提取並獲取圖像之特徵向量，之後在三維空間中大量採樣三維點，並基於圖像的特徵向量來對齊預測該點是否於三維人體模型之表面上，透過迭代與採樣進而重建出人體模型。

在 OpenVINO 的轉換上，我們透過 Model Optimizer 工具將 HGFilter 與 SurfaceClassifier 轉換至 FP32、FP16 等格式（本作品最終展示使用 FP16 之模型）。其中因為推論階段再輸入影像後需大量採樣三維空間中的點，每個迭代所採樣的個數不同，就會造成輸入至 SurfaceClassifier 模型時的輸入不同，因此本團隊也引入了 OpenVINO 2022 的 Dynamic Shapes 功能，在創建 Inference Engine 給定輸入大小的上、下限值，接著於每次迭代動態更新輸入大小來符合採樣大小。

（圖 5）PIFu [2] 之模型架構圖。
DNN 映射模組：

若要訓練出能夠映射人體三維資訊與 REM 參數之 DNN 模型需使用大量個案的隱私資料，我們在學術倫理下無法擅自使用、操作未經授權之資料，因此在尚未具備人體研究倫理審查（IRB）的情況下本作品於 DNN 模型採用模擬的方式來呈現，為了使此提案研究更為嚴謹，送件審查為我們的未來工作之一。

最終，本作品使用了 Gradio [8] 來建構出 UI 介面以展示本團隊之提案成果，如(圖 6) 個案僅需輸入一張影像及基本資訊，深度模型即可建構出三維人體數位替身及預測出相關人體關鍵參數（REM 參數……）。