影像採集結合深度學習，打破Edge AI的影像效能瓶頸

Posted By 林宏沛 on 4 月 15, 2021 in Edge AI開發地圖, Intel, OpenVINO, OpenVINO專欄, OpenVINO教學文, 影像處理, 教學文 | 0 comments

作者：林宏沛

在Edge AI的應用中，影像的即時處理與AI應用可說是近年來主流的應用之一，舉凡像是廣電、醫療、教育、安防、工業自動化、直播等專業領域，都陸續導入AI應用。然而在影像AI應用中，光是搞定AI方面的訓練仍是不夠的，還要搭配專業的影像採集，以及強大的AI平台，方能讓影像AI的應用達到更上一層樓的境界。

從專業視訊擷取卡出發的聰泰科技，以自身在專業影像領域的經驗，搭配AI團隊，推出搭配OpenVINO平台的影像AI解決方案，幫助工程師輕鬆將傳統的監控應用升級到AI級的影像應用。

從影像採集開始，在AI開始前必須處理好的三大步驟

影像AI的應用很多，但前提要先處理好錄影、遠端監看，以及影像採集，並能同步處理多路影像，以完整串流顯示或呈現出來。因此影像AI應用的基本功，就是要能搞定影像的採集、錄影與串流。

影像AI應用的基本功：影像採集、錄影與串流

當今視訊採集的來源很多，除了一般的視訊相機、網路攝影機之外，還有一些高階的影像或是光學設備，這些設備大多提供廣泛流行的介面，諸如HDMI、VGA、DVI、S-Video、Composite、SDI、YPbPr等等。而影像採集卡的主要功能，就是提供上述的視訊至電腦之間的連結，賦予專業用戶能夠將一些沒與電腦連接的專業設備，透過擷取的方式與電腦進行連結，以便進行AI影像的相關應用。

透過影像採集卡來擷取各種週邊影像資料，以便進行AI影像應用

以往還沒加入AI機制的傳統監控應用，大多是影像來源（監視攝影機、IP Camera等），經由影像擷取卡或是NVR之類的機器，將各路影像擷取並儲存好，以做為日後調用查看的依據。然後若有需要調閱這些錄影時，使用者就必須從這些錄影存檔中一一查看，以撈出重要片段，這樣可說是耗時費力的工作。

而新一代加入AI機制的影像AI的資料處理流程，則是影像來源經過視訊採集卡之後，提供錄影、串流、深度學習等三個重要功能。先說明錄影部份，由於各種影像來源的格式不同，錄影的格式也有不同（如H.264、H.265），加上必須滿足多路的錄影需求，影像採集卡必須能做到每個畫格都能完整擷取並錄影下來。至於串流部份，隨著5G行動網路的流行，系統在傳遞影像時，延遲必須越低越好，以達到分散式處理，將資料傳遞至Edge或是伺服器端以達到即時處理的需求。

至於在深度學習與AI方面，由於僅處理影像分析辨識這個工作是不夠的，還要同時處理好影像的錄影，以及遠端監看。並能達到同步處理這些多路的影像資料，讓您的錄影資料是帶有AI訊息的，好讓使用者在影像回放，能快速找到重要片段，降低時間與人力。因此整個影像AI智慧系統，必須顧及上述三個步驟，且每個步驟都是環環相扣的。

工程師面臨的跨系統挑戰，VideoAI SDK幫您整合好

聰泰的軟體團隊，累積多年服務客戶的經驗，推出了針對影像AI的SDK （軟體開發工具），包含QCAP (Quick Capture)與QDEEP (Quick Deep Learning)兩大類互補的SDK。其中QCAP的主要特色，就是把上述擷取、錄影、串流等視訊相關的雜事搞定，而QDEEP則提供整合的深度學習應用解決方案，讓工程師在撰寫影像AI相關應用程式時，可以達到跨平台、跨作業系統、跨處理器的目標。

聰泰推出加速影像AI應用開發的2套SDK

對多數人來說，影像AI的應用開發門檻相當高，但QCAP與QDEEP SDK的程式撰寫，只要三個步驟，就可以搞定影像擷取/採集，以及影像辨識的需求。前者主要是選定需要採集之即時影像與聲音來源，而後者則只要選定使用哪種處理器（GPU、CPU、NPU），以及Open AI Model，然後將資料餵給AI訓練模型，以獲得處理結果。

透過QDEEP SDK三步驟搞定影像辨識的需求

打破Edge AI的影像效能瓶頸，Intel Tiger Lake搭配OpenVINO平台提供絕佳表現

影像AI處理方面，由於錄影的資料大多數是YUV格式，而AI分析則以RGB為主，因此不少影像AI的方案在影像的前後處理上，都必須花了不少時間，需要搭配強大硬體平台來處理。對此，聰泰解決了這部份的效能瓶頸，只要工程師提供AI訓練模型所需要的正確格式（例如INT8、FP16、FP32），就可減少格式轉換時所耗費的時間。

聰泰SDK可加速影像AI方案在影像的前後處理工作

至於處理過AI之後的Metadata，如何與原先影像做OSD Overlay，還有資料如何存放（例如H.264 + AI Metadata），讓即使像是Full HD @120 FPS的需求下，也能達到即時採集、錄影、AI處理，這些也都是Know-how所在。為此，聰泰也與Intel合作，在最新Tiger Lake處理器平台，搭配OpenVINO AI平台下，打造出高效能、平價化的AI應用平台。

OpenVINO平台應用到Intel CPU與GPU以及H.264與H.265硬體視訊編解碼的優勢，讓影像AI的處理更快速。如今推展到Tiger Lake第11代Intel® Core™處理器平台之後，效能也更上一層樓。先說明視訊編解碼的效能部份（CODEC Power），以Tiger Lake Celeron 6305U為例，處理單路4K60影像可說是輕而易舉，縱使四路4K30影像也不掉幀。而在Tiger Lake Core i7，更可輕鬆處理到六路4K30，或是四路4K60的目標。對於影像AI開發者來說，不需要選擇高昂費用的額外GPU或是NPU等硬體資源，即可滿足Edge AI即時與不掉幀的需求。

再來看看AI處理效能部份（AI Power），以車牌辨識（LPR）應用測試實例來看，Tiger Lake平台在單路1080P以GPU運算可達30FPS，而用CPU運算也有15FPS。縱使4路1080P下，i7 GPU也能達到15FPS。

AI模型涵蓋各領域，搭配影像採集卡，輕鬆搞定各式AI應用

QDEEP在整合的AI模型中，目前包含了：教育應用、人臉辨識、美顏/背景濾除、EPTZ影像自動放大追蹤、運動員骨架動作追蹤、多車牌辨識、產品辨識、Segmentation（物件偵測）、交通（車種辨識與行駛軌跡）…等等，此外在案例研究與合作方面，聰泰團隊在醫療方面，也與台大醫院肝癌權威許金川教授合作，將超音波肝臟掃描技術，整合到醫學影像AI領域，以期提供更精準的醫療輔助相關結果，協助醫生判定病人症狀。

整體而言，要完善整個影像AI應用，除了AI訓練與應用平台要搞定之外，還要注重影像的處理，包含能夠滿足即時採集、錄影、串流，若能提供影像AI的各種辨識與事件偵測等功能，則可簡化開發流程。而聰泰的解決方案，除了上述之外，還提供各式AI訓練模型，搭配OpenVINO的平價硬體平台，即可讓影像AI的開發與應用更加容易，甚至能在半小時內完成一個AI應用，值得AI開發者們參考！

（作者為聰泰科技研發副總經理，責任編輯：謝涵如）