作者:林宏沛
在Edge AI的應用中,影像的即時處理與AI應用可說是近年來主流的應用之一,舉凡像是廣電、醫療、教育、安防、工業自動化、直播等專業領域,都陸續導入AI應用。然而在影像AI應用中,光是搞定AI方面的訓練仍是不夠的,還要搭配專業的影像採集,以及強大的AI平台,方能讓影像AI的應用達到更上一層樓的境界。
從專業視訊擷取卡出發的聰泰科技,以自身在專業影像領域的經驗,搭配AI團隊,推出搭配OpenVINO平台的影像AI解決方案,幫助工程師輕鬆將傳統的監控應用升級到AI級的影像應用。
從影像採集開始,在AI開始前必須處理好的三大步驟
影像AI的應用很多,但前提要先處理好錄影、遠端監看,以及影像採集,並能同步處理多路影像,以完整串流顯示或呈現出來。因此影像AI應用的基本功,就是要能搞定影像的採集、錄影與串流。

影像AI應用的基本功:影像採集、錄影與串流
當今視訊採集的來源很多,除了一般的視訊相機、網路攝影機之外,還有一些高階的影像或是光學設備,這些設備大多提供廣泛流行的介面,諸如HDMI、VGA、DVI、S-Video、Composite、SDI、YPbPr等等。而影像採集卡的主要功能,就是提供上述的視訊至電腦之間的連結,賦予專業用戶能夠將一些沒與電腦連接的專業設備,透過擷取的方式與電腦進行連結,以便進行AI影像的相關應用。
以往還沒加入AI機制的傳統監控應用,大多是影像來源(監視攝影機、IP Camera等),經由影像擷取卡或是NVR之類的機器,將各路影像擷取並儲存好,以做為日後調用查看的依據。然後若有需要調閱這些錄影時,使用者就必須從這些錄影存檔中一一查看,以撈出重要片段,這樣可說是耗時費力的工作。
而新一代加入AI機制的影像AI的資料處理流程,則是影像來源經過視訊採集卡之後,提供錄影、串流、深度學習等三個重要功能。先說明錄影部份,由於各種影像來源的格式不同,錄影的格式也有不同(如H.264、H.265),加上必須滿足多路的錄影需求,影像採集卡必須能做到每個畫格都能完整擷取並錄影下來。至於串流部份,隨著5G行動網路的流行,系統在傳遞影像時,延遲必須越低越好,以達到分散式處理,將資料傳遞至Edge或是伺服器端以達到即時處理的需求。
至於在深度學習與AI方面,由於僅處理影像分析辨識這個工作是不夠的,還要同時處理好影像的錄影,以及遠端監看。並能達到同步處理這些多路的影像資料,讓您的錄影資料是帶有AI訊息的,好讓使用者在影像回放,能快速找到重要片段,降低時間與人力。因此整個影像AI智慧系統,必須顧及上述三個步驟,且每個步驟都是環環相扣的。
工程師面臨的跨系統挑戰,VideoAI SDK幫您整合好
聰泰的軟體團隊,累積多年服務客戶的經驗,推出了針對影像AI的SDK (軟體開發工具),包含QCAP (Quick Capture)與QDEEP (Quick Deep Learning)兩大類互補的SDK。其中QCAP的主要特色,就是把上述擷取、錄影、串流等視訊相關的雜事搞定,而QDEEP則提供整合的深度學習應用解決方案,讓工程師在撰寫影像AI相關應用程式時,可以達到跨平台、跨作業系統、跨處理器的目標。
對多數人來說,影像AI的應用開發門檻相當高,但QCAP與QDEEP SDK的程式撰寫,只要三個步驟,就可以搞定影像擷取/採集,以及影像辨識的需求。前者主要是選定需要採集之即時影像與聲音來源,而後者則只要選定使用哪種處理器(GPU、CPU、NPU),以及Open AI Model,然後將資料餵給AI訓練模型,以獲得處理結果。
打破Edge AI的影像效能瓶頸,Intel Tiger Lake搭配OpenVINO平台提供絕佳表現
影像AI處理方面,由於錄影的資料大多數是YUV格式,而AI分析則以RGB為主,因此不少影像AI的方案在影像的前後處理上,都必須花了不少時間,需要搭配強大硬體平台來處理。對此,聰泰解決了這部份的效能瓶頸,只要工程師提供AI訓練模型所需要的正確格式(例如INT8、FP16、FP32),就可減少格式轉換時所耗費的時間。
至於處理過AI之後的Metadata,如何與原先影像做OSD Overlay,還有資料如何存放(例如H.264 + AI Metadata),讓即使像是Full HD @120 FPS的需求下,也能達到即時採集、錄影、AI處理,這些也都是Know-how所在。為此,聰泰也與Intel合作,在最新Tiger Lake處理器平台,搭配OpenVINO AI平台下,打造出高效能、平價化的AI應用平台。
OpenVINO平台應用到Intel CPU與GPU以及H.264與H.265硬體視訊編解碼的優勢,讓影像AI的處理更快速。如今推展到Tiger Lake第11代Intel® Core™處理器平台之後,效能也更上一層樓。先說明視訊編解碼的效能部份(CODEC Power),以Tiger Lake Celeron 6305U為例,處理單路4K60影像可說是輕而易舉,縱使四路4K30影像也不掉幀。而在Tiger Lake Core i7,更可輕鬆處理到六路4K30,或是四路4K60的目標。對於影像AI開發者來說,不需要選擇高昂費用的額外GPU或是NPU等硬體資源,即可滿足Edge AI即時與不掉幀的需求。
再來看看AI處理效能部份(AI Power),以車牌辨識(LPR)應用測試實例來看,Tiger Lake平台在單路1080P以GPU運算可達30FPS,而用CPU運算也有15FPS。縱使4路1080P下,i7 GPU也能達到15FPS。
AI模型涵蓋各領域,搭配影像採集卡,輕鬆搞定各式AI應用
QDEEP在整合的AI模型中,目前包含了:教育應用、人臉辨識、美顏/背景濾除、EPTZ影像自動放大追蹤、運動員骨架動作追蹤、多車牌辨識、產品辨識、Segmentation(物件偵測)、交通(車種辨識與行駛軌跡)…等等,此外在案例研究與合作方面,聰泰團隊在醫療方面,也與台大醫院肝癌權威許金川教授合作,將超音波肝臟掃描技術,整合到醫學影像AI領域,以期提供更精準的醫療輔助相關結果,協助醫生判定病人症狀。
整體而言,要完善整個影像AI應用,除了AI訓練與應用平台要搞定之外,還要注重影像的處理,包含能夠滿足即時採集、錄影、串流,若能提供影像AI的各種辨識與事件偵測等功能,則可簡化開發流程。而聰泰的解決方案,除了上述之外,還提供各式AI訓練模型,搭配OpenVINO的平價硬體平台,即可讓影像AI的開發與應用更加容易,甚至能在半小時內完成一個AI應用,值得AI開發者們參考!
(作者為聰泰科技研發副總經理,責任編輯:謝涵如)
【延伸學習】
想更深入學習本文內容,可至《MakerPRO數位學習平台》收看完整教學影片。
- 影像採集結合深度學習,打破Edge AI的影像效能瓶頸 - 2021/04/15
訂閱MakerPRO知識充電報
與40000位開發者一同掌握科技創新的技術資訊!