作者:陸向陽
《Intel® DevCup x OpenVINO™ Toolkit》AI創意競賽首獎30萬,正如火如荼徵件中(2021/10/31 23:59截止報名)!
上一篇觀察了Grand Prize的5個得獎作品後,本文則來觀察三個開發者精選獎(Developer Choice Prize),同時也挑選兩個早鳥獎(Early Submission Prize)作品來探討一下。
6. 抓逃票系統(Realtime Fare Evasion Detection From Video Using OpenVINO)
無論國內外總有一些缺德者在車站逃票搭乘讓運輸公司蒙受損失,以紐約市交通局自身統計為例一年即損失達2.15億美元,地鐵佔9600萬,公車佔1.19億,且為成長趨勢。
而且,現行抓逃票是以人工方式收集數據與抽查,數據不全然精準,人工抽查過程也可能帶偏見(被質疑只挑找黑人或看起來是窮人),因此這個提案改用攝影機拍攝,而後以深度學習技術辨識是否逃票,分析方式運用CNN、LSTM演算,也用及OpenVINO Pre-trained模型(Open Model Zoo)中已經預先訓練好的MobileNet SSD偵測器,姿態推估方面也同樣取自OpenVINO的模型。
此提案中也帶入成本概念,概估每一套抓逃票系統約300美元,一個地鐵站裝設五套,472個站約要60萬美元,每一套以樹莓派為主體,搭配Intel NCS 2與OpenVINO所構成。
7. 說書問答機(Teachable Machine)
說書問答機(Teachable Machine)透過攝影機拍攝書頁內容(可以是一段故事,或維基百科文章等),把內容轉化成文字,然後人們可以問書上的問題,問題透過麥克風轉成文字,問答機就會依據原先以轉化成的內容,回應發問的人,可視為一種學習服務機。
硬體方面使用樹莓派與樹莓官方的攝影機,人工智慧加速器為Intel NCS 2,聲音辨識方面則用Seeed ReSpeaker 2,另外搭配2組功率3瓦的喇叭。
機器學習方面用及三個模型。一是Tesseract OCS(基於LSTM),用於OCR辨識,把書頁內容轉成文字,該模型已可以識別100多種語言文字,也可以持續擴充訓練其他語言文字;二是DeepSpeech(TensorFlow Lite模型),用來把語音轉成文字;三是BERT,用來推論人們發話的問題應該對應到哪一段的回答。最後,最合適的回答文字會透過Festival軟體轉成語音發聲。
8. 從X光片偵測新冠肺炎(COVID-19 Detection from X-Ray Using OpenVINO)
這個提案的痛點幾乎不用說明了,全球已超過3,120萬人感染COVID-19,但檢查方式不能很精準,此提案嘗試用胸腔X光片影像辨識的方式提高準確度,目標為90%,但提案者必須聲明在先,這不是COVID-19官方的測試模型,目前為教育學習性的試驗。除了偵測COVID-19外,也期望透過微幅調整數據而能檢查出胸腔的其他疾病。
此提案使用Mendeley數據集,數據集內為COVID-19相關醫療影像,如X光片影像、CT斷層掃描影像,其中無COVID-19的影像約5,500張,有的為4,044張。演算法方面使用具有dropout與flattening的CNN以及MaxPooling層,目前訓練成果以955張圖片進行測試,其推論準確度達92%,花費時間9.34秒。推論過程中也運用OpenVINO技術獲得1.2倍的加速效果。
提案者也提出未來規劃,期望能建構一個線上平台,讓醫生直接上傳X光片影像後,就可以自動透過手機告知用戶推論結果。
9. OpenVINO停車系統(OpenVINO Car Parking System)
現行一些停車場的車空位偵測系統是透過在每個車位旁埋設感測器來實現,此提案則期望直接透過停車場本來就已裝設的保全影像攝影機來偵測空位,省去額外配置感測器的費用。
此提案用一台ThinkPad 13筆記型電腦來跑,該電腦沒有GPU可用來加速執行機器學習,但有一顆高階的處理器Intel i7-6500U,然後搭配使用OpenVINO、深度學習物體偵測的YOLOv3,並且用Docker來執行運作。
提案者是首次開發與機器視覺相關的創作項目,對於OpenVINO能實現深度學習的能力感到相當驚訝,因為一切都在CPU上運行,而且很有效率。
10. 智慧垃圾拾撿車(Intel Smart Garbage Picker)
全球各處有龐大垃圾堆積的問題,提案者嘗試開發一台自己能移動、自己能分辨垃圾類型,而後把相同的垃圾抓放在一起的機器。
在硬體方面,為了能移動使用上24V充電電池、Arduino、SpunkFun A4988步進馬達驅動電路板、馬達、軸承、驅動輪等,為了能捕捉而使用上螺桿,以及運用3D列印打造一些特製的機械部件。
機器學習方面使用trashnet的資料集來建立模型,其中有2,527張照片,包含501張玻璃、594張紙、403張紙板、482張塑料、410張金屬,以及137張單純垃圾。過程中同樣運用上OpenVINO工具包已加速整個程序,否則需要更多次的迭代才能完成工作。
結尾
以上筆者簡述五個提案,但也無法詳述所有技術細節,且還有許多有趣的提案未提到,有興趣的讀者可直接到官網瀏覽。若你看過想動手實做,歡迎來參加Intel舉辦的《Intel® DevCup x OpenVINO™ Toolkit》創意競賽,還有高額獎金等你來拿喔。
(責任編輯:謝涵如)
- 產業級Arduino也擁抱LLM AI - 2025/01/24
- 2025年CES展AI類創新獎觀察 - 2025/01/09
- NVIDIA讓TensorRT-LLM推論效率增速三倍 - 2025/01/06