|

從工具到落地 OpenVINO引領多模態AI新時代

   

延續多模態AI的熱度,由英特爾(Intel)在8月19日主辦的2025年第二場OpenVINO DevCon線上講座,聚焦OpenVINO 2025.2最新版本的技術升級,並延伸至認知型AI (Cognitive AI)與多模態檢索增強生成(RAG)的應用場景,最後還邀請來自學界的專家分享了多模態大模型(MLLM)實際落地的案例。

Intel平台研發協理王宗業在講座開場表示,AI近兩三年在虛擬世界快速發展,從ChatGPT到各種AI Agent與MCP等應用,皆展現了亮眼的成果;這些成功的經驗激勵大家開始更積極思考如何將 AI 從「零與一」的數位環境,推向充滿變數與複雜組合的實體世界。為了呼應這樣的挑戰,本次線上講座首先介紹多模態RAG與視覺語言應用的未來,並說明OpenVINO 如何作為基礎建設支援開發;其次透過具體案例分享,展示OpenVINO在產業實踐中的選擇與應用,期望能為開發者在實體世界落地 AI 提供更多工具與啟發。

OpenVINO 2025.2:GenAI開發新引擎

英特爾AI軟體工程師楊亦誠強調,新版OpenVINO最核心的價值在於「讓AI不再只是雲端巨頭的專利,而能真正進入開發者社群與產業現場;」新版提供了完整的 GenAI 開發流程,支援文字生成、圖像生成、圖像修補(Inpainting)、語音轉錄與翻譯,甚至包括大型視覺語言模型(VLM)的推理能力。透過Optimum-Intel函式庫與HuggingFace Hub的緊密結合,開發者只需簡單指令,就能將雲端公開模型轉換並部署到OpenVINO環境,大幅降低應用門檻。

值得注意的是,OpenVINO 2025.2 也新增了對GGUF模型格式的支援,這讓Llama、Qwen 與DeepSeek等主流模型能在邊緣裝置上高效執行。楊亦誠在演講中現場展示了MiniCPM4 與MCP Agent的範例,並結合ComfyUI視覺化介面,讓參與者直觀感受到「拖拉模組就能完成AI流程設計」的便利性。這些更新不僅展現了Intel在軟硬體整合上的優勢,也釋放出一個訊號:AI開發正在走向更民主化、更貼近產業需求的方向。

OpenVINO 2025.2 新增了對GGUF模型格式的支援。(圖片來源:Intel)

OpenVINO 2025.2新增了對GGUF模型格式的支援。(圖片來源:Intel)

認知型AI與多模態RAG:AI Agent的新時代

緊接著英特爾AI軟體傳教士武卓帶領聽眾探索認知型AI與多模態推論的發展,強調認知型AI的價值在於不只是辨識與生成,而是能夠整合不同模態的資訊,進行推論並給出決策。她也示範如何運用OpenVINO與 Optimum-Intel 函式庫,來最佳化並部署多模態編碼器與LLM,打造強大且實用的認知型AI系統。

武卓指出,所謂的認知型AI就是要能夠「在真實世界中自動化複雜任務,並且提升人類的決策效率;」並透過示範案例向聽眾示範電商如何透過圖文檢索快速比對商品、客服系統如何結合照片與知識庫提供即時解答,以及醫療領域如何將新的放射影像與舊病歷比對,協助醫師做出更可靠的診斷。

認知型AI的現實世界應用(圖片來源:Intel)

以上這些應用背後的核心流程就是多模態RAG;武卓進一步解釋,RAG的運作方式包括資料蒐集、跨模態嵌入與索引,再搭配LLM或VLM的推論生成,最終完成更精準的回答;「結合影像、影片、文字與醫療影像的多模態嵌入,將使得檢索結果更貼近人類語意,而不僅僅是關鍵字比對。」

另一個重要趨勢是代理式AI。透過 Model Context Protocol (MCP),AI代理能在IDE、資料庫與API之間自動協作,執行包括數據分析、客服回覆,甚至軟體開發中的單元測試與除錯等工作。武卓強調,未來的AI將不只是單一模型,而是「一個由多個Agent協同組成的系統,它們能夠自主規劃並執行任務,並且在必要時調用外部工具;」這些工作流可以在本地AI PC上運行,確保資料隱私與低延遲回應,讓AI真正成為「電腦操作代理」,幫助用戶完成日常工作。

以多模態RAG與OpenVINO建立的多代理工作流程(圖片來源:Intel)

以多模態RAG與OpenVINO建立的多代理工作流程(圖片來源:Intel)

產業實踐:MLLM與OpenVINO的融合

此次線上講座的壓軸部分是由僑光科技大學助理教授陳紀翰帶來MLLM的產業應用案例,展示多模態模型如何真正落地。他以Phi-3 Vision模型為例,展現了從科學知識推理、圖文理解,到邏輯運算的多種應用。他曾使用該模型測試「雞兔同籠問題」,並發現模型能正確推導數量,顯示其具備基礎邏輯推理能力。

在實務應用上,他更進一步結合 YOLOv8 物件偵測,解決了單純依靠 MLLM 容易誤判的問題,例如在魚塭監控中辨識死魚,以及在環境檢測中偵測煙霧。他指出,這樣的技術「能讓模型真正成為產業的專業助手,而不是紙上談兵的研究成果」。

(圖片來源:陳紀翰)

動手實踐腦海中的創意!

從 OpenVINO 2025.2 的全面升級,到認知AI的多模態推理應用,再到學界與產業的落地案例,在論壇的尾聲,王宗業強調,Intel的解決方案能協助開發者降低維護成本,並在既有CPU 基礎上持續疊加更強大的AI 能力,這樣的演進不僅讓系統升級更簡單,成本也能保持穩定。

他也鼓勵與會者「聽完我們的分享之後也真的去動手,試試看動手實現自己想做的東西!」因為當下的AI PC已經能解決過去難以觸及的問題;而Intel將持續透過提供各種資源來支持開發者社群的創意實現,為推動AI在實體世界的應用普及奠定基礎。

 

MakerPRO編輯部

訂閱MakerPRO知識充電報

與40000位開發者一同掌握科技創新的技術資訊!

Author: MakerPRO編輯部

MakerPRO.cc為華人圈最專注於Maker創新創業、物聯網及共享經濟報導及共筆發表的專業媒體,不論是趨勢分析與評論,或創新實作文章,在華文創新創業媒體領域都具有重要的影響力。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *