Edge AI開發平台比一比
|

OpenVINO 2025.2:支援全新模型、生成式AI流水線與性能全面升級

   

人工智慧(AI)正在不斷重塑我們與科技的對話模式,從徹底改革客戶服務的聊天機器人,到驅動自主系統的視覺模型;隨著AI模型日益複雜和多樣化,開發者面臨著高效部署這些強大模型的持續挑戰。在此我們非常興奮地向大家宣佈,為協助開發者在英特爾(Intel)架構硬體無縫最佳化並部署AI模型而打造的OpenVINO工具套件最新版本──OpenVINO 2025.2 ——問世啦!。

這次的版本更新導入了對最新模型(如Qwen3,編按:阿里巴巴開發的大型語言模型「通義千問」)的支援,以及全新AI流水線與多項性能提升,能讓先進的AI比以往更容易取得。無論你是在打造下一代AI應用,或是在最佳化現有AI工作負載,OpenVINO 2025.2都能提供堅實的基礎,將AI功能高效率地部署於實際生產環境。

新模型

這次的新版本導入了多個適用不同生成式AI應用場景的新模型支援,包括最新發佈的Qwen3以及其他大語言模型,如Phi-4、Phi-4-reasoning和Mistral-7B-Instruct-v0.3。

為了幫助開發者快速上手,這些模型已經可以從我們的GitHub LLM Chatbot Notebook取得;你可從中體驗模型推論與OpenVINO的使用。我們也支援擴散模型,如SD-XL Inpainting 0.1和Stable Diffusion 3.5 Large Turbo,並提供基於Stable Diffusion v3與OpenVINO的圖片生成範例。此外也透過Visual Language Assistant Notebook支援多模態大型語言模型Qwen2.5-VL-3B-Instruct。

若想了解各類主流AI模型的性能基準測試結果,請造訪OpenVINO Model Hub,來比較不同模型在Intel CPU、內建GPU、NPU與加速器上的表現;這能幫助你選擇最合適的Intel硬體平台。

以Stable Diffusion v3 Notebook生成的圖片,提示詞為:「一隻浣熊被困在一個裝滿五彩糖果的玻璃罐裡,背景為蒸騰的鮮豔色彩。」

以Stable Diffusion v3 Notebook生成的圖片,提示詞為:「一隻浣熊被困在一個裝滿五彩糖果的玻璃罐裡,背景為蒸騰的鮮豔色彩。」

OpenVINO GenAI的新流水線

OpenVINO GenAI提供簡潔的API,讓開發者只需要幾行程式碼就可利用OpenVINO Runtime執行生成式AI模型。在2025.2版本,我們導入了對兩條新流水線的預覽支援:

  • 文字轉語音(Text-to-Speech);
  • RAG應用場景的文字嵌入(Text Embedding)。

在GitHub上已提供了這兩條流水線的C++和Python範例。以下為文字轉語音流水線的Python程式碼,展現能如何將之輕鬆應用於語音生成任務:


import openvino_genai

pipe = openvino_genai.Text2SpeechPipeline(model_dir, device)

result = pipe.generate("Hello OpenVINO GenAI", speaker_embedding)

speech = result.speeches[0]

# speech tensor contains the waveform of the spoken phrase

OpenVINO Model Server端點與模型管理

OpenVINO Model Server (OVMS)在這次的新版本中也帶來了一些令人興奮的新功能,進一步擴展了其能力。在預覽階段,新增的圖片生成端點支援根據文字提示生成圖片;開發者現在可以於OVMS中運作最佳化後的Stable Diffusion和 Flux模型流水線。

另一項重要更新是:透過OVMS CLI進行模型管理,可直接從Hugging Face Hub自動下載OpenVINO模型;這意味著開發者可以只用單一指令部署生成式流水線,並在不需要額外腳本或手動操作的前提下管理模型。

歡迎查看GitHub上的OVMS圖片生成示範,展示了如何從Hugging Face Hub取得模型並執行。

性能升級

長期以來,OpenVINO利用KV快取(cache)在生成過程中儲存和壓縮鍵值對(key-value pairs),以避免在每個新詞元(token)推論時重複運算;這能顯著減少運算開支和記憶體頻寬使用,特別適合長序列(long sequences)應用場景。而在這次的新版本中,我們導入了SnapKV快取。

SnapKV快取是一種在CPU和GPU上運作的選擇性KV快取壓縮方法,能夠基於注意力模式(attention patterns)智慧選擇保留的鍵值對,支持情境感知選擇、叢集式留存(clustered retention)策略,以及針對每個注意力頭進行自我調整最佳化,在保留模型推論能力的同時提高效率。壓縮完成後,SnapKV快取會重新旋轉位置編碼,以確保注意力機制的正確執行。當啟用KV快取淘汰機制時,SnapKV為預設開啟。

此外新版本也加入了對OpenVINO中LoRA轉接器(adaptor)的進一步性能最佳化,可在內建GPU上為各類大型語言模型(LLM)、視覺語言模型(VLM0和文生圖模型提供更快的推論速度。這將有助於開發者以更低的延遲和資源開支,針對具體業務場景快速客製化基礎模型。

此次針對LoRA的最佳化得益於融合核心(Fused Kernel)的實現,以及運算節點記憶體相依性的最佳化。融合核心可將多個LoRA運作合併為一個執行單元,減少記憶體頻寬需求和核心啟動開支;而記憶體相依性最佳化則是透過更高效率的資料結構和調度邏輯,來管理運作節點之間的記憶體資源,對不需從記憶體池分配資源的節點來說效果特別明顯。

結語

OpenVINO 2025.2是今年度的又一次重要版本更新,持續推進我們在Intel硬體上釋放AI性能的目標。在此由衷感謝開發者社群的支持,我們也已經在著手為下一個版本打造更多令人期待的功能!

 

(參考原文:Announcing OpenVINO™ 2025.2: New Models, Generative AI Pipelines, and Performance Improvements)

OpenVINO作者群

訂閱MakerPRO知識充電報

與40000位開發者一同掌握科技創新的技術資訊!

Author: OpenVINO作者群

對於利用OpenVINO實現創新Edge AI應用充滿熱情的一群開發者,他/她們來自四面八方,時常透過社群分享他們的實作心得與成果。

Share This Post On
468 ad

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *