馬上就用OpenVINO部署Qwen3模型！

Posted By OpenVINO作者群 on 7 月 28, 2025 in Edge AI開發地圖, Intel, Multimodal, OpenVINO專欄, OpenVINO教學文, 技術新訊, 教學文, 開發工具 | 0 comments

阿里巴巴開源的新一代通義千問系列模型Qwen3，最引人矚目的是30B參數規模的混合專家模型（Mixture of Experts，MoE）Qwen3-30B-MOE-A3B，該模型憑藉其先進的動態可調混合專家架構，在有效提升運算效率方面表現出色，使其在本地設備（客戶端和邊緣設備）上具備廣闊的應用前景。然而，該模型在部署方面存在較大難度，且對系統整體資源的消耗依然較高；為因應這些挑戰，英特爾與阿里緊密合作，針對MoE模型展開了全面的技術適配工作。

透過實施多種最佳化策略，OpenVINO工具套件成功地將Qwen模型高效部署於英特爾硬體平台之上。具體而言，在ARL-H 64G記憶體的系統上部署的30B參數規模MoE模型，實現了33.97 token/s [1]的輸送量，而且相較於同等參數規模的稠密模型，取得了顯著的性能提升。

英特爾採用的軟體最佳化策略涵蓋了針對稀疏混合專家模型架構（Sparse MoE）的運算元融合，針對3B啟動MOE模型客製化的調度和存取最佳化，以及針對不同專家之間的負載均衡，這些技術能夠助力更多MOE模型在英特爾平台上實現高效率部署。

此次發佈的Qwen3系列模型主要集中於中小參數量的稠密架構LLM，參數規模涵蓋0.6B至32B，能夠搭配更廣泛的硬體資源，滿足多樣化的使用場景需求。英特爾的CPU、GPU、NPU架構全面適配Qwen系列模型，為模型的部署進行最佳化，使用英特爾OpenVINO工具套件和PyTorch社群工具都可以為全系列Qwen模型在英特爾Core Ultra平台 (100/200系列) 和英特爾Arc A系列顯卡和B系列顯卡上的部署實現卓越性能表現。

值得一提的是，英特爾首次在NPU上對該模型發佈提供零日（Day 0）支援，展現了英特爾和開源生態更加深入的合作，針對不同模型參數量和應用場景提供更多樣化的、更針對性的平台支援，從0.6B到高達8B的中小參數量模型全面支援，輸送量最高達到36.68 token/s，借助英特爾Lunar Lake NPU平台和英特爾OpenVINO工具套件，可以在保持低能耗的同時，又可以獲得優異性能。

同時，在Core Ultra的iGPU平台上，英特爾持續為模型帶來卓越的性能。針對小尺寸的模型，在FP16精度下，最高達到66 token/s [2]，針對中小尺寸模型，在INT4精度下，最高達到35.83 token/s [2]。開發者可以根據適合的使用場景，找到精度和性能的最佳組合。在英特爾Arc B系列顯卡更強大算力加持下，Qwen3-8B模型可實現70.67 token/s [3]，開發者能夠即刻領略到最新模型與英特爾卓越平台能力的超強組合。

作為生成式AI模型中的羽量級選手，0.6B參數量的小型LLM具備靈活高效的部署優勢以及快速迭代更新的能力。然而，在實際應用落地過程中，人們常常對其知識的深度與廣度以及處理複雜任務的能力存在顧慮。利用特定的資料集對這些小型LLM進行端側微調（Fine-tune），可以提升模型智慧，最佳化使用者體驗。

為此，基於Unsloth和Hugging Face參數高效微調框架（Parameter-Efficient Fine-Tuning，PEFT），英特爾構建了一套完整的端側解決方案，使模型變得更加智慧，AI PC應用也真正變成使用者的貼心智慧小助手。借助此方案，在Qwen3 0.6B模型的多語言能力可以更有效發揮作用，例如以多語言對圖片進行查詢的應用案例。

在本次發佈的Qwen3模型中，我們注意到其LLM長上下文能力得到了顯著提升。面對有限的算力資源，如何有效利用模型的長上下文能力，避免運算資源消耗呈現指數級增加，進而拓展LLM在客戶端的應用場景，英特爾提供了解決方案。基於動態稀疏注意力，在保證近乎無損精度的前提下，我們可以使長上下文視窗處理速度成倍提升。採用該方案後，Qwen3-8B模型在英特爾LNL平台上可實現32K的上下文長度。

這樣的長上下文能力，解鎖了更多端側Agent新應用。結合Qwen3更強的Agent和程式碼能力，以及對MCP協定的加強支援，使得基於端側大模型呼叫MCP服務來開發各種AI PC Agent首次成為可能。

英特爾持續擁抱開源生態，英特爾最佳化版Ollama也第一時間支援了包括MoE模型在內的Qwen3系列模型，使開發者可以在英特爾客戶端平台 (如英特爾Core Ultra AI PC，英特爾Arc A/B系列顯卡)上，利用Ollama框架來搭建基於Qwen3系列模型的智慧應用。

快速上手指南 (Get Started)

以下將以Qwen3-8B為例，介紹如何利用OpenVINO的Python API在英特爾平台（GPU, NPU）上運作Qwen3系列模型。也可以參考下面的完整範例：

https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/llm-chatbot

https://github.com/openvinotoolkit/openvino.genai/tree/master/samples/python/text_generation

第一步：環境準備

使用以下指令可以完成模型部署任務在Python上的環境安裝。


python -m venv py_venv 

 

./py_venv/Scripts/activate.bat 

 

pip install --pre -U openvino-genai openvino openvino-tokenizers --extra-index-url https://storage.openvinotoolkit.org/simple/wheels/nightly 

 

pip install nncf 

 

pip install git+https://github.com/openvino-dev-samples/optimum-intel.git@2aebd4441023d3c003b27c87fff5312254ac

 

pip install transformers >=4.51.3

此範例經以下硬體與軟體配置驗證：

硬體配置：

處理器：Core Ultra 9–285H，記憶體：32GB
顯卡：Intel Arc 140T GPU
顯卡驅動版本：32.0.101.6737
NPU 驅動版本：32.0.100.3967

OpenVINO 版本：

openvino 2025.2.0-dev20250429
openvino-genai 2025.2.0.0-dev20250429
openvino-tokenizers 2025.2.0.0-dev20250429

第二步：模型下載和轉換

在部署模型之前，我們首先需要將原始PyTorch模型轉換為OpenVINO的IR靜態圖格式，並對其進行壓縮，以實現更輕量化的部署和最佳的性能表現。透過Optimum提供的命令列工具optimum-cli，我們可以一鍵完成模型的格式轉換和權重量化任務。


optimum-cli export openvino --model Qwen/Qwen3-8B --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8  Qwen3-8B-int4-ov

optimum-cli使用方法可以參考：

https://docs.openvino.ai/2024/learn-openvino/llm_inference_guide/genai-model-preparation.html

此外我們建議使用以下參數對運作在NPU上的模型進行量化，以達到性能和精度的平衡。


optimum-cli export openvino --model Qwen/Qwen3-8B  --task text-generation-with-past --weight-format nf4 --sym --group-size -1 Qwen3-8B-nf4-ov --backup-precision int8_sym

第三步：模型部署

OpenVIN目前提供兩種針對大語言模型的部署方案，如果習慣在Transformers函式庫的介面部署模型，並想體驗相對更豐富的功能，推薦使用基於Python介面的Optimum-intel工具來進行任務搭建。如果想嘗試更極致的性能或是輕量化的部署方式，GenAI API則是不二選擇，它同時支援Python和C++兩種程式語言，安裝容量不到200MB。

Optimum-intel部署範例


from optimum.intel.openvino import OVModelForCausalLM

from transformers import AutoConfig, AutoTokenizer



ov_model = OVModelForCausalLM.from_pretrained(

    llm_model_path,

    device='GPU',

)

tokenizer = AutoTokenizer.from_pretrained(llm_model_path)

prompt = "Give me a short introduction to large language model." 

messages = [{"role": "user", "content": prompt}]

text = tokenizer.apply_chat_template(

    messages,

    tokenize=False,

    add_generation_prompt=True,

    enable_thinking=True

)

model_inputs = tokenizer([text], return_tensors="pt")

generated_ids = ov_model.generate(**model_inputs, max_new_tokens=1024)

output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

try:

    index = len(output_ids) - output_ids[::-1].index(151668)

except ValueError:

    index = 0



thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")

content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")



print("thinking content:", thinking_content)

print("content:", content)

GenAI API部署範例


import openvino_genai as ov_genai



generation_config = ov_genai.GenerationConfig()

generation_config.max_new_tokens = 128

generation_config.apply_chat_template = False



pipe = ov_genai.LLMPipeline(llm_model_path, "GPU")

result = pipe.generate(prompt, generation_config)

可以利用修改device name的方式將模型輕鬆部署到NPU上。


pipe = ov_genai.LLMPipeline(llm_model_path, "NPU")

若要啟用串流模式，可以為 OpenVINO GenAI 流水線自訂一個串流處理器。


def streamer(subword):

print(subword, end='', flush=True)

    sys.stdout.flush()



return False

pipe.generate(prompt, generation_config, streamer=streamer)

此外，GenAI API 提供了一種聊天模式的實作方式。透過呼叫

pipe.start_chat()

和

pipe.finish_chat()

，多輪對話的歷史資料會以記憶體中的 kvcache 方式管理，該快取會儲存每輪對話中的key和value狀態，以避免重新計算先前詞元的注意力權重；這大幅加快了長篇對話的推論速度。


pipe.start_chat()

while True:

    try:

        prompt = input('question:\n')

    except EOFError:

        break

    pipe.generate(prompt, generation, streamer)

    print('\n----------')

pipe.finish_chat()

聊天模式的輸出結果：

結語

無論是使用Optimum-Intel還是OpenVINO GenAI，開發者都能輕鬆地在Intel 硬體平台上部署Qwen3模型。對於需要高效、輕量且具備生產等級部署能力的大型語言模型應用，OpenVINO GenAI 是在客戶端與邊緣環境中最理想的選擇。

備註：

性能資料透過在SKU1平台上使用OpenVINO框架2025.1.0版本進行測試。運算任務由內建顯卡（iGPU）完成。這些測試評估了在 INT4混合精度設置下，處理1K input時的記憶體佔用、首個token延遲和平均輸送量。每次測試在預熱階段後執行3次，選取中間值作為報告資料。（Sku1: Brand: Intel, OEM: n/a, Model: CSRD(Reference Design), CPU: Core Ultra 9-285H, Memory: 64GB LPDDR5-8400MHz, Storage: 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc 140T GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: -, Screen Size: 15″, Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM’s Power App): -, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 65, Short Duration Power Limit (W): 70, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0）
性能資料透過在SKU2平台上使用OpenVINO框架2025.1.0版本進行測試，運算任務由內建顯卡（iGPU）或神經處理單元（NPU）完成。測試評估了INT4混合精度、INT8通道權重精度及FP16精度設置下，處理1K input時的記憶體佔用、首個token延遲和平均輸送量。每次測試在預熱階段後執行 3 次，選取中間值作為報告資料。（Sku2: Brand: Intel, OEM: Lenovo, Model: Yoga Air 15s ILL9, CPU: Core Ultra 7-258V, Memory: 32GB LPDDR5-8533MHz, Storage: WD PC SN740 1TB, OS: Windows 11, OS Version: 24H2 (26100.3624), Graphics: Intel Arc 140V GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: NYCN66WW, Screen Size: 15″, Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM’s Power App): Extreme Performance, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 30, Short Duration Power Limit (W): 37, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0）
性能資料透過在SKU3上使用OpenVINO框架2025.1.0版本進行測試，運算任務在獨立顯卡上完成。測試評估了在INT4混合精度、INT8量化和FP16精度設置下，處理1K input時的記憶體佔用、首個token延遲和平均輸送量。每次測試在預熱階段後執行三次，選取中間值作為報告資料。（Sku3: Brand: Intel, Model: Desktop, CPU: Core i7-14700K, Memory: 32GB DDR5-5600MHz, Storage: SAMSUNG 980 PRO 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc B580 GPU(vRAM=12GB), Graphics Driver Version: 32.0.101.6737, Resolution: 2560 x 1440, NPU Driver Version: n/a, PC BIOS: 2801, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): -, Short Duration Power Limit (W): -, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0）
性能因使用情況、配置和其他因素而異。欲了解更多資訊，請訪問intel.com/performanceindex。基於對第二代英特爾AI增強SDV SoC GPU+NPU與MBL i7-13800HAQ CPU+GPU（關閉Turbo加速）的內部預測，AI性能最高可提升十倍。