阿里巴巴開源的新一代通義千問系列模型Qwen3,最引人矚目的是30B參數規模的混合專家模型(Mixture of Experts,MoE)Qwen3-30B-MOE-A3B,該模型憑藉其先進的動態可調混合專家架構,在有效提升運算效率方面表現出色,使其在本地設備(客戶端和邊緣設備)上具備廣闊的應用前景。然而,該模型在部署方面存在較大難度,且對系統整體資源的消耗依然較高;為因應這些挑戰,英特爾與阿里緊密合作,針對MoE模型展開了全面的技術適配工作。
透過實施多種最佳化策略,OpenVINO工具套件成功地將Qwen模型高效部署於英特爾硬體平台之上。具體而言,在ARL-H 64G記憶體的系統上部署的30B參數規模MoE模型,實現了33.97 token/s [1]的輸送量,而且相較於同等參數規模的稠密模型,取得了顯著的性能提升。
英特爾採用的軟體最佳化策略涵蓋了針對稀疏混合專家模型架構(Sparse MoE)的運算元融合,針對3B啟動MOE模型客製化的調度和存取最佳化,以及針對不同專家之間的負載均衡,這些技術能夠助力更多MOE模型在英特爾平台上實現高效率部署。
此次發佈的Qwen3系列模型主要集中於中小參數量的稠密架構LLM,參數規模涵蓋0.6B至32B,能夠搭配更廣泛的硬體資源,滿足多樣化的使用場景需求。英特爾的CPU、GPU、NPU架構全面適配Qwen系列模型,為模型的部署進行最佳化,使用英特爾OpenVINO工具套件和PyTorch社群工具都可以為全系列Qwen模型在英特爾Core Ultra平台 (100/200系列) 和英特爾Arc A系列顯卡和B系列顯卡上的部署實現卓越性能表現。
值得一提的是,英特爾首次在NPU上對該模型發佈提供零日(Day 0)支援,展現了英特爾和開源生態更加深入的合作,針對不同模型參數量和應用場景提供更多樣化的、更針對性的平台支援,從0.6B到高達8B的中小參數量模型全面支援,輸送量最高達到36.68 token/s,借助英特爾Lunar Lake NPU平台和英特爾OpenVINO工具套件,可以在保持低能耗的同時,又可以獲得優異性能。
同時,在Core Ultra的iGPU平台上,英特爾持續為模型帶來卓越的性能。針對小尺寸的模型,在FP16精度下,最高達到66 token/s [2],針對中小尺寸模型,在INT4精度下,最高達到35.83 token/s [2]。開發者可以根據適合的使用場景,找到精度和性能的最佳組合。在英特爾Arc B系列顯卡更強大算力加持下,Qwen3-8B模型可實現70.67 token/s [3],開發者能夠即刻領略到最新模型與英特爾卓越平台能力的超強組合。
作為生成式AI模型中的羽量級選手,0.6B參數量的小型LLM具備靈活高效的部署優勢以及快速迭代更新的能力。然而,在實際應用落地過程中,人們常常對其知識的深度與廣度以及處理複雜任務的能力存在顧慮。利用特定的資料集對這些小型LLM進行端側微調(Fine-tune),可以提升模型智慧,最佳化使用者體驗。
為此,基於Unsloth和Hugging Face參數高效微調框架(Parameter-Efficient Fine-Tuning,PEFT), 英特爾構建了一套完整的端側解決方案,使模型變得更加智慧,AI PC應用也真正變成使用者的貼心智慧小助手。借助此方案,在Qwen3 0.6B模型的多語言能力可以更有效發揮作用,例如以多語言對圖片進行查詢的應用案例。
在本次發佈的Qwen3模型中,我們注意到其LLM長上下文能力得到了顯著提升。面對有限的算力資源,如何有效利用模型的長上下文能力,避免運算資源消耗呈現指數級增加,進而拓展LLM在客戶端的應用場景,英特爾提供了解決方案。基於動態稀疏注意力,在保證近乎無損精度的前提下,我們可以使長上下文視窗處理速度成倍提升。採用該方案後,Qwen3-8B模型在英特爾LNL平台上可實現32K的上下文長度。
這樣的長上下文能力,解鎖了更多端側Agent新應用。結合Qwen3更強的Agent和程式碼能力,以及對MCP協定的加強支援,使得基於端側大模型呼叫MCP服務來開發各種AI PC Agent首次成為可能。
英特爾持續擁抱開源生態,英特爾最佳化版Ollama也第一時間支援了包括MoE模型在內的Qwen3系列模型,使開發者可以在英特爾客戶端平台 (如英特爾Core Ultra AI PC,英特爾Arc A/B系列顯卡)上,利用Ollama框架來搭建基於Qwen3系列模型的智慧應用。
快速上手指南 (Get Started)
以下將以Qwen3-8B為例,介紹如何利用OpenVINO的Python API在英特爾平台(GPU, NPU)上運作Qwen3系列模型。也可以參考下面的完整範例:
https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/llm-chatbot
https://github.com/openvinotoolkit/openvino.genai/tree/master/samples/python/text_generation
第一步:環境準備
使用以下指令可以完成模型部署任務在Python上的環境安裝。
python -m venv py_venv
./py_venv/Scripts/activate.bat
pip install --pre -U openvino-genai openvino openvino-tokenizers --extra-index-url https://storage.openvinotoolkit.org/simple/wheels/nightly
pip install nncf
pip install git+https://github.com/openvino-dev-samples/optimum-intel.git@2aebd4441023d3c003b27c87fff5312254ac
pip install transformers >=4.51.3
此範例經以下硬體與軟體配置驗證:
硬體配置:
-
處理器:Core Ultra 9–285H,記憶體:32GB
-
顯卡:Intel Arc 140T GPU
-
顯卡驅動版本:32.0.101.6737
-
NPU 驅動版本:32.0.100.3967
OpenVINO 版本:
- openvino 2025.2.0-dev20250429
- openvino-genai 2025.2.0.0-dev20250429
- openvino-tokenizers 2025.2.0.0-dev20250429
第二步:模型下載和轉換
在部署模型之前,我們首先需要將原始PyTorch模型轉換為OpenVINO的IR靜態圖格式,並對其進行壓縮,以實現更輕量化的部署和最佳的性能表現。透過Optimum提供的命令列工具optimum-cli,我們可以一鍵完成模型的格式轉換和權重量化任務。
optimum-cli export openvino --model Qwen/Qwen3-8B --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 Qwen3-8B-int4-ov
optimum-cli使用方法可以參考:
https://docs.openvino.ai/2024/learn-openvino/llm_inference_guide/genai-model-preparation.html
此外我們建議使用以下參數對運作在NPU上的模型進行量化,以達到性能和精度的平衡。
optimum-cli export openvino --model Qwen/Qwen3-8B --task text-generation-with-past --weight-format nf4 --sym --group-size -1 Qwen3-8B-nf4-ov --backup-precision int8_sym
第三步:模型部署
OpenVIN目前提供兩種針對大語言模型的部署方案,如果習慣在Transformers函式庫的介面部署模型,並想體驗相對更豐富的功能,推薦使用基於Python介面的Optimum-intel工具來進行任務搭建。如果想嘗試更極致的性能或是輕量化的部署方式,GenAI API則是不二選擇,它同時支援Python和C++兩種程式語言,安裝容量不到200MB。
- Optimum-intel部署範例
from optimum.intel.openvino import OVModelForCausalLM
from transformers import AutoConfig, AutoTokenizer
ov_model = OVModelForCausalLM.from_pretrained(
llm_model_path,
device='GPU',
)
tokenizer = AutoTokenizer.from_pretrained(llm_model_path)
prompt = "Give me a short introduction to large language model."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
enable_thinking=True
)
model_inputs = tokenizer([text], return_tensors="pt")
generated_ids = ov_model.generate(**model_inputs, max_new_tokens=1024)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
try:
index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
index = 0
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")
print("thinking content:", thinking_content)
print("content:", content)
- GenAI API部署範例
import openvino_genai as ov_genai
generation_config = ov_genai.GenerationConfig()
generation_config.max_new_tokens = 128
generation_config.apply_chat_template = False
pipe = ov_genai.LLMPipeline(llm_model_path, "GPU")
result = pipe.generate(prompt, generation_config)
可以利用修改device name的方式將模型輕鬆部署到NPU上。
pipe = ov_genai.LLMPipeline(llm_model_path, "NPU")
若要啟用串流模式,可以為 OpenVINO GenAI 流水線自訂一個串流處理器。
def streamer(subword):
print(subword, end='', flush=True)
sys.stdout.flush()
return False
pipe.generate(prompt, generation_config, streamer=streamer)
此外,GenAI API 提供了一種聊天模式的實作方式。透過呼叫
和
,多輪對話的歷史資料會以記憶體中的 kvcache 方式管理,該快取會儲存每輪對話中的key和value狀態,以避免重新計算先前詞元的注意力權重;這大幅加快了長篇對話的推論速度。
pipe.start_chat()
while True:
try:
prompt = input('question:\n')
except EOFError:
break
pipe.generate(prompt, generation, streamer)
print('\n----------')
pipe.finish_chat()
聊天模式的輸出結果:
結語
無論是使用Optimum-Intel還是OpenVINO GenAI,開發者都能輕鬆地在Intel 硬體平台上部署Qwen3模型。對於需要高效、輕量且具備生產等級部署能力的大型語言模型應用,OpenVINO GenAI 是在客戶端與邊緣環境中最理想的選擇。
備註:
- 性能資料透過在SKU1平台上使用OpenVINO框架2025.1.0版本進行測試。運算任務由內建顯卡(iGPU)完成。這些測試評估了在 INT4混合精度設置下 ,處理1K input時的記憶體佔用、首個token延遲和平均輸送量。每次測試在預熱階段後執行3次,選取中間值作為報告資料。(Sku1: Brand: Intel, OEM: n/a, Model: CSRD(Reference Design), CPU: Core Ultra 9-285H, Memory: 64GB LPDDR5-8400MHz, Storage: 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc 140T GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: -, Screen Size: 15″, Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM’s Power App): -, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 65, Short Duration Power Limit (W): 70, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)
- 性能資料透過在SKU2平台上使用OpenVINO框架2025.1.0版本進行測試,運算任務由內建顯卡(iGPU)或神經處理單元(NPU)完成。測試評估了INT4混合精度、INT8通道權重精度及FP16精度設置下,處理1K input時的記憶體佔用、首個token延遲和平均輸送量。每次測試在預熱階段後執行 3 次,選取中間值作為報告資料。(Sku2: Brand: Intel, OEM: Lenovo, Model: Yoga Air 15s ILL9, CPU: Core Ultra 7-258V, Memory: 32GB LPDDR5-8533MHz, Storage: WD PC SN740 1TB, OS: Windows 11, OS Version: 24H2 (26100.3624), Graphics: Intel Arc 140V GPU, Graphics Driver Version: 32.0.101.6737, Resolution: 2880 x 1800 200% DPI, NPU Driver Version: 32.0.100.3967, PC BIOS: NYCN66WW, Screen Size: 15″, Power Plan: Balanced, Power Mode (Win 11 Feature): Best Performance, Power App Setting (OEM’s Power App): Extreme Performance, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): 30, Short Duration Power Limit (W): 37, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)
- 性能資料透過在SKU3上使用OpenVINO框架2025.1.0版本進行測試,運算任務在獨立顯卡上完成。測試評估了在INT4混合精度、INT8量化和FP16精度設置下,處理1K input時的記憶體佔用、首個token延遲和平均輸送量。每次測試在預熱階段後執行三次,選取中間值作為報告資料。(Sku3: Brand: Intel, Model: Desktop, CPU: Core i7-14700K, Memory: 32GB DDR5-5600MHz, Storage: SAMSUNG 980 PRO 1TB, OS: Windows 11, OS Version: 24H2 (26100.3775), Graphics: Intel Arc B580 GPU(vRAM=12GB), Graphics Driver Version: 32.0.101.6737, Resolution: 2560 x 1440, NPU Driver Version: n/a, PC BIOS: 2801, VBS: OFF, Defender: Running, Long Duration Package Power Limit (W): -, Short Duration Power Limit (W): -, Key Software Version: Openvino 2025.2.0-dev20250427, Openvino-genai 2025.2.0.0-dev20250427, Openvino-tokenizers 2025.2.0.0-dev20250427, Transformers 4.49.0)
- 性能因使用情況、配置和其他因素而異。欲了解更多資訊,請訪問intel.com/performanceindex。基於對第二代英特爾AI增強SDV SoC GPU+NPU與MBL i7-13800HAQ CPU+GPU(關閉Turbo加速)的內部預測,AI性能最高可提升十倍。
- 馬上就用OpenVINO部署Qwen3模型! - 2025/07/28
- OpenVINO 2025.2:支援全新模型、生成式AI流水線與性能全面升級 - 2025/07/09
- OpenVINO 2025.0來了…一起繼續玩生成式AI吧! - 2025/02/26
訂閱MakerPRO知識充電報
與40000位開發者一同掌握科技創新的技術資訊!