|

善用 ONNX Runtime 加速超過 130,000 個Hugging Face模型

   

目前 Hugging Face (HF) 上有超過 32 萬個模型,這個數字每天都在持續成長。其中只有約 6,000 個模型在 HF 模型中心中表示支援 ONNX,但超過 130,000 個模型支援 ONNX 格式。

ONNX 模型可以透過 ONNX Runtime (ORT) 進行加速,ORT具有跨平台工作並支援許多雲端模型和語言模型的優勢。若你想知道有哪些模型架構被支援,可參考Hugging Face的Transformers文件中的清單

HF ORT 支援概述

所謂模型架構(Model Architecture)是具有相似運算子(Operator)的模型群組,這表示如果模型架構中的一個模型受 ONNX 支持,則該架構中的其他模型也受 ONNX 支援(極少數例外)。HF 模型中心中的模型可以使用搜尋查詢按模型架構進行篩選(例如,可以使用此Hugging Face 工具找到 BERT 模型架構中的模型數量)。

ORT 支援以下模型架構:

ORT 可以大大提高 HF 模型中心中一些最受歡迎模型的效能。使用 ORT 代替 PyTorch 可以改善每次推理的平均延遲(衡量數據接收速度的指標),對於Whisper-Large Model,比 PyTorch 提高高達 50.10%,對於Whisper-Tiny Model,比 PyTorch 提高高達 74.30%模型,可參考下圖:

Source

這些基準測試結果是在 A100 40GB 設備上使用 FP32 運行的。對於 CPU 基準測試,使用 AMD EPYC 7V12 64 核心處理器。ORT 已被證明可以提高性能的其他著名模型包括Stable Diffusion versions 1.5、2.1、T5 等等。

前 30 名的 HF 模型架構均受 ORT 支持,總共有超過 90 個 HF 模型架構支援 ORT。ORT 覆蓋範圍中的任何差距通常代表不太受歡迎的模型架構。

下表列出了排名前 11 的模型架構,所有這些架構都可以使用 Hugging Face Optimum API 轉換為 ONNX,以及上傳到 HF 的相應模型數量(截至本文發布之日)。隨著時間的推移,這些數字將繼續增長,支援的模型架構清單也將繼續增長。

Source

語言模型

ONNX Runtime也支援許多日益普及的語言模型架構,包括 HF 模型中心中提供的大多數架構。這些模型架構包括以下內容,所有這些架構都可以使用 Hugging Face Optimum API 轉換為 ONNX:

Source

對最近發布的 llama2 模型架構的 ONNX Runtime支援仍在進行中,但很快就會在 Hugging Face 上提供。有關社群最近發布的語言模型的更詳細追蹤和評估,請參閱 HF 的Open LLM Leaderboard

參考資料;責任編輯:歐敏銓)

延伸閱讀:

Optimum + ONNX Runtime: Easier, Faster training for your Hugging Face models

MakerPRO編輯部
MakerPRO編輯部

Author: MakerPRO編輯部

MakerPRO.cc為華人圈最專注於Maker創新創業、物聯網及共享經濟報導及共筆發表的專業媒體,不論是趨勢分析與評論,或創新實作文章,在華文創新創業媒體領域都具有重要的影響力。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *