|

輕鬆使用OpenVINO在本地裝置離線運作Llama3

   
在人工智慧(AI)領域,大型語言模型(LLMs)的發展速度令人震驚。2024年4月18日,Meta正式開放了LLama系列的新一代大模型Llama3的原始程式碼,在此領域樹立了新的里程碑。Llama3不僅繼承了先前模型的強大能力,還透過技術革新,在多模態理解、長篇文字處理及語言生成等多個方面實現了品質上的大幅提升,其開放性和靈活性也為開發者提供了前所未有的便利。無論是進行模型微調,還是整合到現有的系統中,Llama3都展現了極高的適應性和易用性。

除此之外,提到Llama3模型的部署,除了將其部署在雲端之外,模型的當地語系化部署可以讓開發者能夠在不依賴雲端運算資源的情況下,實現資料處理和大模型運算的高效率和高隱私性。利用OpenVINO部署Llama3到本地運算資源,例如AI PC,不僅意味著更快的回應速度和更低的運作成本,還能有效地保護資料安全,防止敏感資訊外洩。這對於需要處理高度敏感性資料的應用場景尤其重要,如醫療、金融和個人助理等領域。

本文將從Llama3模型簡介出發,教大家如何使用OpenVINO對Llama3模型進行最佳化和推論加速,並將其部署在本地裝置上,進行更快、更智慧的AI推論。

Llama3模型簡介

Llama3提供了多種參數量級的模型,如8B和70B參數模型。其核心特點和優勢可總結如下:

  • 先進的能力與強大的性能:Llama3模型提供了在推論、語言生成和程式碼執行等方面的SOTA性能,為大型語言模型(LLMs)設定了新的產業標準。
  • 增強的效率:採用僅解碼器的Transformer架構與分組查詢注意力(Group Query Attention,GQA),最佳化了語言編碼效率和運算資源使用,適用於大規模AI任務。
  • 全面性的訓練與微調:在超過15兆tokens上進行預訓練,並透過SFT和PPO等創新的指令微調技術,Llama3在處理複雜的多語言任務和多樣化的AI應用中表現卓越。
  • 聚焦開源社群:作為Meta開源倡議的一部分發佈,Llama3鼓勵社群參與和創新,開發者可以輕鬆造訪其生態系並貢獻其成果。

利用OpenVINO最佳化並加速推論

如前所述,部署Llama3模型到本地裝置上,不僅意味著更快的回應速度和更低的運作成本,還能有效地保護資料安全,防止敏感資訊外泄。因此,本文將重點介紹如何利用OpenVINO將Llama3模型進行最佳化後,再部署到本地裝置。這個過程包括以下具體步驟,使用的是我們常用的OpenVINO Notebooks GitHub儲存庫中的llm-chatbot 程式碼範例。詳細資訊和完整的原始程式碼可以在此連結找到。

由安裝必備軟體套件開始

運作OpenVINO Notebooks儲存庫的具體安裝指南請點此連結;執行這個llm-chatbot的程式碼範例,需要安裝以下的必備依賴項目(dependencies)套件。

選擇推論模型

由於我們在Jupyter Notebook展示中提供了一組由OpenVINO支援的多語種大語言模型,可以從下拉清單中首先選擇語言;針對Llama3,我們選擇英語。

本文為會員限定文章

立即加入會員! 全站文章無限看~

                               

已經是會員? 按此登入

只需不到短短一分鐘...

輸入您的信箱與ID註冊即可享有一切福利!

會員福利
1

免費電子報

2

會員搶先看

3

主題訂閱

4

好文收藏

OpenVINO作者群

Author: OpenVINO作者群

對於利用OpenVINO實現創新Edge AI應用充滿熱情的一群開發者,他/她們來自四面八方,時常透過社群分享他們的實作心得與成果。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *