|

輕鬆用Intel AI PC及OpenVINO建立數位分身

   

作者: Jack OmniXRI

隨著生成式人工智慧(Generative Artificial Intelligence, GenAI)技術的日益普及,數位分身(Digital Avatar)或稱數字人(Digital Human)也開始出現在很多智慧客服及人機互動應用上,讓使用者再也不用面對冷冰冰的機器進行操作。一個完整的數位分身,就像真人一樣,要具有自然語言對話、豐富肢體動作和產生生動表情的能力,其中就需要用到許多生成式AI技術,包括利用語音轉文字(Speech to Text,STT)得到問題的文字,交給大語言模型(Large Language Model,LLM)進行文字問答,再將文字轉語音(Text to Speech,TTS)把答案讀出,最後再配合語音自動對嘴形(Lip Sync)讓人物影像的嘴巴也能和語音同步動起來。

去(2024)年底曾寫過一篇文章「如何使用 Intel AI PC 及 OpenVINO 實現虛擬主播」,介紹了數位分身所需擁有的文字轉語音和聲音自動嘴型功能,算是實現了數位分身的後半段「自動讀稿機」的能力。此次就來幫大家介紹前半段,使用麥克風收音進行問話,然後再使用大語言模型來思考及產生問答結果,如此就能搞定數位分身的前半段,構成一個簡單完整的系統。

在上一篇文章中使用的是 Intel 第一代 AI PC (Core Ultra 5 125H),這次將使用第二代 AI PC (Core Ultra 7 258V) 來進行測試。主要會使用到語音轉文字模型 Whisper 及大語言模型 DeepSeek-R1,運行時完全不用上網,所以不會有資安問題,但生成的內容是否滿足需求就暫不討論,這裡僅就生成反應速度進行討論。

以往我們都是使用 OpenVINO 標準版來進行開發,但其實在 2024.x 版之後就有提供 OpenVINO GenAI 版本可直接下載。這個版本算是基於標準版 Runtime API 加上生成式AI API,並可整合 Optimum-cli 及 Hugging Face ,可大幅簡化模型下載、推理及部署複雜度,還可針對 CPU / GPU / NPU 的硬體加速提供更好的推理性能,所以此次範例程式會採用 GenAI API 形式執行。

本文為會員限定文章

立即加入會員! 全站文章無限看~

                               

已經是會員? 按此登入

只需不到短短一分鐘...

輸入您的信箱與ID註冊即可享有一切福利!

會員福利
1

免費電子報

2

會員搶先看

3

主題訂閱

4

好文收藏

Author: 許 哲豪

工作經驗超過二十年,主要專長機電整合、電腦視覺、人機互動、人工智慧、專利分析及新創輔導。曾任機電整合工程師、機器視覺研發副理、技轉中心商業發展經理。目前擔任多家公司兼任技術顧問並積極推廣實境互動相關技術。 主持歐尼克斯實境互動工作室(OmniXRI):http://omnixri.blogspot.com Edge AI Taiwan邊緣智能交流區:https://www.facebook.com/groups/edgeaitw/

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *