【Edge AI專欄 #15】從MWC 2024看AI手機未來發展

Posted By 許哲豪 on 3 月 26, 2024 in AIGC, AI關鍵技術, Edge AI, LLM, vMaker, 案例研究, 產業趨勢 | 0 comments

作者：Jack OmniXRI, 2024/3/15

一年一度的世界通訊大會(MWC 2024)[1]於2/26到2/29在西班牙巴塞隆納盛大舉行，以往重點都是在酷炫的行動通訊裝置，而此次重點則都落在AI上，尤其是不靠連網、本機可獨立運算的生成式應用。

2022年底OpenAI推出ChatGPT後，一時風起雲湧，每週都有新的驚喜，各種大語言模型（LLM）及生成式AI(GenAI / AIGC)應用層出不窮，讓文字可以生成文章、音樂、影像、影片甚至可以使用多模態(Multimodal)模型讓文字影音可以相互感知和生成。

LLM剛開始時，使用的模型參數量都非常巨大，可高達1750億(簡寫成175B）個參數，隨著各種專家學者的努力，在特定用途、推論能力和精度略減時，可將參數量縮減至330億(33B)、130億(13B)、70億(7B)甚至13億(1.3B)，若加上模型量化技術，就能讓模型儲存空間縮減到原先1/4（INT8）至1/8（INT4）。此時剛好高算力、大記憶體容量手機誕生，滿足運行最低門檻，於是AI手機就變成此次 MWC 2024 的新寵兒。

為了讓大家更理解AI手機究竟有哪些方案供應商，硬體上究竟有哪些重大突破及軟體上到底能玩什麼應用，接下來就一一幫大家介紹一下。

1. AI手機方案供應商

此次AI手機晶片供應商主要由兩大家包辦，包括聯發科和高通，相關技術規格如下所示。其中AI計算引擎(APU/NPU)的性能提升是主要促成單機離線AI應用的重要關鍵，解決了以往單靠CPU或DSP計算能力有限的問題。

•聯發科(MediaTek) 天磯（Dimemsity） 9300 [2]

Cortex-X4(3.25GHz) 4核 + Cortex-A720(2.0GHz) 4核
支援 LPDDR5T 9600Mbps, UFS 4.0 Flash
第 7 代 APU 790 架構內建硬體級的生成式 AI 引擎
最高可支援330億(33B)參數的 AI 大語言模型
支援 NeuroPilot Compression 內存硬體壓縮技術
首款生成式 AI 端側技能擴充 (LoRA Fusion) 技術

•高通(Qualcomm) 驍龍(Snapdragon) 8 Gen 3 [3]

Cortex-X4(3.3GHz) 1核 + Cortex-A720(3.2GHz & 3.0GHz) 5核 + Cortex-A520(2.3GHz) 2核
Hexagon NPU, 可支援100億(10B+)參數，INT4/INT8/INT16/FP16數值格式，在 Llama 2 LLM 推論速度20 tokens/sec
可支援 Hugging Face 超過20款主流AI模型

以下列出目前有支援這些晶片的手機製造商、機種名稱、動態記憶體(DRAM)及快閃記憶體(FLASH)容量。

•聯發科天磯（Dimemsity） 9300 [2]

廣東移動(OPPO) FIND X7（12G+256G）[4]
維沃移動(VIVO) X100（12G+256G）[5]
維沃移動(VIVO) iQOO Neo9 Pro（12G+256G）[6]
小米(Xiaomi) Redmi K70 Ultra(預計2024/8上市，規格不明)

•高通驍龍(Snapdragon) 8 Gen 3 [3]

華碩(Asus) ROG Phone 8(16G+512G)[7]
榮耀(Honor) Magic6 Pro(12G+256G)[8]
廣東移動(OPPO) FIND X7 Ultra(12G+256G)[9]
三星(Samsung) S24+(12G+256G)[10] / S24 Ultra（12G+256G）[11]
小米(Xiaomi) 14(8G+256G)[12] / 14 Ultra(12G+256G）[13]

註：各家手機隨價格不同，會配置更大容量的動態及快閃記憶體，這裡僅列出最低配置。

Fig. 1 MWC 2024 AI手機及晶片供應商。

2. AI手機運行模型限制及擴充

從上述AI手機硬體規格來看，動態記憶體（DDR）是決定可以運行多大模型的關鍵。扣除手機作業系統及常用APP使用量，其餘的才是模型運行時可支配的容量。以較常見的7B模型來看，若參數以8位元整數（INT8）來表示，在模型不使用剪枝、權重共享等優化手段且一次讀入完整模型情況下，則至少要動用7GByte的動態記憶體。

這對手機負擔頗重，所以通常會將模型參數量化成4位元整數(INT4)，讓動態記憶體需求量馬上降到1/2。當然，如果再搭配分段讀入甚至模型優化等手段，這樣動態記憶體的使用量就能變得更低。這裡建議將來有想購買AI手機的人，由於動態記憶體無法擴充，所以要選購容量大一點的，才能容許功能更強大、參數更多的模型運行。

一般手機配置的快閃記憶體(Flash)容量通常都很大，不夠用時也能很輕易加上外掛的記憶卡，所以可以用來存放很多不同用途的AI模型，就像手機端上不同的APP一樣。未來除了晶片廠、手機商外，相信會有更多第三方開發出更多應用，這樣手機就能變得更聰明了。

由於現有AI手機不像桌機、筆電有豐富的硬體資源可用，所以可使用的模型還是較受限的。各手機商為了確保AI模型能順利工作及免除使用者不知如何選用及安裝，出貨時多半已直接內建多種常用的模型。如果使用者還想擴充AI功能，亦可從晶片或手機商提供的管道下載模型。

以下就以高通 AI Hub [14] 為例，列出目前已提供的模型清單給大家參考，更完整的內容可自行查閱參考連結。

•高通(Qualcomm) AI HUB [14]

聲音類：

聲音增強 – Facebook-Denoiser

語音辨識 – HuggingFace-WaveLM-Base-Plus, Whisper-Base

電腦視覺類：

影像分類 – ConvNext-Tiny, DenseNet-121, EfficientNet-B0, CoogLeNet, Inception-v3, MNASNet05, MobileNet-v2/v3/v3-Small, RegNet, ResNet18/50/101, ResNeXt50/101, Sufflenet-v2, SqueezeNet-1_1, Swin-Base/Small/Tiny, VIT, WideResNet50

影像編輯 – LaMa-Dilated

影像生成 – StyleGAN2

物件偵測 – DETR-ResNet50/ResNet50-DC5/ResNet101/ResNet101-DC50, MediaPipe-Face-Detection/Hand-Detection, Yolo-v6/v7/v8-Detection

姿態估測 – HRNetPose, LiteHRNet, MediaPipe-Pose-Estimation, OpenPose

語義分割 – DDRNet23-Slim, DeepLabV3-ResNet50, FaseSam-S/X, FCN_ResNet, FFNet-40S/50S/78S/78S-LowRes/122NS-LowRes, MediaPipe-Selfie-Segmentation, Segment-Anything-Model, SlNet, Unet-Segmentation, YOLOv8-Segmentation

超解析度 – ESRGAN, QuickSRNetLarge/Medium/Small, Real-ESRGAN-Grenral-x4v3/x4plus, SESR-M5, XLSR

生成式AI類：

影像生成 – ControlNet, Stable-Diffusion

文字生成 – Baichuan-7B, Llama-v2-7B-Chat

多模態類：

影像分類 – OpenAI-Clip

影像生成文字 – TrOCR

註：這裡提及的「影像生成」，在電腦視覺類是指 GAN 技術，而生成式類則是指 Diffusion 技術。

Fig. 2 高通 AI Hub 主要模型庫。

3. AI手機主要生成式應用

目前AI手機主要可完成的生成式應用，主要集中在文字、語音及影像之間的互相生成，以下就分別對各家展示的內容作一簡單整理和說明。

文字生成文字：以自然語言方式輸入文字，可作為查詢、翻譯、長文摘要、詩詞故事創作、聊天等，並直接輸出如真人對話文字。

文字生成語音：可像播音員一樣將文字稿完美讀出，可依需求調整性別、語速、語調、節奏、口音等。搭配文字生成文字即可變身個人貼身助理。

文字生成影像/影片：可直接以文字描述所需內容，即可生成靜態影像或數十秒動態短影片，增加使用者在社交媒體的互動性。

語音生成文字：可將口語或無字幕外語影片即時進行翻譯或會議聽打記錄，方便溝通及學習。若再搭配文字生成文字的自動摘要功能就能更方便整理資料。

影像生成文字：可用於產生影像標題或說明，如取得一張不知名地標影像，可即時產生說明文字。亦可直接辨識影像中的文字內容並直接輸出，即傳統OCR功能。

影像生成影像/影片

虛擬頭像：拍一張個人大頭照，選定不同風格後，即時生成不同風格大頭照，如專業形象照、動漫風甚至不同性別。相較傳統簡單美顏或加特效有更多的樂趣。

去背補漏：到戶外旅遊拍照最怕後面有路人，還要事後P圖才能分享給別人，此時就能透過AI生成技術將路人去掉並自動補上合理的背景。或者拍歪了，旋轉圖像後造成四個角落空白，亦能自動補上。

虛擬試穿：拍一張個人影像，選定要試穿的衣服影像後，即時生成個人試穿新衣的結果，甚至可以產生擺弄姿勢的短影片，就像本人在試穿一樣。

Fig. 3 AI手機常見生成式AI應用。

小結

現階段AI手機仍在起步階段，各種高性能的手機會陸續推出，各種大型AI模型仍在不斷地努力瘦身想辦法擠進有限的硬體資源中，各種有趣的應用也在不停地被開發，相信不久後就會像智慧型手機剛出現時APP大爆發一樣，也會有各種AI應用被APP化。未來甚至手機不需要有實際的操作介面，就像電影鋼鐵人中的Jarvis虛擬助理一樣，所有事只要動動嘴就能完成一切，就讓我們期待這一天早日到來！

參考文獻

[1] MWC BARCELONA
https://www.mwcbarcelona.com/

[2] 聯發科技，天璣9300
https://www.mediatek.tw/products/smartphones-2/mediatek-dimensity-9300

[3] Qualcomm, Snapdragon 8 Gen 3 Mobile Platform
https://www.qualcomm.com/products/mobile/snapdragon/smartphones/snapdragon-8-series-mobile-platforms/snapdragon-8-gen-3-mobile-platform

[4] OPPO, Find X7 技術規格
https://www.oppo.com/cn/smartphones/series-find-x/find-x7/specs/

[5] VIVO, X100 技術規格
https://www.vivo.com/tw/products/param/x100

[6] VIVO, iQOO Neo 9 PRO 技術規格
https://shop.vivo.com.cn/product/10009292

[7] 華碩， ROG Phone 8 技術規格
https://rog.asus.com/tw/phones/rog-phone-8/spec/

[8] 榮耀， Magic6 Pro 技術規格
https://www.hihonor.com/cn/phones/honor-magic6-pro/spec/

[9] OPPO, Find X7 Ultra 技術規格
https://www.oppo.com/cn/smartphones/series-find-x/find-x7-ultra/specs/

[10] 三星， S24+ 技術規格
https://www.samsung.com/tw/smartphones/galaxy-s24/specs/

[11] 三星， S24 Ultra 技術規格
https://www.samsung.com/tw/smartphones/galaxy-s24-ultra/specs/

[12] 小米， 14 技術規格
https://www.mi.com/xiaomi-14/specs

[13] 小米， 14 Ultra 技術規格
https://www.mi.com/xiaomi-14-pro

[14] Qualcomm, AI Hub Models
https://aihub.qualcomm.com/models

[15] MediaTek at MWC 2024 – Generative AI
https://www.mediatek.com/blog/mediatek-at-mwc-2024-generative-ai
https://youtu.be/dlZMedOHQ60

（本篇文章經同意轉載自vMaker，原文連結；責任編輯：謝嘉洵。）

About
Latest Posts

許哲豪

工作經驗超過二十年，主要專長機電整合、電腦視覺、人機互動、人工智慧、專利分析及新創輔導。曾任機電整合工程師、機器視覺研發副理、技轉中心商業發展經理。目前擔任多家公司兼任技術顧問並積極推廣實境互動相關技術。
主持歐尼克斯實境互動工作室(OmniXRI)：http://omnixri.blogspot.com
Edge AI Taiwan邊緣智能交流區：https://www.facebook.com/groups/edgeaitw/