【Arm的AI世界】打造車用裝置端多模態助理

Posted By Arm作者群 on 6 月 16, 2026 in AI Agent, Arm, Arm的AI世界, Edge AI開發地圖, Multimodal, RAG, 案例研究, 特寫 | 0 comments

作者：Aaron Ang

汽車產業正邁入AI 定義汽車的全新時代：Arm展望將AI嵌入車用運算的核心，讓車輛能夠即時感知、推理，並依據駕駛需求與周遭環境做出調整。透過Zena CSS等平台，強大且安全的AI處理如今可以直接在車內執行。本地智慧不僅能提升隱私保護與反應速度，也能開創更高層次的安全性、便利性與個人化體驗。

我們的專案正是朝這個願景邁出的一步。我們打造了一款裝置端代理式AI多模態助理，展現模組化、協作式AI如何提升車內體驗，並在本地硬體上高效率運作。

在這樣的新典範下，AI代理將成為駕駛不可或缺且主動的夥伴，協助處理從診斷到環境控制等各種任務。

用語對照

代理（Agent）：負責特定能力的模組化軟體元件。每個代理會處理各自的輸入與輸出，並透過定義明確的介面與其他代理溝通。
監督者（Supervisor）：負責協調的代理，能解讀使用者意圖，並將任務分派給合適的代理或工具，確保每項請求都由正確的元件處理。
檢索增強生成（Retrieval-Augmented Generation，RAG）：一項透過從本地知識庫（向量儲存）擷取相關段落來提升準確度的技術。這些段落會作為脈絡提供給語言模型，讓助理即使沒有網路連線，也能回答車輛相關的特定問題。
向量儲存（Vector store）：用來儲存嵌入的資料庫；嵌入是文字或影像的數值表示，因此可快速擷取語意相近的項目。
量化（Quantization:）：一種壓縮技術，能以較少位元表示模型權重（例如從 32 位元降至 4 位元），藉此降低記憶體使用量並加快推論速度，讓大型模型也能在資源受限的裝置端硬體上運作。
裝置端/邊緣推論：直接在車輛運算系統上執行AI模型，進而提升隱私保護與可靠性。

系統架構：邊緣端的模組化智慧

此助理的架構是以模組化代理為核心而設計。每個代理負責一項特定能力，例如防護機制、車輛控制、檢索與視覺。監督者代理會協調這些元件，根據使用者意圖與系統脈絡分派任務。

圖1：代理式車用助理的高階架構。

元件

輸入模組：透過 whisper.cpp 將語音查詢轉換為文字，並轉送至防護代理。此模組也會依據可設定的頻率，從攝影機擷取影像資料，供視覺代理使用。

防護代理：驗證使用者輸入，並拒絕不安全或惡意的指令，例如存取系統提示，或覆寫安全關鍵控制。

監督者代理：接收經過驗證的輸入，並決定要呼叫哪一個代理或工具。此介面透過維護可用工具與代理的登錄檔來擴充，每個工具與代理都以一致格式描述。這樣的設計讓新功能可以輕鬆接入，不需修改監督者的核心邏輯。

視覺代理：使用視覺語言模型（Vision-Language Model，VLM）分析攝影機畫面，例如判斷駕駛是否遵守交通規則。

輸出佇列：作為核心代理系統與輸出模組之間的中介，確保回應會依正確順序傳遞，無論是用於語音合成或使用者介面皆然。這可維持面向駕駛輸出的穩定一致與可靠性。

公用工具：代理會與一組本地工具互動，這些工具透過 Model Context Protocol（MCP）伺服器公開，或以直接函式呼叫的方式提供。這些工具是助理連接車輛及其支援系統的介面。在目前的原型中，這些工具使用模擬資料，但此設計已預期未來可整合實際車用子系統。

駕駛與安全
o 發生碰撞或偵測到危險時，聯絡緊急救援服務。
o 設定車內環境，例如空調控制、天窗與座艙照明。
o 向駕駛傳送通知與警示。

個人助理
o 從本地向量資料庫擷取車輛資訊（透過RAG）。
o 控制資訊娛樂功能，例如藍牙連線與媒體播放。

透過將這些能力以模組化工具的形式公開，系統能在推理（代理）與執行（工具）之間維持清楚分工。這樣可確保系統具備擴充性，未來也更容易整合新的車用功能。

輸入輸出流程範例

假設駕駛說：「將我的手機與車輛的藍牙配對。」

輸入模組：將駕駛的語音轉錄為文字。
核心系統：
1. 防護代理：驗證該請求，確保其安全且符合範圍。
2. 監督者代理：將意圖解讀為環境控制任務，並將其導引至車輛控制代理。
3. 車輛控制代理：呼叫 Automobile MCP 工具，處理駕駛裝置的藍牙配對，並輸出結果。
4. 輸出佇列：暫存結果，確保回應依序傳遞，且不會受到併行任務中斷。
輸出模組：將回應傳送至 TTS 用戶端與 UI。

接著，助理會確認：「您的裝置已成功配對。」

以下日誌顯示系統如何即時執行該請求。每筆紀錄都對應到流程中的一個步驟。若不包含連接藍牙裝置所需的時間，代理工作流程可在5秒內完成。

圖2：代理日誌，顯示語音轉錄、代理交接與工具呼叫。

模型與硬體配置

系統會在記憶體中同時運作兩個模型：

大型 VLM（InternVL3-Instruct 14B），供視覺代理進行影像與文字推論。
較小型 LLM（Jan-nano 4B），用於所有其他文字任務，包括檢索與工具協調。

兩個模型皆經過4位元量化，並透過 llama.cpp 提供服務。我們選用 Unsloth 的 Dynamic 2.0 GGUF 格式，因為在主流量化方法中，這個格式能在模型大小與執行效能之間取得最佳平衡。這項選擇讓兩個模型都能置於14 GB的VRAM內。

我們在 Amazon EC2 g5g.4xlarge 執行個體上開發此助理原型。此執行個體配備 16 個 Arm 架構 Graviton2 vCPU、32 GB RAM，以及具備 16 GB VRAM 的 T4G Tensor Core GPU。整體運算與記憶體資源大多專用於執行 ML 工作負載，這與真實車輛的限制相符。

2025 年的汽車平均配備 16 GB DRAM，預計到 2026 年將成長為三倍。這樣的資源相近性可確保我們的開發環境能對應到可投入量產的 AI 代理所具備的資源配置。採用 Graviton2 也支援 Arm 的 SOAFEE 框架，讓我們能先在雲端開發與測試容器化車用工作負載，再部署至車內系統。

設計意涵

此架構支援多模態互動，且不需仰賴外部連線也能可靠運作。透過新增代理、工具或能力，也能在對既有元件做最少變更的情況下進行擴充。

漸進式能力

此助理採分階段方式開發，每個階段都會導入新的感知與行動能力。這種漸進式方法展現系統如何從基本資訊檢索，逐步發展為具備情境感知的自主能力。

第1級：透過語音指令檢查車輛狀態

在基礎階段，助理能回應語音查詢，從車載感測器擷取即時車輛狀態。例如：「目前車內溫度是多少？」這可讓駕駛立即以免手持方式取得車輛資訊。

第2級：透過語音指令修改車輛狀態

在檢索能力的基礎上，助理能執行駕駛指令，調整車輛設定。例如：「將溫度設定為 (華氏) 70 度。」這讓助理的角色從資訊來源，進一步轉變為車輛操作中的主動參與者。

第3級：視覺解讀與駕駛警示

整合視覺能力後，助理便可透過即時視覺輸入處理駕駛環境。例如，它可以偵測車輛是否位於高乘載車道（High Occupancy Vehicle，HOV），並在未符合乘載人數要求時發出警示。

在此階段，助理能針對複雜、動態且真實世界的情境進行推論。它解讀的是情境，而不只是指令。

圖3：合成生成影像，顯示視覺代理從車內與車外觀察到的高速公路場景。

圖4：助理解讀視覺輸入，辨識高乘載車道違規情況，並提供安全/合規警示。

第4級：視覺輔助的自主行動

助理結合深度視覺理解與自主決策能力，使其能提供關鍵的安全介入。例如，若偵測到碰撞，助理可以自主聯絡緊急救援服務，確保即使駕駛無法回應，也能派遣援助。

這項能力代表助理從被動監測，轉向主動的情境回應。助理不僅能感知並解讀周遭環境，也能果斷採取行動，確保駕駛安全。

圖5：車輛發生事故時的車內與車外合成影像。

圖6：助理辨識緊急情況並聯絡緊急救援服務。

整體而言，這些漸進式級別展現出清楚的發展軌跡：從簡單的感測器查詢，逐步邁向自主且具備情境感知的行為。每一步都讓我們更接近能在車輛環境中真正感知、理解並採取行動的車內助理，為全面AI定義的行動體驗鋪路。

主要心得

針對擴充性進行設計

我們比較了兩種常見的代理式系統設計方法：

單體式架構：由單一大型代理管理所有任務。
模組化架構：由監督者代理擔任路由器與守門，負責協調特定的子代理。

內部評估顯示，模組化方法能更有效地擴充，並提供更穩定一致的結果。此方法讓個別元件可以更新或擴充，而不會影響整體系統，就像更換汽車零件時，不需要重建整具引擎。

我們的觀察與LangChain的研究結果一致。其研究顯示，隨著工具數量增加，採用監督者的多代理架構仍能維持效能；相較之下，當單一代理系統負責過多文字脈絡或能力時，效能會快速下降。

圖7：代理式架構擴充性。（資料來源：LangChain）

在資源受限的硬體上實現即時推論

在邊緣硬體上執行 AI 模型具有挑戰性，因為運算與記憶體資源有限。為了克服這些限制，我們在VLM與精簡型LLM之間分派請求，並對兩者都套用4位元量化。

較大型的VLM能提供強大的多模態推理能力，但會帶來較高延遲。因此，非視覺任務會分派至LLM，以維持回應速度。這樣的分工在功能性與反應速度之間取得平衡，讓資源受限的裝置也能針對車用工作負載執行即時多模態推論。

圖8：KV快取暖機對端到端延遲的影響。

我們進一步透過預先運算系統提示的KV快取來降低延遲。此快取會做為所有對話開頭的固定內容重複使用。在消融測試中，針對「這輛車的油箱容量是多少？」這項輸入查詢，此暖機程序讓端到端延遲提升至2倍速度。

透過裝置端RAG提升準確度

導入RAG提升了助理的回應能力與可靠性。透過將車主手冊等知識庫嵌入系統中，助理能在無需網路連線的情況下，快速且私密地回答具備情境脈絡的技術問題。這大幅提升即時實用性，也有助於建立駕駛信任。

多模態理解開啟全新可能性

整合視覺元件是關鍵一步，讓助理從單純的聆聽者，轉變為具備情境感知的觀察者，能理解車內外的視覺線索，例如乘客安全或車道狀況，進而落實更直覺且主動的行為。

可觀測性加速迭代

我們透過 MLflow 追蹤與 OpenAI Agents SDK 對系統進行檢測，藉此掌握每個代理的執行時間、工具使用情況與交接流程。這項可視性有助於在系統逐步成熟時，加速偵錯、效能調校與設計改善。

圖9：MLflow追蹤可針對每項請求提供細緻的可視性。

限制代理能力

我們的架構對代理行為施加嚴格限制，以確保安全性與可靠性。每個代理只能存取其所需的最少工具集，並透過最小權限原則限制其作用範圍。

我們透過防護代理設計出封閉式控管機制。防護代理會使用以規則為基礎的檢查來篩選所有輸入，在不安全或超出範圍的指令觸及敏感工具之前就加以阻擋。我們也透過對抗式測試，驗證系統面對惡意或對抗性輸入時的穩健性，並使用 DeepEval 等框架，降低因複雜輸入操控而導致非預期代理行為的風險。

採取行動

為了將這款代理式裝置端車用助理從原型推進至實際部署，我們必須在四項優先要務之間取得平衡：模型智慧、延遲、記憶體使用量與安全性。

要在邊緣硬體上提升模型智慧，需要持續推進訓練後技術，例如剪枝、量化與知識萃取。這些方法能讓精簡模型即使在參數容量有限的情況下，仍維持強大效能。

要進一步降低延遲，則有賴硬體架構改善，以解決受記憶體限制的推論問題。例如，將運算更靠近記憶體，以盡可能降低資料移動造成的瓶頸。最佳化記憶體使用量也需要採用硬體感知策略，包括量化感知訓練、高效率注意力機制，以及穩健的輕量化模型架構。這類策略可確保模型在嚴格的 VRAM 預算內運作，同時仍保有實用功能。

最關鍵的是，安全性必須內建於每一層。由於 Arm 的 IP 支援 ISO/SAE 21434 合規要求，此系統具備良好基礎，可與車用網路安全標準接軌。

然而，若要大規模部署這類系統，仍需符合業界通行的驗證實務，並進行完整的對抗式測試，以滿足技術與法規要求。

因應這些相互交織的挑戰，需要持續最佳化、安全風險工程，以及跨產業協作。這些努力對於將安全、具備強大能力且可即時回應的 AI 助理帶入未來的車輛中是相當重要的。

展望未來：車內智慧的未來

這個原型只是起點。裝置端助理的下一波尖端發展包括：

主動且具備情境感知的推論

透過運用世界模型，也就是能學習並模擬真實世界動態的 AI 系統，未來的助理將不僅能回應人類輸入與預先定義的觸發條件，也能預判情境、規劃行動，並適應長期影響。在豐富的虛擬環境中訓練這些模型，將使其在真正上路之前，就能安全且可靠地處理複雜的駕駛條件。

個人化的持續學習

未來的助理將能持續適應每位駕駛。透過 QLoRA 等高效率微調技術，模型可隨著時間逐步適應使用者的獨特偏好、駕駛風格，以及特定車輛用語。久而久之，這將讓互動感受更自然，也更符合每個人的需求。

結語

當強大且以隱私為優先的 AI 直接進駐車內，我們才剛開始探索其中的可能性。本文介紹的代理式助理說明了：智慧化、協作式且可擴充的車內 AI 已近在眼前。軟體與硬體的每一項進展，都讓我們更接近這樣的汽車：不只是交通工具，更是每段旅程中真正智慧且直覺的夥伴。

若想進一步了解 Arm 如何推動這項願景，請造訪 Arm 車用開發者平台 Arm Automotive Developer Platform 與 Automotive Learning Path，取得在 Arm 生態系中打造次世代車用軟體的相關資源。

致謝

特別感謝 Arm Developer Advocacy 團隊，以及我的團隊成員 Barbara Corriero、Han Yin 與 Tim Ko 在實習期間提供指導。By Aaron Ang

(參考原文：Building an on-device multimodal assistant for automobiles；本文作者為於Arm實習之數據工程師，中文版校閱者為 Arm 首席應用工程師林宜均)

About
Latest Posts

Arm作者群

來自各方的Arm開發者社群專家。

【Arm的AI世界】打造車用裝置端多模態助理

用語對照

系統架構：邊緣端的模組化智慧

元件

輸入輸出流程範例

模型與硬體配置