舊瓶裝新酒還是新瓶裝舊酒？Jetson Orin Super效能實測

Posted By 尤濬哲 on 3 月 12, 2025 in AIGC, Edge AI開發地圖, NVIDIA, 技術新訊, 案例研究, 特寫, 產品新訊 | 0 comments

作者：尤濬哲

2024年12月17日，NVIDIA執行長皮衣男黃仁勳在毫無預告下，在YT發布一個影片，只見他趣味地從廚房的烤爐端出一個「蛋糕」，說道這是一台全新的AI主機“Jetson Orin Nano Super Developer Kit”，效能提升1.7倍，具有Cuda、cuDNN神經網路且透過全新的架構可以處理機器人以及大型語言模型。

這台號稱全新的Jetson Orin Nano “Super” 具有以下規格：

6 Core ARM Cortex78AR
1024 CUDA
32 Tensor
8GB 128-bit LPDDR5

這時候像我網路柯南就聞到一點奇怪的氣味，因為這個規格跟我目前手上的Jetson Orin Nano “without Super” 不是完全一樣的嗎？

這個問題立即就有人在NVIDIA的官方論壇中詢問，“Is that mean there is no hardware difference? It’s just a BSP/software performance improvement?”

官方的回覆是，“Yes, the existing Jetson Nano Orin Developer Kit can be upgraded to Jetson Orin Nano Super Developer Kit with this software update.”

而前幾天，官方的FAQ已經加入這個問題的標準解答

資料來源：NVIDIA官方網站

也就是說，這台所謂的全新的Jetson Orin Nano “Super”，與舊版的Orin完全無硬體上的差異，而所謂的效能提升1.7倍就是透過軟體升級來達成的，如果你手上有一台舊版Orin，只要安裝新的軟體，就可以穿上「紅內褲」變成Super的超人模式，不需要再為了這號稱的1.7倍效能購買新裝置，而原本Nano這個產品線的所有機器都會以Super型態出廠，不會再有純Nano規格的產品。

這樣說來，黃仁勳自稱這台為All brand New，事實上並非是全新的架構，只是舊瓶裝新酒，那麼你肯定會控告這個廣告華而不實對吧，錯錯錯，這次NVIDIA的Jetson Orin Nano “Super”效能提昇了，但定價卻從$499 (約台幣16,400)降到$249 (約台幣8,200)，對消費者來說這才是真正的實惠。

Orin Nano Super的優勢

那麼一個舊硬體框架是如何透過軟體提升到1.7倍效能？另外一個問題則是，8G小機器加上了最佳化軟體就能飛天鑽地嗎？

在這篇文章我們先回答第一個問題，Super Mode到底是從哪裡壓榨出來的？

答案可能是：加壓超頻。

我們觀察兩個不同Jetpack套件，前版本5.1與Super版本6.1，可以發現，早期的電源模式最高15W，而在Super版比15W還多了MAXN選項，根據官方數據MAXN代表大約25W，那麼我們選擇MAXN模式後，會有什麼改變呢？

下圖則是將電源模式調整為MAXN模式後，比較其運作數據可以發現CPU運作頻率可高達1.7GHz（原本1.5 GHz），記憶體從2.1 GHz提升到3.2 GHz。

依照官方數據，與AI運算相關的主要裝置GPU，其頻率更從原本的635 MHz提升到1020 MHz，這也就是主要的Super模式的由來。經由這幾個方向的壓榨，我們可以看到裝置在AI效能有顯著的提升，包括整數及浮點數的神經網路運算大約都能提升70%以上效能。

效能比較表(來源：NVIDIA)

如果你手上擁有的不是Nano這個規格的，是不是就沒辦法穿上紅內褲變成Super模式呢？嘿嘿，見鬼了，Orin NX也有Super模式，效能一樣提升近50%，但（人生最恨的就是這個但）NX沒有降價，目前依舊為原價，另外Orin中最高等級的AGX似乎還沒有紅內褲的消息，有賴後續更新。

圖片來源：NVIDIA

Jetson Orin在VLM的測試與應用

本篇文章的最後一部份我們來測試VLM的運用。

VLM（Vision Language Models，視覺語言模型）是結合影像和語言理解的AI模型，它的目標是讓模型像人類一樣，不僅能「看」到影像，還能理解影像的內容，並將其轉化為語言描述。與傳統的物件辨識模型（如YOLO、Faster R-CNN等）不同，這些模型專注於檢測圖像中的特定物體，進行物體定位和分類，而VLM則進行的是一種整體的圖像理解。

例如，VLM不像傳統物件偵測模型依賴圖像中的物體外觀來進行比對和分類，而是直接將整張圖像視為一個整體，並嘗試理解圖像中的場景、結構和各種關聯。它通過語言模型與視覺模型的結合，能夠從圖像中提取出更高層次的抽象信息，並生成對應的描述或推理。

舉個例子，人類在看一張照片時，會先對整體的場景進行理解，然後再分析圖像中的物體間的相互關係，例如：

場景識別：這是理解圖像的大致環境，可能是街道、公園、餐廳等。
結構分析：理解圖像中不同元素的關係。例如，兩個人在交談、一隻狗在草地上跑等。
語境推理：模型不僅知道圖像中的物體是什麼，還能推測它們可能的動作或語境。

VLM的應用範圍非常廣泛，包括但不限於：

圖像描述生成：根據圖像生成自然語言的描述。
視覺問答：根據圖片和問題回答具體問題。
圖像-文本匹配：將圖像與文本進行匹配或檢索。

這些模型透過大量的資料訓練，讓模型學會將視覺和語言訊息結合起來，達到類似人類的視覺理解能力。

VLM可以突破傳統影像物件辨識的限制，例如筆者在2024年曾與客戶談過一個專案，就是要辨別賣場中「小偷鬼鬼祟祟的行為」，在以往傳統的物件辨識領域這是很難辦到的，物件辨識只能知道物件的相對位置，我們可以能做到的是追蹤某個人在特定區域的出現，手上拿著什麼物品，但是鬼鬼祟祟這種行為到底要如何界定？必須要有一個準則才行，因此對方團隊列出了多個可能的準則，討論到最後我們決定放棄本專案，因為物件辨識來做這種行為判斷實在太難了。不過現在的VLM應用給我們一個可能的方向，以下筆者介紹幾個簡單的應用。

本次筆者使用的視覺模型為NanoVLM的VILA 1.5，關於模型的安裝設定可以參考jetson-ai-lab網站說明，而所使用的VILA 1.5（Vision-and-Language Pretrained Model）是一種先進的視覺語言預訓練模型，通過在大規模的圖像-文本對應資料集上進行預訓練，VILA 1.5能夠更好地理解和生成視覺內容的語言描述。VILA 1.5的核心創新在於強化了圖像與文本之間的關聯學習，使其能夠更精確地理解圖像中的細節及語境，並根據這些信息生成更自然且有邏輯性的語言回應。

筆者稍微修改的程式，讓它可以讀取OpenCV的Webcam影像，並將結果直接顯示在影像上，由於之前都是做影像辨識的專案，因此第一個測試就透過車輛辨識來了解道路交通的擁擠程度。

測試一：道路交通擁擠程度

目標：讓VLM辨識道路上車輛是否塞車。

提示語：辨識道路交通狀況，回覆一個形容詞，例如”busy”、”fine”、”empty”。

測試結果：辨識狀況相當好，我們使用Webcam拍攝電腦螢幕中的道路影像，模型會依據我們的提示語給予回覆。

圖A 是某條道路的即時影像，影像畫面中道路車流量極少，因此系統判斷為empty狀態：

圖B 是某快速道路的即時影像，影像畫面中道路車流擁擠，因此系統判斷為busy狀態：

本次希望模型使用關鍵語的方式回覆是因為這樣可以把路況的「標籤」直接存入資料庫，而不需要再透過人工了解語言內容。

結論：本次測試讓筆者對於以往僅依賴物件辨識的方法有了深刻體驗。傳統物件辨識需先計算車輛數量，再依據設定準則（如數量大於 10 判斷為擁擠、小於 5 判斷為順暢）來評估交通狀況。然而，在 VLM下，無需事先計算車輛數量，而是直接透過影像場景理解進行判斷，這確實是一種全新的方法。與傳統影像物件辨識相比，最大的差異在於車輛數量準則仍需人工設定，且不同監視器的視角與位置變化需要針對各自環境手動調整判定標準，而 VLM 則將這些工作交由 AI 進行理解與處理，大幅減少了人工設定的需求。

案例二：員工工作狀況

目標：使用VLM辨識員工是否於工作狀態，杜絕薪水小偷。

提示語：辨識人體行為狀態，回覆狀態結果，例如”The worker in the image is reading. ”、”The worker is holding a cell phone.”、”The worker is typing on a keybord.”。

測試結果：辨識表現相當好，我們使用Webcam拍攝人體各種行為動作，模型會依據我們的提示語給予回覆。

圖A 是由Webcam拍攝的人體行為，若在鏡頭下使用手機，系統判斷行為後可即時給予The worker is holding a cell phone.的提示：

圖B 結果顯示，若在鏡頭下使用鍵盤打字工作，系統判斷行為後可即時給予The worker is typing on a keybord.的提示：

圖C 結果顯示，若在鏡頭下看書閱讀，系統判斷行為後可即時給予The worker in the image is reading.的提示：

圖D 顯示若在鏡頭下趴著睡覺，系統判斷行為後可即時給予The worker in the image is sleeping.的提示：

結論：本次測試讓筆者對於以往的人體辨識方式有了全新的體驗。過去的做法通常需要先設定人體關節點，再依據動作進行分析，而這次使用 VLM，則是直接透過影像理解來判斷員工是否處於工作狀態，無需額外標記特定人體特徵。這種方式大幅簡化了流程，並展現出 VLM 在影像語意理解上的強大能力，讓我們對未來應用充滿期待。

案例三：工地安全

目標：使用VLM辨識工地作業畫面，並給予相關的工地安全說明或缺失。

提示語：辨識作業環境影像，回覆狀態結果，例如”The construction area is not well. ”、”The construction area is not clear.”

由於本案要判斷的場景內容比較多，沒辦法完整放到影像上，因此就直接把VLM描述的內容也截圖給讀者。

圖片A：辨識結果給予The construction area is not well.提示語

結果說明：

工地沒有適當的光線，可能會有看不到的危機
該區域似乎是建築工地，有金屬鷹架
該區域有2個工人
工人都有戴安全帽

圖片B：辨識結果給予The construction area is not clear.提示語

結果說明：

施工區域維護不善，有明顯雜物
工人沒有穿戴任何防護裝備，例如上衣
工人正在使用金屬桿作為臨時梯子

結論：本次測試顯示，VLM 在工地安全監測上的應用具有潛力，能夠直接透過影像場景理解，辨識施工區域的環境狀況與工人安全行為。測試結果準確識別了工地雜亂、缺乏維護，以及工人未穿戴防護裝備、使用不當工具作為臨時梯子的情況。

與傳統基於物件標記的方法相比，VLM 能夠提供更直覺且快速的安全性評估，減少了對特定標籤的依賴，展現了影像理解技術在安全監測領域的實用性與發展潛力。

總結

本次測試驗證了 VLM在 Jetson Nano Super上的運作潛力，並展現其在影像語意理解方面的強大能力。無論是人體辨識、交通流量分析，還是工地安全監測，VLM都能直接透過影像場景理解進行判斷，而無需依賴傳統的數據標記或特徵提取方式。Jetson Nano Super作為低功耗 AI 邊緣運算裝置，在這些應用場景下表現穩定，能夠有效處理即時影像分析需求，提升系統的靈活性與效率。由此可見，VLM 在Jetson Nano Super上的應用，未來可廣泛用於智慧監控、行為分析與安全管理，值得進一步優化與開發。

舊瓶裝新酒還是新瓶裝舊酒？Jetson Orin Super效能實測

Orin Nano Super的優勢

Nano實體開箱

實測 Jetson Orin “Super” 效能提升

一、安裝測試環境

二、開始測試

效能測試小結