|
讓機器人開始「思考下一步」的三個關鍵模型:ACT、RDT-1B和π₀
12 月10

讓機器人開始「思考下一步」的三個關鍵模型:ACT、RDT-1B和π₀

剖析 ACT、RDT-1B和π₀的發展,一個共同的核心事實逐漸清晰:機器人的智能正在從「控制」升級到「理解」與「生成」。

Read More
為何Google、NVIDIA和Intel都支持LeRobot開源專案?
12 月05

為何Google、NVIDIA和Intel都支持LeRobot開源專案?

LeRobot 的快速崛起,除了提供了一套優雅的軟體架構來處理 VLA 模型的核心挑戰,更透過與 Google、NVIDIA、Intel 和 Hugging Face 自身的深度協作,構築了一個從雲端訓練到邊緣部署的完整生態閉環。

Read More
WorldVLA:視覺、語言與動作的融合之路
10 月03

WorldVLA:視覺、語言與動作的融合之路

WorldVLA 是一個自回歸動作世界模型,它將動作和圖像的理解與生成統一起來。 WorldVLA 將視覺-語言-動作 (VLA) 模型(動作模型)和世界模型整合在一個框架中。

Read More
互動式世界模型的新境界:Genie 3來了!
9 月01

互動式世界模型的新境界:Genie 3來了!

DeepMind 已經先後推出 Genie 1 與 Genie 2,嘗試讓模型依照指令生成新的環境。與此同時,他們在影片生成領域的 Veo 系列模型 也展現了 AI 對「直覺物理學」的掌握力。但直到 Genie 3,這一切才真正邁入了「互動式世界」的新階段。

Read More
Meta的世界模型:V-JEPA 2如何讓機器學會「先想像再行動」
8 月12

Meta的世界模型:V-JEPA 2如何讓機器學會「先想像再行動」

AI能看到眼前的世界,並推測下一秒將會發生什麼?Meta最新發表的 V-JEPA 2 世界模型,正是向這個方向跨出關鍵一步——它不只是辨識影像,而是理解因果、預測未來,甚至在陌生環境中替機器人規劃行動。

Read More