Vision Transformer

5 月07

提升複雜場景辨識力：YOLOv12 向 Transformer 技術靠攏

YOLOv12也向Transformer技術靠攏！本文介紹其創新設計技術亮點。

4 月30

NVIDIA與Google持續提出通用型機器人AI（Generalist Robot AI）架構，本文將從兩者的相似性與互補性進行探討，以提供對通用機器人AI合作與融合可能性的分析展望。

4 月23

最新版本的YOLOv12延續了 YOLO 系列一貫的「高速 + 準確」的設計理念，但在架構、訓練方法與推論效率方面均有顯著改進，並且更加靠近 transformer 技術與多模態學習的整合，本文將做個介紹。

3 月20

ViT 顛覆了傳統 CNN 在視覺領域的統治地位，透過 Transformer 直接處理影像，展現了極大的潛力。

3 月14

從單模態的LLM出發，目前的AI正如火如荼朝向多模態模型發展，特別是處理語言 + 平面視覺或連續視覺的VLM及Video-LM模型，讓AI看圖說故事或說故事生影片的情境成真了。

2 月25

ViT（Vision Transformer）與 YOLO（You Only Look Once）都是知名的物件辨識技術，但它們在架構、應用場景和優勢方面有明顯的不同，本文將針對兩大技術來做一個比較。