|
本地端高效、高畫質影片生成引擎來了:LTX-2
10 月28

本地端高效、高畫質影片生成引擎來了:LTX-2

LTX-2 不只是另一款技術模型,它標誌著「生成式影片」從邊緣試驗進入「廣泛創作/實務應用」的時代。對 Edge AI 開發者而言,LTX-2 則代表生成式 AI 已逐步邁向「可在本地運行、低延遲、可整合於實際應用管線」的新階段。

Read More
提升複雜場景辨識力:YOLOv12 向 Transformer 技術靠攏
5 月07

提升複雜場景辨識力:YOLOv12 向 Transformer 技術靠攏

YOLOv12也向Transformer技術靠攏!本文介紹其創新設計技術亮點。

Read More
NVIDIA與Google的通用機器人AI技術是競爭或互補?
4 月30

NVIDIA與Google的通用機器人AI技術是競爭或互補?

NVIDIA與Google持續提出通用型機器人AI(Generalist Robot AI)架構,本文將從兩者的相似性與互補性進行探討,以提供對通用機器人AI合作與融合可能性的分析展望。

Read More
YOLOv12的改變:向Transformer、Attention靠攏!
4 月23

YOLOv12的改變:向Transformer、Attention靠攏!

最新版本 的YOLOv12延續了 YOLO 系列一貫的「高速 + 準確」的設計理念,但在架構、訓練方法與推論效率方面均有顯著改進,並且更加靠近 transformer 技術與多模態學習的整合,本文將做個介紹。

Read More
【AI知多少】VLM如何「看見」影像:ViT
3 月20

【AI知多少】VLM如何「看見」影像:ViT

ViT 顛覆了傳統 CNN 在視覺領域的統治地位,透過 Transformer 直接處理影像,展現了極大的潛力。

Read More
【AI知多少】單模態到多模態:LLM、VLM、Video-LM
3 月14

【AI知多少】單模態到多模態:LLM、VLM、Video-LM

從單模態的LLM出發,目前的AI正如火如荼朝向多模態模型發展,特別是處理語言 + 平面視覺或連續視覺的VLM及Video-LM模型,讓AI看圖說故事或說故事生影片的情境成真了。

Read More