ViT | MakerPRO

|

Home » Posts Tagged "ViT"

【AI知多少】VLM如何「看見」影像：ViT

3 月20

【AI知多少】VLM如何「看見」影像：ViT

Posted By MakerPro on 3 月 20, 2025 in Vision Transformer, VLM, 技術導讀, 知識庫

ViT 顛覆了傳統 CNN 在視覺領域的統治地位，透過 Transformer 直接處理影像，展現了極大的潛力。

Read More

掌握「多模態視訊模型」現況與開發流程

12 月02

掌握「多模態視訊模型」現況與開發流程

Posted By MakerPro on 12 月 2, 2024 in AI關鍵技術, Multimodal, Vision Transformer, 技術導讀

目前AI生成已從文本/語言應用走向多模態，特別是影像及影片，本文針對多模態影片模型及框架進行介紹。

Read More