|
【AI知多少】VLM如何「看見」影像:ViT
3 月20

【AI知多少】VLM如何「看見」影像:ViT

ViT 顛覆了傳統 CNN 在視覺領域的統治地位,透過 Transformer 直接處理影像,展現了極大的潛力。

Read More
掌握「多模態視訊模型」現況與開發流程
12 月02

掌握「多模態視訊模型」現況與開發流程

目前AI生成已從文本/語言應用走向多模態,特別是影像及影片,本文針對多模態影片模型及框架進行介紹。

Read More