Posted By MakerPro on 3 月 20, 2025 in Vision Transformer, VLM, 技術導讀, 知識庫
ViT 顛覆了傳統 CNN 在視覺領域的統治地位,透過 Transformer 直接處理影像,展現了極大的潛力。
Posted By MakerPro on 12 月 2, 2024 in AI關鍵技術, Multimodal, Vision Transformer, 技術導讀
目前AI生成已從文本/語言應用走向多模態,特別是影像及影片,本文針對多模態影片模型及框架進行介紹。
只需留下E-Mail,即可獲得最新的知識文章分享和第一手的活動資訊 !