Posted By owenou on 3 月 14, 2025 in Gemini, LLaVA, Multimodal, Vision Transformer, 技術導讀, 知識庫
從單模態的LLM出發,目前的AI正如火如荼朝向多模態模型發展,特別是處理語言 + 平面視覺或連續視覺的VLM及Video-LM模型,讓AI看圖說故事或說故事生影片的情境成真了。
只需留下E-Mail,即可獲得最新的知識文章分享和第一手的活動資訊 !