Posted By owenou on 3 月 14, 2025 in Gemini, LLaVA, Multimodal, Vision Transformer, 技術導讀, 知識庫
從單模態的LLM出發,目前的AI正如火如荼朝向多模態模型發展,特別是處理語言 + 平面視覺或連續視覺的VLM及Video-LM模型,讓AI看圖說故事或說故事生影片的情境成真了。
Posted By MakerPRO編輯部 on 11 月 11, 2024 in LLaVA, Multimodal, 技術導讀
本文介紹當紅多模態模型 – LLaVA與LLM的關係,以及其重要性、可行性及推薦學習資源。
只需留下E-Mail,即可獲得最新的知識文章分享和第一手的活動資訊 !