【啟動AI Maker世代 】2024 MAI 開發者社群大會(5/16-17)
|

利用OpenVINO以BLIP實現視覺語言邊緣AI部署

   
作者:武卓

人類透過視覺和語言感知世界。人工智慧(AI)的一個長期目標是構建智慧體,透過視覺和語言輸入來理解世界,並通過自然語言與人類交流。比如,在《如何以OpenVINO在Intel GPU上執行Stable Diffusion》中,我們介紹了利用OpenVINO執行Stable Diffusion模型,快速實現文生圖應用。讓人人可以成為繪畫大師,利用AI隨心作畫。

隨著電腦視覺和自然語言處理領域的快速發展,視覺與語言的融合越來越受到研究人員的重視。在這個背景下,BLIP (Bootstrapping Language-Image Pre-training)作為一種創新的預訓練模型,引起了廣泛關注。該模型在大規模的影像文字資料集上預訓練深度神經網路模型,以提高下游視覺語言任務的性能,如影像文字檢索、影像描述(Image Captioning)和視覺問答(visual question answering)。透過聯合訓練影像和文字資料,為視覺與語言的融合提供了強大的基礎。

圖1:BLIP推論結果範例。 圖1:BLIP推論結果範例。

BLIP 的預訓練過程涉及兩個關鍵元件:影像編碼器和文字編碼器。影像編碼器負責將輸入的影像轉換為低維向量表示,而文字編碼器則將輸入的文字轉換為另一個低維向量表示。為了實現統一的視覺-語言預訓練,BLIP 採用了一種跨模態約束策略,即在預訓練階段,影像編碼器和文字編碼器被設計成相互約束的。這樣的約束機制,強制模型學習將視覺資訊和語言資訊進行對齊,從而使得模型在後續任務中能夠更妥善地處理視覺與語言之間的聯合資訊。

除了視覺-語言理解任務,BLIP 還在視覺-語言生成任務中表現出色。在這個任務中,模型需要根據輸入的影像和文字生成相關的描述或回答問題。BLIP 透過聯合訓練和導入了影像-文字生成任務,使得模型具備了更強大的影像描述和問題回答能力。這使得 BLIP 在影像描述生成和視覺問答等任務上取得了優異的成績。

接下來,我們一起來看看如何在研揚科技(AAEON)的新產品UP Squared Pro 7000 Edg上,運作利用OpenVINO來最佳化BLIP的推論加速有哪些重點步驟吧!

本文為會員限定文章

立即加入會員! 全站文章無限看~

                               

已經是會員? 按此登入

只需不到短短一分鐘...

輸入您的信箱與ID註冊即可享有一切福利!

會員福利
1

免費電子報

2

會員搶先看

3

主題訂閱

4

好文收藏

武卓

Author: 武卓

武卓博士現任英特爾AI軟體佈道師

Share This Post On
468 ad

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *