在本文裡,將從商店櫃檯的產品推薦應用(俗稱:CLIP櫃台招財貓)來說明:我們可以拿CLIP(Contrastive Language Image Pre-training,對比語言圖像預訓練)的原始程式碼,搭配商家自有產品圖像(Image)和圖像敘述文句(Text),來訓練出企業自用的CLIP小模型,同時也領會其幕後潛藏空間(Latent space)的運作及其效果。
茲複習一下CLIP的特性,它的目標是透過大量圖片及文字描述,建立兩者間的對應關係。其做法是利用ResNet50等來萃取圖像的特徵,並映射到潛藏空間(Latent space)。也就是將圖像編碼成為潛藏空間向量。同時,也利用Transformer萃取與圖像相配對文句的特徵,並將文句編碼成為潛藏空間向量。最後經由模型訓練來逐漸提高兩個向量的相似度。換句話說,CLIP能將圖像和文句映射到同一個潛藏空間,因此可以迅速計算圖像與文句的相似度。
只需不到短短一分鐘...
輸入您的信箱與ID註冊即可享有一切福利!
會員福利
1
免費電子報
2
會員搶先看
3
主題訂閱
4
好文收藏