作者/圖片提供:數位內容人
創作動機
我們團隊熱愛研究資訊技術與中文,特別是文學的跨域結合,AI 與文學結合,可以創造出絕美視覺體驗,並且創造新契機。本計畫用 AI 技術來結合兩個創作族群:圖片創造者(一般拍照者、攝影師、插畫設計師)、文字書寫者,讓我們來看看圖文的匹配結合可以擦出什麼新火花,概念驗證也已實作成功,有興趣的人歡迎來用用看。 (也可參考demo)
實作方法
首先我們利用 Intel OpenVINO 對圖片創造者所上傳的圖片進行物件辨識、並且加以標籤化,另一方面,對於文字書寫者,系統以拆詞機制即時分析文字內容,然後透過標籤的比對,找出最適合文意的圖片作為版面背景,如此便成為一篇能吸引眼球的文章。
我們的演算法採用 ssd_mobilenet_v2_coco 圖片物件辨識推論模型 + coco_91cl_bkgr.txt 標籤檔,硬體設備為 Intel i7 3370,Openvino 技術很不錯,轉譯出來的模型運作速度飛快,一張圖辨識出各種物件所需時間平均落在 100ms 以內,另外,因為受限於標籤檔的詞彙容量,目前先支援 90 個標籤來進行示範,標籤同時支援英文與中文。文字拆詞找圖功能是即時的,當書寫者打字時、系統會即時分析目前內容並推薦最佳圖片。
未來發展
純文字的時代漸漸過去,拍出漂亮照片則是人人都已擁有的能力(因為手機越來越強大),那麼將這兩個概念結合起來如何?一段文字搭配一個好看背景圖,可以做出卡片表達心意 (情人、親子紀錄生活)、可以為失落的出版業找到新機會 (跳出滿是文字的傳統框架)、或者可以打造新型態的社群平台 (想想看 IG當初的點子)。
這個範例僅是一個初步的發想,還有很多可能性等待我們的探索。
延伸閱讀
註1:我們發現 ssd_mobilenet_v2_coco 推論模型比較適合分析照片,對於插圖的精確度就差了一些,所以本計畫先以照片類圖片為主要的試驗對象。
註2:團隊目前在政大數位內容研究人機設計,期望以新科技為傳統人文帶來新面貌。
(本文作品為《2021 Intel DevCup x OpenVINO Toolkit競賽》概念組參賽提案,文章經作者同意轉載;原文連結;責任編輯:唐育琪)
- 【Maker Project】為文學加上彩妝的圖文匹配機 - 2022/03/24