【啟動AI Maker世代 】2024 MAI 開發者社群大會(5/16-17)
|

【Maker Project】為文學加上彩妝的圖文匹配機

   

作者/圖片提供:數位內容人

創作動機

我們團隊熱愛研究資訊技術與中文,特別是文學的跨域結合,AI 與文學結合,可以創造出絕美視覺體驗,並且創造新契機。本計畫用 AI 技術來結合兩個創作族群:圖片創造者(一般拍照者、攝影師、插畫設計師)、文字書寫者,讓我們來看看圖文的匹配結合可以擦出什麼新火花,概念驗證也已實作成功,有興趣的人歡迎來用用看。 (也可參考demo)

實作方法

首先我們利用 Intel OpenVINO 對圖片創造者所上傳的圖片進行物件辨識、並且加以標籤化,另一方面,對於文字書寫者,系統以拆詞機制即時分析文字內容,然後透過標籤的比對,找出最適合文意的圖片作為版面背景,如此便成為一篇能吸引眼球的文章。

我們的演算法採用 ssd_mobilenet_v2_coco 圖片物件辨識推論模型 + coco_91cl_bkgr.txt 標籤檔,硬體設備為 Intel i7 3370,Openvino 技術很不錯,轉譯出來的模型運作速度飛快,一張圖辨識出各種物件所需時間平均落在 100ms 以內,另外,因為受限於標籤檔的詞彙容量,目前先支援 90 個標籤來進行示範,標籤同時支援英文與中文。文字拆詞找圖功能是即時的,當書寫者打字時、系統會即時分析目前內容並推薦最佳圖片。

未來發展

純文字的時代漸漸過去,拍出漂亮照片則是人人都已擁有的能力(因為手機越來越強大),那麼將這兩個概念結合起來如何?一段文字搭配一個好看背景圖,可以做出卡片表達心意 (情人、親子紀錄生活)、可以為失落的出版業找到新機會 (跳出滿是文字的傳統框架)、或者可以打造新型態的社群平台 (想想看 IG當初的點子)。

這個範例僅是一個初步的發想,還有很多可能性等待我們的探索。

延伸閱讀

註1:我們發現 ssd_mobilenet_v2_coco 推論模型比較適合分析照片,對於插圖的精確度就差了一些,所以本計畫先以照片類圖片為主要的試驗對象。

註2:團隊目前在政大數位內容研究人機設計,期望以新科技為傳統人文帶來新面貌。

(本文作品為《2021 Intel DevCup x OpenVINO Toolkit競賽》概念組參賽提案,文章經作者同意轉載;原文連結;責任編輯:唐育琪)

Lanning Huang
Latest posts by Lanning Huang (see all)
Huang Lanning

Author: Lanning Huang

本概念作品開發者來自政大數位內容所,專長為中文、圖像技術、人機互動設計、以及人工智慧,興趣是將不同領域的東西結合,生出新的意義。尖端科技不該只用在新興領域,在傳統的領域,特別是人文,往往能找到更棒的應用,雖然說可能會比較孤單,但這條路寬闊幽雅,做的東西更能觸動人心,對我而言這是最大的收穫。

Share This Post On
468 ad

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *