作者:高煥堂
繼上篇文章說明Container的概念與AI建模師的職責後,我們接著來談談台灣AI產業(生態)如何走出自己的康莊大道。
2022年被稱為是AIGC元年。AIGC是通過 AI 技術來自動或輔助生成內容,從字面來看,AIGC並不難理解。AIGC全稱為AI Generated Content,對應互聯網的PGC(專業生產內容)、UGC(使用者生成內容)、PUGC(專業使用者生成內容)等概念。
抓住AIGC產業大潮流
Science發佈的《2022年度科學十大突破》中,AIGC作為人工智慧領域的重要突破也赫然在列。未來十年,AIGC將顛覆現有內容生產模式,可以實現以十分之一的成本,以百倍千倍的生產速度,去生成包括AI繪畫、AI作曲、AI視頻、AI寫作等AI原創內容。而這些AI原創內容只有經過版權登記,才能成為新型資料要素,進入流通和交易市場,融入數位經濟大發展。
AIGC是元宇宙content 最佳創作者。為什麼AI會創作呢?當今AI是基於ML(機器學習),它會向人類學習。
它向人類學習什麼呢?學習人類的做事、創物的經驗直覺。經驗直覺的邏輯是不清晰的,無法經由程式設計來寫成代碼。那我們該如何把人類的直覺智慧弄進去機器(AI)呢?答案是:從人類的作品(如繪畫、音樂、文學作品、食譜、遊戲、對話、網路文章)中學習作品的形式、風格、情緒等。
這些作品放到網路上,皆成為大資料(Big Data)。於是,我們就拿這些大資料來給AI學習,謂之:訓練。AI從人類作品中學習到人類專家(創作者)的招式(Patterns )和風格(Style )。如同金庸武俠中的楊過、小龍女向大俠們學習了許多武功招式。
經年累月,楊過和小龍女,學而時習之,逐漸地在內心深處沉澱出招式背後的精華神韻,謂之:無招祕境。一樣地,AI經過幾十天(上億回合)的學習大量作品的創作招式和風格,逐漸地在AI模型內部的祕境中沉澱出招式背後的精華神韻,這個AI中的無招祕境,謂之:潛藏空間(Latent Space),又稱:隱空間。
武俠中上説:無中生有,從無招中生出千變萬化,無招勝有招。 一樣地,AI也能從其無招祕境中的精華神韻,生出千變萬化的新招式,也就是新作品、新內容(Content )。這種新創作新內容,就謂之:AIGC(AI Generated Content)。
唯有大力裁培AI建模師,台灣才有機會在AIGC賽道上勝出。因為建模師可以串聯「 AIGC文創 」與「Edge AI晶片 」。AIGC潮流下的企業贏家之路:「家貓+野貓」組合成GAN大模型。而「訓練生成型AI」是最有競爭力的子行業。
AIGC潮流下,台灣AI產業的康莊大道
例如,如何把ChatGPT (野貓),養成企業專用的ChatGPT (家貓)呢?我(高煥堂教授團隊)目前的做法是:開發自己的Graph AI (本家丫環),搭配ChatGPT (外來的格格)。然後建立自己的數字人,當交互UI。而丫環的背後,我建了企業KG(知識圖譜)來支持Graph AI model。ChatGPT 可減輕丫環的開發成本,給最終用戶更廣的common sense。
我們大力傳播〈家貓+野貓〉之美,野貓幾乎不花錢,可節省以前開發土狗(IT系統)的錢,低成本建模、訓練家貓,幫各企業省錢,咱們就有利。因為野貓已服務個人,咱們則是服務企業,而非個人。AIGC潮流下的企業贏家之路:〈家貓+野貓〉組合成GAN大模型。
ChatGPT的能力很驚人,但它仍是縱橫江湖的野貓,而非真正貼心的「家貓」。換句話說,ChatGPT仍是位創新組合食材的炒飯快手,還需搭配您自己的素材,才真正創新大廚師。
ChatGPT 上想搭配您自己的食材,可行途徑之一是:您自己建立中小格局的AI模型,輸入您的素材,您自已訓練該模型,訓練出「隱藏空間向量」,然後將它(向量),融合進去ChatGPT的隱藏空間裡。
所以,逐漸地家家戶戶都需要「AI建模師」來建模、訓練,然後融合成有高度智慧的「AI家貓」。企業與ChatGPT,其實商業化的關鍵並不在於:企業的人如何使ChatGPT ,而是在於企業的家貓(Graph AI)如何與外來野貓(ChatGPT )交互說話,來引導野貓發揮其天份做出極佳的內容(ex.文案)。
我(高煥堂教授團隊)的做法是:把野貓做出的文案交給(輸入)家貓,由家貓AI自動在文案內容貼標注(Label )。家貓AI再把貼好標注的文案,交回給野貓,引導(Prompt )野貓重新生成優化內容。
例如,〈 ChatGPT + 數位人 〉很棒的組合。開發自己的Graph AI(本家丫環),搭配ChatGPT (外來的格格)。NER將成為家貓(丫環)的重點。然後最有創意的是:野貓ChatGPT 的輸出檔,成為家貓Graph AI的輸入資料。
就如同醫療AI的NER模型閱讀病歷檔一樣,小丫環閱讀格格的文案,並依據企業KG知識去標注、修飾格格的輸出文中。家貓扮演「判別器」角色,而野貓扮演「生成器」角色。〈家貓+野貓〉巧妙組合成為大型GAN。
所以AI建模師訓練家貓成為最佳的prompt AI來引導強大野貓。用AI跟AI對話,才時髦高效。以人跟AI對話,太Low了。歡迎加入高教授的〈建模師俱樂部〉,加快養自己的家貓。
贏家之路:從KG與Graph AI出發
台灣AI產業(生態)的康莊大道:KG 和Graph Al。它將是臺灣AI產業(生態)未來10~20年最具商業獲利之點。而其人機介面:數字人,也會水漲船高。任何捕捉專家直覺(智慧)的機制,都可獲利。因為AI在200年內,都缺乏果因性推理能力,它愈強大對專家直覺的需求愈大。茲說明Graph AI,如下:
傳統的機器學習和深度學習工具專門用於簡單的數據類型。就像具有相同結構和大小的圖像(Image)。Graph Data非常複雜,給現有的機器學習演算法帶來了很多挑戰。但是還有更複雜的圖,沒有固定的形式,具有可變大小的無序節點,其中節點可以有不同數量的鄰居。
現有的機器學習演算法有一個核心假設,即實例相互獨立,這也無濟於事。這對於圖形數據是錯誤的,因為每個節點都通過各種類型的鏈接與其他節點相關聯。圖形神經網絡 (Graph Neural Network, GNN) 是一類深度學習方法,旨在對圖形描述的數據進行推理。
GNN 是可以直接應用於圖形的神經網絡,並提供了一種簡單的方法來執行節點級、邊緣級和圖級預測任務。GNN 背後的核心概念引入了隱藏的卷積和池化層,以通過一組內核形式的感受野來識別空間局部特徵。
關鍵點:Graph AI是處理圖形結構的大數據,而一般的AI都是處理向量(Vector)和矩陣(Array)結構的資料(數據)。茲說明「知識圖譜與Graph AI」如下:
由於知識圖譜本身就是一種圖資料,因此知識圖譜+GNN 的組合自然就成為瞭解各類知識圖譜問題的新手段。例如: GNN 對知識圖譜進行建模,相比之前基於單獨三元組關係的推理,基於 GNN 的方法可以更好地捕捉三元組鄰域複雜而隱含的模式資訊,這種優勢對完成關係、補全任務具有十分重要的作用。
近幾年,知識圖譜在工業界聲勢日隆,在這種語境下,我們也稱知識圖譜為業務圖譜。GNN 技術對電影業務圖譜進行建模,在電影流行度預測上效果表現十分出色。GNN 本身是一種深度模型,與推薦系統結合之後,多層 GNN 模型可以更好地捕捉使用者與商品之間的高階協同關係。
(責任編輯:謝嘉洵)
- LoRA微調三步驟:以大語言模型MT5為例 - 2024/05/02
- 為什麼Gemma採取Decoder-Only Transformer架構呢? - 2024/04/08
- 如何從0訓練企業自用Gemma模型 - 2024/04/03