|

從認知學理解ChatGPT魅力的來源(二)

   

作者:高煥堂

那麼,我們該如何把人類的直覺智慧弄進去機器(AI)呢? 途徑有三:從專家作品中學習、採取監督式學習(即分類標籤)、以及從知識圖譜中學習。

從專家作品中學習

從人類的作品(如繪畫、音樂、文學作品、食譜、遊戲、對話、網路文章)中學習作品的形式、風格、情緒等。這些作品放到網路上,皆成為大資料(Big Data)。於是,我們就拿這些大資料來給AI學習,謂之:訓練(Training)。    例如,俗語說:「巧媳婦難為無米之炊」。也就是:巧媳婦做不來沒米的飯。有一天AI來到廚房,想從巧媳婦學習她的做飯風格。於是,巧媳婦就準備訓練數據給他學習。然後,AI也會做出(生成)香噴噴的飯。這就是生成型AI。

請思考:上述AI的訓練數據是什麼數據呢?關於「米」的數據?關於「飯」的數據?還是關於「巧媳婦做飯方法(食譜)」的數據呢?答案是:關於「飯」的數據。

採取監督式學習(即分類標註)

人類專家如何傳授直覺性知識給AI模型呢? 最基本的做法就是:貼分類標簽,也就是做標注(Labeling)。這意味了,在訓練階段必須採取「監督式學習」模式。

以企鵝GAN為例

例如,在AIGC領域,有一個著名的GAN模型,想來生成下述兩類別(Class)企鵝圖像:

告訴GAN:類似左邊這兩隻的就是。如何告訴GAN呢? 就貼上分類標籤(Label):「中獎的企鵝」。GAN還需要知道:甚麼是沒中獎的企鵝,我們就告訴GAN:類似左邊這兩隻的就是。如何告訴GAN呢? 就貼上分類標籤(Label):「落空的企鵝」。

由於「類似」,所以訓練時需要添加噪音。於是,當GAN得知企鵝中彩票時,就會生成「類似於」左邊這兩隻的企鵝圖像。這就是AI生成的內容,簡稱:AIGC。就人類而言,是對圖像進行分類(Classification),然後貼上標籤。然而對GAN而言,它的任務是:因為「企鵝中了彩票」,所以生成「類似於」左邊這兩隻的企鵝圖像。

以Covid-19快篩檢測為例

 人類專家(如醫生)們「看」到Covid-19的快篩試劑出現兩條紫紅線,就預測是「因為」受到Covid-19病毒的感染。同樣,他(她)「看」到只呈現一條紫紅線,就預測是「因為」沒受到Covid-19病毒的感染。於是,就把這項「專家直覺」知識,拿來訓練AI模型(即進行機器學習)。如下圖:

所觀察到的快篩試劑呈現圖像(一條線或兩條線),就成為X,而其原因就是Y。ML就即於統計回歸公式:Y = X*weight + bias,進行機器學習來找出最適合的 weight (常以W表示)及 bias (常以B表示)。如下:

這是二元分類模型。輸入層有2個神經元,輸出層也是2個神經元:

由專家的直覺知識,來對兩個類別進行標註。例如,Y = [0, 1]時,表示被沒有被感染(即陰性)。

 反之,Y=[1, 0]時,表示有被感染(即陽性)。

人類的「專家直覺」知識中,蘊含非常珍貴的智慧:「果因推理」。也就是:眼睛看到事物表徵(果),能瞬間洞察出其原「因」。醫師就是典型的「果因推理」專家。他(她)的經驗直覺裡蘊含非常珍貴的智慧:「果因推理」。也就是:眼睛看到Patient的症狀(果),能瞬間洞察出其病「因」,然後對症下藥,藥到病除。

從知識圖譜中學習

KG知識圖譜(匯集專家直覺 )

          》 ChatGPT(生成文案,優雅對話)

                     》 商品服務AI推薦系統

                                    》讓企業實踐「比客戶更懂客戶」

KG知識圖譜+GNN(Graph Neural Network)的組合自然就成了解決各類知識圖譜問題的新手段。例如: GNN 對知識圖譜進行建模,相比之前基於單獨三元組關係的推理,基於 GNN 的方法可以更好地捕捉三元組鄰域複雜而隱含的模式資訊,這種優勢對完成關係補全任務具有十分重要的作用。

GNN 本身是一種深度NN模型,與推薦系統結合之後,多層 GNN 模型可以更好地捕捉使用者與商品之間的高階協同關係。能讓企業具有「比客戶更懂客戶」的尚方寶劍。

從產業而觀之,台灣AI產業(生態)的康莊大道:KG 和 Graph Al。它將是台灣AI產業(生態)未來10~20年最具商業獲利之點。而其人機介面:數字人,也會水漲船高。任何捕捉專家直覺(智慧)的機制,都可獲利。因為AI在200年內,都缺乏果因性推理能力,它愈強大對專家直覺的需求愈大。茲說明Graph AI,如下:

傳統的機器學習和深度學習工具專門用於簡單的數據類型。就像具有相同結構和大小的圖像(Image)。Graph Data非常複雜,給現有的機器學習演算法帶來了很多挑戰。但是還有更複雜的圖,沒有固定的形式,具有可變大小的無序節點,其中節點可以有不同數量的鄰居。

現有的機器學習演算法有一個核心假設,即實例相互獨立,這也無濟於事。這對於圖形數據是錯誤的,因為每個節點都通過各種類型的鏈接與其他節點相關聯。圖神經網絡 (GNN) 是一類深度學習方法,旨在對圖描述的數據進行推理。

GNN 是可以直接應用於圖的神經網絡,並提供了一種簡單的方法來執行節點級、邊緣級和圖級預測任務。CNN 背後的核心概念引入了隱藏的卷積和池化層,以通過一組內核形式的感受野來識別空間局部特徵。

關鍵點:Graph AI是處理圖形結構的大數據,而一般的AI都是處理向量(Vector)和矩陣(Array)結構的資料(數據)。由於知識圖譜本身就是一種圖資料,因此知識圖譜+GNN 的組合自然就成瞭解決各類知識圖譜問題的新手段。

例如:GNN對知識圖譜進行建模,相比之前基於單獨三元組關係的推理,基於GNN的方法可以更好地捕捉三元組鄰域複雜而隱含的模式資訊,這種優勢對完成關係補全任務具有十分重要的作用。

圖右顯示基於GNN的方法可以更好地捕捉三元組鄰域複雜而隱含的模式資訊(資料來源

小結

近幾年,知識圖譜在工業界聲勢日隆,在這種語境下,我們也稱知識圖譜為業務圖譜。GNN 技術對電影業務圖譜進行建模,在電影流行度預測上效果表現十分出色。如剛才所述,GNN 本身是一種深度模型,與推薦系統結合之後,多層 GNN 模型可以更好地捕捉使用者與商品之間的高階協同關係。

(責任編輯:謝嘉洵。)

高煥堂
高煥堂

Author: 高煥堂

擁有40多年軟硬體整合設計經驗,專精Android終端平台、AI、Docker容器、VR、AI(人工智慧)、IC軟硬整合技術與大數據應用。 近5年來,從事於AI普及化教育工作,目前擔任銘傳大學AI課程、長庚智慧醫療研究所AI課程授課老師。也擔任永春國小、東園國小、立志中學、君毅中學、永春高中等學校的AI師資培育工作。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *