什麼是機器學習? #
機器學習是人工智慧的分支之一,是實現人工智慧的一個途徑。而在近年來已發展成一門多領域的交叉學科,其所涉及的知識包括機率論、統計學、逼近論、計算複雜性理論等等。機器學習最主要的就是設計和分析一些讓電腦能夠自動學習的演算法,執行模式是從資料中自動分析獲得規律,並利用取得的規律對未知資料進行預測。
目前機器學習以廣泛地被應用在各個領域,諸如資料探看、電腦視覺、搜尋引擎等等都可以看到機器學習的應用,甚至在遊戲的設計上也會應用到機器學習的技術。
機器學習如何運作? #
機器學習包括了不同類型的學習模式,而根據資料的性質與期望的結果,可以採用監督式、非監督式、半監督式或強化式等四種不同的學習模式進行演算。在這些模式中,可以套用一或多種演算法技術。其主要用於分類事物、辨識模式、預測結果並做出判斷。而在分析複雜又難以預測的資料時,可以選擇使用一種,或組合多種演算法來得到最準確的結論。
監督學習是從給出的訓練資料集中學習處的一個函數,而當新的資料來時,就可以根據函數預測結果,常見的包括迴歸分析和統計分類。非監督學習和監督學習相比,它沒有人為標註的結果。常見的無有生成對抗網路(GAN)、聚類等等。半監督學習則是介於監督學習與無監督學習之間。而強化式學習會為了達成目標,隨著環境的變動,而逐步調整其行為,並評估每一個行動之後所到的回饋。
機器學習目前有哪些挑戰需要克服? #
由於機器學習是運用資料來進行訓練與分析,所以目前對機器學習而言最容易出現問題的地方就是資料。
首先,資料量的不足。機器學習仰賴大量的資料來進行訓練與判讀,就算是簡單的問題也需要成千上萬個樣本才有辦法訓練出來。而如何取得更多的資料,對於機器學習的開發者而言就是一個值得思考的問題。
其次,是資料的代表性問題。為了演算法能夠良好的運行,除了需要大量的訓練資料之外,還需要良好案例。缺少資料會讓機器學習難以運行,缺乏代表性的資料同樣也會讓機器學習出現問題。如果樣本太少,會造成抽樣雜訊,如果抽樣的方法有缺陷,也會造成抽樣偏差。
目前來說,機器學習仰賴資料,但同時困境也在於資料,如何克服資料的數量、正確性與代表性,是所有機器學習開發團隊所需要注意與思考的。
參考資料: