AWS DeepComposer為何能用AI協助音樂創作?

作者:陸向陽

2019年11月AWS例行技術年會re:Invent活動中,AWS正式發表DeepComposer的MIDI鍵盤,售價99美元。AWS宣稱該鍵盤搭配人工智慧(AI)技術可以協助新曲創作,這到底是怎麼一回事?關於此須先從生成對抗網路(Generative Adversarial Network, GAN)談起。

AWS DeepComposer實體MIDI鍵盤。(Source

為何GAN?

在AI技術發展歷程中GAN算是極新的玩意兒,約在2014年提出,在此之前AI技術多在於訓練一個能發揮判別或預測作用的模型,為了訓練模型必須先餵給模型足夠的正確資料,甚至對資料進行正確標記,模型訓練完成後,便能對後續的新資料給予評判推斷(inference),如資料是真是假?或真假可能性是多少?

上述的訓練方式必須有大量取自真實世界的資料,但如果資料沒那麼多呢?這時GAN即派上用場,GAN一開始會以隨機方式製造一些以假亂真的資料,與原本的真實資料一同餵入判別模型內,判別模型得到足夠量的資料進行學習而後判別,並判別出GAN產生的資料為假資料,判別結果會回饋給GAN。

GAN為了避開被模型真確辨認出為假資料,在後續產生的資料上會再行精進變化,變化出能夠欺騙過判別模型的新方法,而後判別模型也再進化,進化成可以辨認出GAN新產生的偽造資料,如此一來一往,有「魔高一尺、道高一丈」的意味。

GAN生成對抗網路原理示意圖(Source:陸向陽)

GAN可以用在反面資料不足的情況,例如多數的信用卡交易資料都是正常的,盜刷交易的資料相對稀少,如此要訓練出一個能夠判別盜刷行為的模型則有資料量不足的麻煩,難以成熟訓練,這時運用GAN可以產生一些假造的交易資料,以便模型訓練能順利些。

或者,正常無害的程式很多,惡意程式相對為少,這時要訓練出一個能偵測出惡意程式的模型就相當困難,對此同樣可以用GAN來產生不正常、帶有惡意危害的程式以利訓練。GAN聽來很厲害,但現階段其實變化能力也有限,無法假造出很複雜的相片內容或很複雜的數據等。

向真實趨近模仿學習

回歸正題,GAN與AWS DeepComoser鍵盤有何關係呢?其實DeepComposer即是運用GAN的「自行變化以求通關」特性來協助創作,只是把「對抗」意味改以「向真實趨近模仿學習」的意味來詮釋,AWS稱此為Generative AI(生成/產生型人工智慧)。

AWS DeepComposer已經在雲端上提供了四個事先訓練好的曲風生成模型,分別是流行(Pop)、爵士(Jazz)、搖滾(Rock)以及古典(Classical)。一旦創作者透過AWS DeepComposer鍵盤輸入自己創作的音樂旋律到判別模型後,判別模型就會推論出結果,並把結果回饋給生成模型,如此反覆循環的結果生成模型即可產生出逼真且呼應人為創作旋律的伴奏音樂。

一開始生成模型還無法產生出切合模型推論的正確結果,聽起來有可能根本是亂吹奏一通,但隨著推論結果的回饋,生成模型的再訓練與參數調整等程序,生成模型逐漸可以產生出高度瞞騙過判別模型的資料,此資料即已非常切合創作者旋律的樂器伴奏,並以鋼琴、鼓、吉他等各種樂器展現生成樂。此外,如果創作者不喜歡上述四種已訓練好的曲風模型,也可以自行再建立與訓練出另一種曲風模型。

AWS DeepComposer已提供訓練好的四種曲風模型或可自建生成模型。(Source

曲風生成模型正在推論(生成)不同樂器的伴奏樂。(Source

AWS DeepComposer是實體MIDI鍵盤,創作者透過鍵盤彈奏、輸入正確的資料給爵士、古典等曲風判別模型,實際路徑其實是鍵盤上有USB介面用來接上電腦,透過電腦傳遞到雲端上的主控台。

在主控台上創作者可以運用AWS SageMaker來調整模型,使其更合乎自身需求,即訓練模型,而後運用Digital Audio Workstation(DAW)來創作和自訂由AI生成的音樂。

AWS DeepComposer主控台。(Source

音樂生成且滿意後,創作者也可以透過簡單步驟把新作分享到德國SoundCloud網站,需另建立一個帳號以便連通)上,或者提交到AWS的Generative AI Talent Show(生成AI人才秀)上,告知世人您剛剛完成新作。

沒有白吃的午餐

AWS DeepComposer聽來挺不錯,但短時間內可能要失望,因為定價僅99美元的DeepComposer目前僅限美國地區供貨,所幸AWS也提供線上虛擬版的DeepComposer鍵盤,效果類同於實體鍵盤,只是可能要用電腦鍵盤模擬音樂鍵盤的方式操作。另外,有關DeepComposer管理主控台或虛擬鍵盤都必須在美國東部(維吉尼亞州北部)的機房內執行運作,從台灣連線過去可能速率比較慢、延遲多一點。

在音樂創作上,創作者完成的新作品不一定要上傳提交,也可以以MIDI格式匯出、下載到本地端,反而是創作者自己輸入的旋律還沒有辦法匯出,但AWS官方已承諾未來服務更成熟後也能匯出。

AWS提出DeepComposer除了銷售實體鍵盤外,很大一個動機仍在於擴展銷售其公有雲服務,使用DeepComposer訓練每小時收費1.26美元,使用DeepComposer推論每小時收費2.14美元。

然而以上為超用後的費率,AWS依然提供許多免費用量與免費試用,例如免費一年內推論500次、免費一個月內建立40首新作,若有買實體鍵盤者還可以從免費一個月展延成三個月。AWS也提供一些參考時間,如訓練一次約8小時,推論一次約1分鐘等。

小結

最後,AWS提出DeepComposer後再回頭看其提出的DeepRacer/DeepRacer Evo,可發現AWS的AI策略不同於他廠,他廠多著重在推展監督、非監督式的學習應用技術,AWS則是透過DeepRacer推展增強型學習技術,以及透過DeepComposer推展生成對抗網路技術。

另外多數業者期望AI技術一起頭便能發展出能解決產業問題的應用,AWS反而以DeepRacer玩具車競賽(只求高分力求模型學習成長)、DeepComposer音樂創作(沒有對錯,主觀覺得悅耳與否)來推展,以競賽娛樂等不嚴肅的態度來推展。只要有人摸索嘗試玩具車與鍵盤就可以賣,雲端服務也就可以收費,何樂不為呢?

(責任編輯:王姵文)

陸向陽

從電子科系畢業後,即以媒體人的角色繼續這段與「電子科技」的不解之緣。歷任電子技術專書作者、電子媒體記者、分析師等角色,並持續寫作不殆。近來投入Arduino、Raspberry Pi等開放硬體的研究與教程介紹。
陸向陽

Author: 陸向陽

從電子科系畢業後,即以媒體人的角色繼續這段與「電子科技」的不解之緣。歷任電子技術專書作者、電子媒體記者、分析師等角色,並持續寫作不殆。近來投入Arduino、Raspberry Pi等開放硬體的研究與教程介紹。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *