No Code AI(肉寇)AI自動化兩日精通|實體6小時+線上6小時
|

「聽懂」海豚說什麼的AI模型:DolphinGemma

   

作者:歐敏銓

由 Google 開發的DolphinGemma 模型,正在幫助科學家研究海豚如何用「聲音」來溝通,甚至能用AI創造海豚也能聽得懂的「聲音」。

 

海豚水下世界發出的複雜咔噠聲(clicks)、口哨聲(whistles)和脈衝聲(burst pulses)一直讓科學家著迷,他們的夢想是理解和解讀這些複雜聲音中的模式。Google與喬治亞理工學院的工程師合作,利用野生海豚計畫(Wild Dophin Project, WDP)的實地研究成果,開發出名為DolphinGemma的AI模型,這是一種基礎人工智能模型,經過訓練可以學習海豚發聲的結構並生成新的類似海豚的聲音序列。

自 1985 年以來,WDP 開展了世界上持續時間最長的水下海豚研究項目,主要重點是觀察和分析海豚的自然交流和社交互動,希望將聲音類型與行為背景關聯起來,如今已產生了豐富而獨特的數據集,有助於理解特定情境下的聲音,例如:

  • 獨特的咔噠聲(clicks):作為獨特識別符,類似於名字,對於母豚與幼豚的重聚非常重要。

  • 爆發性的口哨聲(whistles):通常與衝突或攻擊性相關。

  • 點擊的脈衝聲(burst pulses):通常在求偶活動中或海豚追逐鯊魚時檢測到。

野生海豚計畫的最終目標是揭示這些自然聲音序列中的結構和潛在含義,探索可能表明語言形式的語法規則和模式。

為海豚而生的LLM:DolphinGemma

分析海豚通訊的巨大音量和複雜性是一項龐大的任務,非常適合AI處理,而DolphinGemma模型即利用專門的音頻技術來應對這一挑戰。這個 AI 模型由 Google 開發,利用了特定的 Google 音訊技術:SoundStream 標記器來有效表示海豚的聲音,然後由適合複雜序列的模型架構進行處理。

海豚媽媽呼叫小海豚回來的聲音分析(Source

該模型以Gemma技術為基礎,Gemma 是 Google 的輕量級開放模型集合,這些模型採用與 Gemini 模型相同的研究和技術構建而成。這個約 400M 參數大小的模型經過最佳化,可以直接讓 WDP的研究人員在海洋中使用的 Pixel 手機上運作。

DolphinGemma 在 WDP 的野生大西洋斑點海豚聲學資料庫上進行了廣泛的訓練,可作為音訊輸入、音訊輸出模型,處理自然海豚聲音序列以識別模式、結構並最終預測序列中可能出現的後續聲音,就像人類語言的大型語言模型預測句子中的下一個單字或標記一樣。

透過從WDP廣泛的數據庫中獲取的海豚自然聲音序列,DolphinGemma學會了識別重複出現的模式和結構。至關重要的是,它能夠預測序列中接下來可能出現的聲音,就像人類語言模型預測下一個單詞一樣。

創造海豚語言:CHAT系統

相較於DolphinGemma專注於理解自然通訊,另一個並行的CHAT計畫則訴求直接與海豚進行互動交流。CHAT是Cetacean Hearing Augmentation Telemetry(鯨豚聽力增強遙測)的縮寫,這是WDP與喬治亞理工學院(Georgia Institute of Technology)合作的計畫,希望讓海豚學會辨識CHAT系統合成聲音的含意(例如代表研究人員手上「某海草」的聲音),並主動來和研究人員互動(如索取海草)。

未來隨著通過DolphinGemma模型對自然海豚聲音的更深理解,將有助於生成新的類似海豚的音頻序列,並將這些聲音被納入CHAT互動框架當中。

WDP人員所攜帶入海的CHAT系統,其實是一台Pixel 6的智慧型手機,新一代的系統則將採用Pixel 9為主體,利用手機的先進處理功能同時運行深度學習模型和模板匹配演算法,同時將整合揚聲器/麥克風功能。WDP表示,使用 Pixel 智慧型手機可大幅減少對客製化硬體的需求、提高系統可維護性、降低功耗並縮小設備成本和尺寸。

WDP人員配戴CHAT系統下水(Source

小結

DolphinGemma與CHAT系統結合,為海豚聲音的結構分析與互動創造嶄新局面,也為AI技術在自然科學領域的應用樹立新標竿:讓跨物種溝通的可能性出現實現的曙光。為了吸引更多研究人員的加入,Google打算在今年夏天將DolphinGemma作為開放模型發布。Google的目標是為全球研究人員提供強大的工具,讓他們分析自己的聲音數據集,加速理解這些聰明海洋哺乳動物的集體努力。

》延伸閱讀:

DolphinGemma: How Google AI is helping decode dolphin communication

WDP計畫官網

DolphinGemma: Google AI model understands dolphin chatter

owenou

訂閱MakerPRO知識充電報

與40000位開發者一同掌握科技創新的技術資訊!

Author: owenou

曾投身IT、電子科技媒體報導十多年,因認同Maker運動的創新實作精神,創立MakerPRO,致力結合媒體、產業與PRO Maker、開發者的社群力量,共同推展科技創造力。

Share This Post On
468 ad

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *