|

Deepfake深偽音訊真假難辨?五款AI方案有解

   

「深偽」或「深度偽造」(Deepfake)可以說是AI生成技術的「靈活、實用」應用之一,不論是圖像、影像、音訊或文字,今日的AI都已能的生成逼真的分身,而且生成的技術門檻愈來愈低,已被有心人普遍用於詐騙、誹謗或政治操作中。

以深度偽造音訊來說,它的一種常見製作方法是語音複製,坊間製作 Deepfake 音頻、影片的服務非常多,像是 ElevenLabs 和 Resemble AI等 AI 軟體,僅需不到一分鐘的真人語音樣本就可以創建假的音訊,而且人人都可以免費使用該工具。

就如防毒、資安的問題需靠資訊技術來解決,AI生成的深偽問題,自然也得靠AI技術來防範。以下列舉五個「語音偵偽辨識」方案,說明目前以AI防範AI的發展現況。

ValidSoft

面對日益增長的深偽語音威脅,ValidSoft開發了深偽語音檢測技術,利用深度神經網絡(DNN)分析聲音特徵,識別合成語音和重放攻擊,確保身份驗證的安全性。其核心技術是語音生物識別,透過分析個人聲音的獨特特徵,如口音、節奏和語調,建立防篡改的聲紋(Spoof-Proof Voiceprint),以進行精確的身份驗證。

ValidSoft的解決方案可與現有的多因素身份驗證(MFA)和單一登入(SSO)系統整合,透過語音生物識別增強身份驗證的安全性,防止密碼共享和未經授權的存取。ValidSoft在設計其技術時,強調隱私保護,獲得了四項歐洲隱私認證(EuroPriSe®),確保其解決方案符合GDPR等全球資料保護法規。

Deepfake Detector

防毒軟體業者 McAfee 推出了一項檢測深偽內容的工具「Deepfake Detector」,會潛伏在電腦後台,若發現使用者在觀看的影片為 AI 生成即會發出警告。據稱 AI 模型是用 20 萬個樣本訓練而成,準確度達 96%。然而,Deepfake Detector 並不會查看影片,而是用影片的聲音來檢測。當偵測到 AI 生成的音訊時,McAfee 軟體會彈出一個紅色圖示,點擊後可看到有關音訊的更多詳細資訊。

McAfee 強調在本地端運行 Deepfake Detector,也就是在設備端分析所有使用者接觸的內容,這樣對於惡意軟體的偵測會更加全面,且不會面臨雲端運算遇到的侵犯用戶隱私、高頻寬問題。由於所有的檢測和分析工作都在本地端 NPU 上運行,用戶的音訊也不會以任何方式被儲存和記錄。目前僅在聯想 Copilot+ PC 上提供此功能,這是一款利用 Intel Core Ultra 處理器和 NPU的AI PC。

Surf Security

英國新創公司Surf Security 推出內建 AI 深偽偵測功能的瀏覽器 Beta 版本,該公司聲稱能夠以高達 98% 的準確率辨識出使用者在線上互動的對象究竟是真人,還是 AI 所創造出的虛擬人物,而且這項功能除了可以單獨使用之外,也可以作為外掛安裝在其他瀏覽器上。

為了確保偵測結果的準確性和速度,Surf Security 利用 AI 語音複製平台所創造的深偽音訊來訓練其神經網路。該系統還配備了背景降噪功能,可以在分析音訊之前先過濾掉雜音,進一步提高偵測的準確度。根據 Surf Security 的說法,該系統只需要不到 2 秒鐘的時間,就能辨識出音訊片段是否為 AI 所生成。

目前這項深偽偵測技術已經適用於許多影音檔或格式,包含線上影片以及 WhatsApp、Slack、Zoom、Google Meet 等通訊軟體的錄製或直播音訊。使用者只需按下一個按鈕,系統就會自動驗證音訊的真偽。

Resemble AI

Resemble AI最近發表的新一代 DeepFake 偵測模型 Detect-2B,它的子模型由一個固定的音訊表示模型組成,其關鍵層插入了一個適應模組。適應模組將模型的重點轉向了人工痕跡(或錄音中留下的意外聲音),這些痕跡通常可以辨識真實音訊和虛假音訊。

大多數AI生成的音訊片段可能聽起來「太乾淨」。Detect-2B可以預測有多少音訊是由AI生成的,而無需在每次收聽新片段時重新訓練模型。子模型也在大型數據集上進行訓練,Detect-2B聚合其預測分數,並將這些分數與「仔細調整的閾值」進行比較,然後確定錄音是真實的還是虛假的。

Resemble表示,其研究人員構建Detect-2B的方式使其訓練速度快,而不需要太多的運算能力來部署。

Reality Defender

Reality Defender同樣利用了 AI 技術,從眾多真實的內容中,去學習真實內容的特徵和規律。簡單來說,它會分析真人說話時的語調、咬字和換氣等習慣,也會分析真實影片和圖片中的細節和邏輯。

當這個 AI 工具建立起一套判定真實內容的標準之後,它就可以此標準去檢查所有內容,如果發現這個新內容的特徵和真實內容有明顯的差異、不太自然,那很可能就是 AI 生成的假內容。

小結

除了上述方案外,還可從源頭去替AI生成音訊創建獨一無二的ID,也就是所謂的數位浮水印,例如Meta就創建了一個音訊浮水印系統 – AudioSeal,可以在AI生成的聲音剪輯中嵌入隱藏的訊號(即數位浮水印),進而能準確定位聲音中(如一段Podcast)哪些部分是由AI工具所生成的。

不過,由於音訊浮水印還沒有被廣泛採用,也沒有單一的行業標準,而且AI生成內容的浮水印也可能被刪除或偽造,因此Meta表示,目前還沒有計劃將浮水印應用於使用其工具創建的AI生成的音訊。

總的來說,隨著生成式AI的不斷進步,Deepfake的以假亂真問題也需嚴肅地去面對,而且不能只有被動的以AI技術進行防範,更需配合法規的罰則及公權力的行使,主動打擊深偽犯罪行為,才能抑制數位科技帶來的負面影響吧。

(責任編輯:歐敏銓)

》延伸閱讀:

用魔法打敗魔法!Deepfake 猖獗,這幾個 AI 工具反過來偵測虛假內容

基於AI語音特徵分析的智慧型手機深偽詐騙偵測研究

MakerPRO編輯部
MakerPRO編輯部

Author: MakerPRO編輯部

MakerPRO.cc為華人圈最專注於Maker創新創業、物聯網及共享經濟報導及共筆發表的專業媒體,不論是趨勢分析與評論,或創新實作文章,在華文創新創業媒體領域都具有重要的影響力。

Share This Post On

Submit a Comment

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *