【從科幻到現實】勾勒AI未來情境 (上) – 迎接AI服務時代

Posted By owenou on 12 月 18, 2024 in AI關鍵技術, Edge AI應用案例, LLM, Multimodal, RAG, RPA, SLM, 技術導讀, 技術新訊, 產業趨勢, 綜論, 觀點 | 0 comments

作者：歐敏銓

回顧一下近代的科技發展，有幾次的數位革命，特別是個人電腦（PC）、網際網路（Internet）和智慧型手機的問世，都深刻地影響了許多人的生活與工作，可說是一場場的「典範轉移」（Paradigm Shift），而AI，特別是生成式AI，顯然再次開啟了一次的全面向數位革命。

近代科技的典範轉移發展（Source）

即將進入2025，關於AI的發展趨勢，已有不少的分析預測，這裏就不再贅述。且來看稍遠的未來，你我都可能體驗到兩大AI應用情境：AI服務時代、以假亂真的AI世界。且容我拋磚引玉，一一勾勒如下：

一、AI服務時代

第一類是現在已很有感的AI生成工具、平台或服務，最具代表性的當然是OpenAI的ChatGPT，除了流暢、廣泛且專業的問答回覆外，也不斷與其他工具整合（例如讓Siri變聰明了）。最近OpenAI及Google都重磅上架了影片生成平台：Sora及Veo 2，持續推進AI/LLM的應用面向，負作用則是：AI太方便了，大家都變懶了，不少工作也快消失了。

LLM的世界不是只有OpenAI一家獨秀，至少還有Meta Llama、Claude、Google Gemini、Mistral…等開源或商業化的LLM模型，並衍生出難以計數的中、小型模型（SLM），正好滿足在地化（Localize）的AI應用趨勢，讓開發者或新創各取所需，客製化屬於自己的AI工具、服務或應用。

AI成工具、平台或服務大致可分成三類：

1. 無所不在的AI生成服務

這類主要是圍繞著「內容生成」的工具，包括影像或繪圖的生圖、修圖；音訊生成的寫歌、講話；文字、文本的寫作、企劃或分析，或程式的生成及除錯等等。

在兩、三年前，一般人想畫圖、寫歌、創作小說或寫程式，不僅要有天份，還要接受長期的專業訓練，如今有了這類AI工具，只要下下咒語（Prompt），很快就能「產出作品」了。最近OpenAI再度拋出的Sora平台，更是讓你一個人就可抵一支拍片團隊，下下指令、拉拉腳本，就能製作出一支影片了。

當然，作品的水準還是有高低的，專業人士還是更有條件去和AI溝通，並協同工作產出動人的作品。就像同樣用Sora，有沒有「說故事」的能力，以及影片視覺的素養，做出的作品一定很不一樣。

可以預見，就像智慧手機出現後伴生一堆App一樣，這類AI生成工具也正如雨後春筍般冒出，未來還會更多，讓許多有創意無技術的人降低了創作的門檻，但創作「水準」的提升仍少不了專業的養成。

以下列舉一些好用的AI生成工具平台（類似的還有很多，有興趣的可上ChatGPT查一下）：

ChatGPT：萬事通的AI平台
Sora：OpenAI推出的AI影片生成工具，用戶可透過文字、圖片或影片素材生成短片，最高可達20秒，解析度達1080p
Veo 2：Google DeepMind推出的AI 影片生成模型
Genie 2：Google DeepMind 發表的AI模型，能透過 AI 從單一圖像產生出可以讓使用者即時操控角色進行探索與互動的 3D 環境

Good Tape：一款基於AI的自動轉錄服務，讓用戶快速、安全地將音訊和視訊內容轉換為精確的文字記錄
Playground：一款免費的 AI 設計工具，讓用戶輕鬆創建各種自訂設計和圖形，例如設計標誌、T 恤、社交媒體圖像
Grammarly：文法檢閱軟體，檢查英文文章並建議修改方向
Beautiful.ai：一個基於 AI 的簡報設計工具，專為幫助用戶快速創建專業、美觀的簡報而設計
Gamma：AI 驅動的簡報工具，只需要不到 1 分鐘的時間，就能自動完成一份簡報、文件甚至是網頁
Suno：AI音樂生成平台，旨在讓任何人都能輕鬆創作出高品質的音樂作品
AIVA：專注於創作背景音樂，適合遊戲、影片和廣告
Resemble AI：能根據文本生成自然且多樣的聲音，支援情感語音和語調調整，還可以可以添加背景音效，讓聲音更有故事感
Nemesysco：聲音情緒分析工具

不過，AI生成工具除了搶了不少人的飯碗，生成的太逼真也帶來不少問題，特別是透過深偽（Deepfake）來造假詐騙的目的。因此，對聲音、影像或影片的反深偽（Anit-deepfake）的技術或工具也成為另一門顯學。

》延伸閱讀：Deepfake深偽音訊真假難辨？五款AI方案有解

2. 自動且更自主的工作流程

在企業營運中少不了需導入一些系統，如ERP、SCM、CRM，在工廠有MES、SCADA、APS，這些系統因AI的出現，也面臨「數位轉型」的世代交替時機，積極的企業已開始「訓練」自己的資料，也就是在LLM的基礎上，透過RAG或Fine-tuning來量身定做自家的企業大腦，再透過Multi-Agent及RPA平台來實現自動且有一定自主化能力的工作流程。

由於這類系統是企業營運的命脈，改太快怕影響系統的穩定性，改太慢又怕輸在起跑點，但AI化的大潮流已經來襲，可預期AI功能將逐步「內化」到各系統中，幫助到工作效率的提升。這主題可說是未來幾年AI應用的大勢所趨，本刊已有不少探討如下，就不多談了。

》延伸閱讀：

AI將隱形化：透過AI Agent整合到IT系統中

【技術加乘】透過RPA整合LLM、RAG及Multi-Agent加速AI應用開發

【AI下一步】Human-In-The-Loop（人類參與循環）的重要性

【自動化工作流程】n8n整合AI之常見應用及創建流程

3. 打造專家AI分身模型

目前的LLM模型，特別是ChatGPT，已展現其「博學多聞」的能力，千奇百怪的問題似乎都難不倒它，但一些專業服務或「名人」的地位仍能以動搖，如醫生、律師、會計、名嘴、教練（羽球、棒球…）、談判（外交、商業…）、技藝老師、老師傅或補教名師等，因為他們擁有獨特的經驗或突出的能力，是今日AI仍無法「生成」的。

然而，這些專業人士的能力是否也可以被AI學習呢？很有可能，和企業訓練自家AI模型一樣，未來每個人都可以訓練「自己的模型」，也就是先選一套「專業LLM模型」，例如醫療、法律、會計等特定領域的LLM，再用自己長年工作累積的資料（如病歷、訴訟案件、會計報表等）來進行客製化訓練，甚至進一步埋一支程式在自己的電腦或手機中，直接紀錄、分析、學習自己的行為模式，更有甚者，透過AI攝影機學習自己與病患、客戶的互動模式或表情動作，進而訓練出一個「某某專家AI分身」專屬模型。