台灣首個手機端3B繁中推論模型與高效評測工具正式推出

Posted By MakerPRO編輯部 on 4 月 9, 2025 in Edge AI解決方案, Edge AI開發地圖, LLM, 技術新訊, 新聞稿, 產品新訊 | 0 comments

台灣企業自主AI解決方案供應商APMIC宣布與繁體中文語言模型研究社群Twinkle AI攜手合作，正式推出台灣首個可於手機端運作的3B參數繁體中文推論模型「Formosa-1」。雙方亦聯手開源高效評測框架「Twinkle Eval」，共同推動台灣AI技術發展與本地化應用。APMIC透過企業私有化AI解決方案PrivAI，支援從1B到500B規模的地端AI模型，滿足不同產業需求，協助企業打造專屬AI大腦，進一步降低AI部署成本並提升運算效能。

推論Formosa-1是由APMIC與Twinkle AI社群研發，並在國家高速網路與計算中心（國網中心）研發團隊的技術支持與經驗分享下所開發，是台灣首款可於手機端運作的3B參數大型語言模型。該模型透過基於NVIDIA NeMo端對端平台的APMIC PrivAI產品模型蒸餾技術進行訓練，並以MIT授權方式完全開放模型權重，以助推動繁體中文開源AI的發展。為了提升其模型推論能力，Formosa-1使用了貼合台灣本地思維鏈（Taiwan Chain of Thought，TCoT）的資料，並搭配NVIDIA NeMo Data Curator加速資料管理服務，確保在法律推論、邏輯思辨與數學推演方面展現卓越表現。語言資料建構方面，訓練數據涵蓋100B規模的高品質繁體中文Tokens，包含新聞、法律、論文、社會討論等多元文本，以確保AI對繁體中文語境的精準理解與應用。

Formosa-1是由APMIC與Twinkle AI社群研發台灣首款可於手機端運行的3B參數大型語言模型，提供多元文本確保AI對繁體中文語境的精準理解與應用。

AI推論模型的效能取決於評測機制的效能，傳統評測工具的逐題推論順序式流程在龐大的題目數量或運作時需要較長推論時間跟算力，嚴重制約了評測效能與資源使用效率。為此，APMIC與Twinkle AI社群共同開發「Twinkle Eval」，一款專為大型推論模型設計的開源評測框架。該評測工具與NVIDIA NeMo Evaluator評估模型進行深度整合，支援大規模並行測試，確保模型在多領域的穩定性與準確性。Twinkle Eval透過隨機化選項排序來確保測試公平性，避免模型記憶固定選項順序，並引入重複測試機制，透過多次獨立推論來驗證模型的穩定性。此外，該工具內建台灣通識與專業能力混合題庫（TMMLU+）、台灣法律語料測試集（tw-legal-benchmark-v1）及 MMLU基準測試集，確保測試範圍的廣度與準確性。透過格式精控與錯誤修復機制，Twinkle Eval能夠有效確保答案格式的統一性，並降低測試錯誤率。

在MMLU（Massive Multitask Language Understanding）語言理解挑戰中，Formosa-1透過Twinkle Eval進行評測，獲得52分的成績，相較於原生Llama-3.2-3B-Instruct提升了46分，展現其在推論推論能力上的優勢。這項成果證明，透過在地語言技術的強化與精準數據訓練，台灣AI技術已與國際標準接軌，能夠進一步為產業應用提供更高效的解決方案。

APMIC透過企業私有化AI解決方案PrivAI，協助企業打造專屬AI大腦，支援從1B到500B規模的地端AI模型，滿足不同產業需求。PrivAI採用預訓練、監督微調與模型蒸餾技術，確保高準確率與靈活部署能力。企業將能夠透過Formosa-1與Twinkle Eval，有效提升運算效能並降低AI佈署成本。APMIC與Twinkle AI將持續深化合作，共同推動繁體中文AI生態圈的發展。

更多相關資訊請參考：