2025 最新五大主流 LLM 全解析,付費、應用與安全性一次看懂

近幾年有多款大型語言模型 (LLM) 接連問世,對一般用戶來說,到底哪一款最適合日常需求。本次整理 5 款主流 LLM,分別為 GPT-5、Claude 4 Sonnet、Gemini 2.5 Pro、Grok 4 與 DeepSeek R1,從功能特點、價格差異、使用限制,再到適合的應用場景,帶大家一次看清楚各自的定位與優勢。
什麼是大型語言模型 LLM?
LLM 是一種基於深度學習的 AI 模型,建立在一種稱為「轉換器」(Transformer) 的神經網路架構上,再利用數百億到上兆個參數,在龐大的文字資料中 (網路文章、維基百科) 收集資訊來進行模型訓練。
目的是理解、生成和翻譯擬化成人類表達、撰寫的語言文字,幫助人類在工作與生活更高效。
五大主流 LLM 的時間脈絡、投資背景
目前最為人知的像是 GPT‑5、Claude 4 Sonnet、Gemini 2.5 Pro、Grok 4 以及 DeepSeek R1 這五大 LLM, 以下是這五大主流 LLM 的時間脈絡與投資背景。
以廣泛應用著名:OpenAI 的 GPT 系列
2018 年問世的 GPT‑1,由 Sam Altman 與馬斯克等人於 2015 年 12 月創立的 OpenAI 所打造,隨後才在 2022 年 11 月才有了最廣為人知的 ChatGPT 誕生。而 OpenAI 主要投資者有微軟、軟銀等主要投資者。
截至 2025 年 8 月,透過早期員工或前員工股票二次出售,估值有望達到 5000 億美元。最新 ChatGPT 現使用的模型版本為 GPT-5,於 2025 年 8 月 7 日推出。

安全與推理型助理:Anthropic 的 Claude
第一版 Claude 於 2023 年推出,由 OpenAI 前核心成員 Dario Amodei 與 Daniela Amodei 等人於 2021 年創立的 AI 新創 Anthropic 所打造,主打「安全可控」的通用 AI。
主要投資者為亞馬遜 (40 億鎂)、Alphabet (20 億鎂) 與 Fidelity。截至目前 Anthropic 估值上看 1,700 億美元。

專門處理高複雜任務為主:Google DeepMind 的 Gemini
Gemini 是 Google 的 Bard 後繼模型,由 Google DeepMind 開發。於 2023 年 12 月 6 日首次公開推出 Gemini 1.0,包含 Ultra、Pro、Nano 三個版本,以能處理高複雜度任務的通用 AI。
Gemini 的命名靈感來自 DeepMind 與 Google Brain 的合併,以及向 NASA 的雙子座計畫致敬。Google 共同創辦人 Sergey Brin 已重返公司,親自參與 Gemini 核心開發。這類產品一般會被涵蓋在整體 Google Cloud 或 Google AI 業務,因此沒有單獨對 Gemini 作估值。

以社群整合著名:xAI 的 Grok
Grok 初版於 2023 年 11 月推出,先開放給部分 X Premium+ 付費高級用戶使用,由馬斯克旗下的 AI 公司 xAI 所打造,主要是能即時讀取整個 X 社群內容,並且支援新聞摘要、輿情分析、趨勢預測等。
目前 xAI 估值可能高達 2,000 億美元,最新版本為 Grok 4,於 2025 年 7 月 9 日釋出,並提供標準版與高效版 (Heavy) 兩個版本。

聚焦開源與數學推理:中國深度求索的 DeepSeek R1
DeepSeek 是由中國 AI 團隊「深度求索」(DeepSeek) 開發的開源 LLM,2023 年底首次公開,定位為中國版的 GPT 替代方案,主打數學推理與程式編輯能力,目標打造中英語雙通的通用 AI。
DeepSeek 以 600 萬美元低成本、高效能策略引發國際關注,投資團隊為中國量化對沖基金「幻方量化」(High‑Flyer) 全資創立與資助,整體估值介於 20 至 300 億美元之間。

免費版哪個最好用?
在五大主流模型的免費版中,如果追求方便、直覺、不用額外設定的「便利性」,首選會是 GPT-5,再來是 Claude 4 Sonnet。
-
最方便上手 GPT-5:從今年 8/7 開始免費,直接在 ChatGPT 網頁或 App 上就能用,零門檻。雖然有使用上限,但附有 mini 版本,對一般用戶最直覺。
-
長文處理首選 Claude 4 Sonnet:Claude 4 包含 Opus 和 Sonnet 模式,Sonnet 4 可供用戶免費使用,操作以網頁或 App 為主,適合處理長文。
-
特殊資格最划算 Gemini 2.5 Pro:免費版針對推理 / 數學 /程式碼有使用限制,假設有符合資格的學生,可以免費使用一年,無使用限制上限,還有 2TB 儲存空間,前提是符合條件而且要在 2025 年 10 月 6 日前申辦。
-
使用次數有限 Grok 4:免費開放,但免費用戶每 12 小時僅能使用約 3~5 次,若要無限制使用則需訂閱 SuperGrok 或 SuperGrok Heavy。
-
完全免費但偏技術 DeepSeek R1:完全免費又開源,不用技術部署,如果需要 API 與自建部署才需要額外成本與技術能力。
付費版誰最齊全?
假設從這五大模型的「付費版」角度切入,重點會轉為「功能齊全度、專業應用能力」,以下是五大主流模型的付費方案與價格比較表。
GPT-5 (OpenAI ChatGPT Plus / Pro)
GPT-5 目前可以說是「最齊全」的 LLM,撇除基本的文本產生、即時搜尋、文件分析、或者 APP 與 API 整合,特別的是可以產出不同「風格」的圖片。尤其是 OpenAI 在 GPT-5 的發布會上表示,在寫作、程式設計與健康領域表現大幅提升,不僅減少幻覺與諂媚,指令執行更精準。
(OpenAI GPT-5 變笨惹議!5 步驟教你如何改回 GPT-4o)
Claude 4 Sonnet & Opus (Anthropic)
Claude 4 雖說一直是以「高安全性」、「長文處理」為主,但是 Anthropic 在今年 5 月的開發者大會上卻表示,Claude 4 已經能夠自主執行數小時的複雜任務,尤其是 Opus 4 能自己寫七小時的程式。在企業應用案例上,亞馬遜 (AWS) 透露已透過 Bedrock 整合 Opus 4 自建 AI 代理,自主處理軟體開發和企業營運中的多步驟工作。
總體而言,Claude 4 已經成為長文本生成、編寫程式碼等領域,不容小覷的 LLM。
(Anthropic 推出全新旗艦 AI 模型 Claude Opus 4,能自主寫程式七小時?)
Gemini 2.5 Pro (Google DeepMind)
Gemini 2.5 Pro 的最大特點是「深度綁定 Google 生態 + 強化數學與程式推理」,對於依賴 Google Workspace 的專業人士、學生與企業最實用。
用戶可以直接應用在 Gemini 2.5 Pro 於 Gmail、Docs、Sheets、Slides、Drive 等服務,快速生成文件、郵件摘要、分析表格,並與 Android 系統與 Google 搜尋無縫結合。功能上特別強調數學與程式推理能力,可處理數學題解、演算法設計,也能透過 API 與 Vertex AI 服務支援專業運算。
多模態方面,Gemini Pro 整合 Imagen 2 進行圖片生成,並搭配 NotebookLM、Whisk 等工具,未來會支援影片生成。
(最新 Google I/O 大會登場! AI 助理 Gemini 大進化,從手機、影像創作到改程式碼都包辦)
Grok 4 (xAI)
Grok 4 的最大特色就是即時社群整合,會直接抓取 X 上的新聞與熱門話題,也或許是馬斯克不願意讓 X 的對話太過制式、政治正確,因此對話風格偏幽默又帶點毒蛇,主打「敢說敢嗆」。
比較特別的是,馬斯克的 AI 公司 xAI 在 7 月的發佈會上展示了 Grok 4 付費模式 Heavy 能直接檢視預測市場 Polymarket,並結合統計計算與推理能力,在短短數分鐘內預測出道奇隊奪下世界大賽的勝率為 21.6%,展現出超越傳統量化分析工具的即時運算實力。
(博士級 AI?馬斯克 xAI 推出 Grok 4:多代理推理、預測市場功能一次看)
DeepSeek R1(中國開源)
從影片可以看到,DeepSeek R1 在 Vultr 雲端 GPU 的測試裡表現非常亮眼,特別是在程式和推理能力上。它可以一次就成功生出並執行貪吃蛇 (Snake) 和 俄羅斯方塊 (Tetris) 這兩款遊戲,程式架構完整、邏輯清楚。
而在推理方面,像是單位換算、數字比較、邏輯題甚至一般常識題都能答對,思考過程很像人類。缺點是這個模型規模超大,高達 6,710 億個參數,需要 8 張 AMD Instinct GPU 才能跑得動。
另外,它對於中國的敏感政治議題會直接以官方說法表示,即使自己架設也沒辦法完全避免,不過因為它是開源的,只要微調就能解除這些限制。
(DeepSeek R1-14B 搭配 nilAI 私密運行,Nillion 保障 AI 數據安全)
五大模型的安全性比較?
最安全又最穩健:Claude 4
根據 Claude 4 Sonnet (Anthropic) 的安全性測試顯示,對於違規請求的安全回覆率高達 98.8%,而在正常問題上的「誤封」率不到 0.1%。
Anthropic 也公開了完整的風險評估流程,並與美國核安局 (NNSA) 合作,推出能攔截核擴散相關需求的分類器。整體來看,它是目前最透明、最嚴謹、也最穩健的模型。
功能與安全取得良好平衡:GPT-5
GPT-5 則被官方強調已降低幻覺、減少迎合用戶並加強指令執行,還引入了「Safe Completions」機制,在敏感情境下能提供替代答案。
2025 年 8 月,OpenAI 與 Anthropic 共同展開跨實驗室測試,專門檢驗誤用、欺騙等越權行為。這些更新顯示 GPT-5 的安全性正持續改善,僅次於 Claude。
中規中矩,保守但可靠:Gemini 2.5 Pro
Google 為 Gemini 設計了完整的「前沿安全框架」,涵蓋核生化 (CBRN)、資安、研發濫用、防欺騙等風險,並在年度責任 AI 報告中公布內外部紅隊測試結果。
第三方紅隊 (Promptfoo) 指出仍有少數高風險問題,不過新推出的 Deep Think 版本在安全性與語氣上比 Pro 更穩,但代價是偶爾會「過度拒答」
(註:核生化,意指化學、生物、放射性與核能等四大高風險領域,涵蓋毒氣、生物武器、放射性污染與核爆等威脅。)
風格敢講敢嗆,但安全性偏弱:Grok 4
安全性爭議最為嚴重的是,外媒揭露 Grok 4 竟有超過 37 萬筆用戶對話紀錄可被公開搜尋,其中包含刺殺、爆炸物製作、毒品交易以及自殺指引等危險內容,暴露出在內容安全與隱私保護上的重大漏洞。
同時,也已有多起越獄 (Jailbreak) 成功案例,顯示其防護機制相當薄弱。
(註:越獄,代表用戶透過一些特殊的提問方式,成功繞過模型原本的安全機制。)
能力強但言論審查過重,安全性最不穩定:DeepSeek R1
根據學術測試表示,R1 的不安全回覆比例明顯高於其他模型,並且對中國敏感議題有「硬性的言論審查」。像 Cisco 跟《Wired》做的紅隊測試也證實,它的防護機制其實不難被繞過。
不過,研究機構 METR 評估後認為,雖然 R1 有這些問題,但它的「自主危險能力」並沒有比同時期的閉源模型更嚴重。
(註:Cisco 指的是思科旗下的安全研究單位 Cisco Talos,他們經常針對新技術與 AI 模型做安全性研究,包含越權、對抗攻擊、繞過防護等測試。Wired 是美國的科技媒體,他們也會做「紅隊」或委託專家進行測試,並報導揭露 AI 模型在安全性上的漏洞。)
這篇文章 2025 最新五大主流 LLM 全解析,付費、應用與安全性一次看懂 最早出現於 鏈新聞 ABMedia。
免責聲明:文章中的所有內容僅代表作者的觀點,與本平台無關。用戶不應以本文作為投資決策的參考。
您也可能喜歡
CandyBomb x LIVE:合約交易瓜分 500,000 LIVE!
Bitget 現貨槓桿新增 CAMP/USDT!
【首發上架】SecondLive(LIVE)將在 Bitget 上架。參與並瓜分 5,124,000 LIVE
關於 Bitget 上架 MSTR, COIN, HOOD, DFDV RWA 指數永續合約的公告
加密貨幣價格
更多








