思考型模型 Gemini 2.5 消息於 3/26 公布,Google 表示這次升級,從邏輯推理能力、多模態理解,再到記憶儲存量,通通都有強化,即日起開放免費試用!
Gemini 2.5 Pro 除了在 8 項基準測試中,大幅領先 DeepSeek R1,在實際應用上也更加全面。本篇將帶你認識 Gemini 2.5 上架資訊,包括價錢、功能升級亮點及實測數據比較!
Gemini 2.5 是什麼?
Gemini 2.5 是 Google 旗下 AI 模型 Gemini 的升級版:思考型 AI,最大特點是在回答問題之前會先經過一連串推理過程,具有和人類一樣的思考方式。
3 月 25 日 Google 官方宣布,Gemini 2.5 即將在上架於 Vertex AI 平台,目前已推出先行版本 Gemini 2.5 Pro Experimental(實驗性)。
Gemini 2.5 pro experimental 開放對象:
- 開發商
- 企業
- 付費使用者
- 免費試用(部分功能限制)
Google 其他 AI 工具介紹:NotebookLM AI介紹:免費Google AI筆記統整神器完整教學
Gemini 2.5 pro 價格多少?
目前,Google的最新人工智能模型 Gemini 2.5 Pro 已全面開放給所有使用者,包括免費用戶,不需要額外付費即可試用其實驗版本。
原本 Gemini 2.5 pro 模型只提供每月 19.99 美元(約台幣 650 元)的付費訂閱用戶使用,不過從 2025 年 3 月 31 日起,Google宣布取消訂閱限制,讓所有人都能免費體驗。
不過,免費版本和付費版本仍存在功能差異,例如:
付費用戶可以使用更大的上下文窗口和完整的功能集,而免費用戶僅能使用基礎功能。至於正式的定價模式,Google表示將在未來幾週公布。
Gemini 2.5 功能升級亮點介紹
根據 Google 官方消息, Gemini 2.5 模型幾乎繼承了 Gemini 2.0 系列的所有功能,並升級以下 4 大功能突破:
- 更會思考的 AI:Gemini 2.5 不只會查找答案,還會像人一樣思考,進行更深入的邏輯推理,解決複雜的問題。
- 理解更多種訊息:Gemini 2.5 能同時理解文字、圖片、聲音、影片等多種資訊,並把這些資訊整合起來回答問題。
- 超強記憶力:Gemini 2.5 能夠記住大量資料,例如一整本書。
- 程式專家:Gemini 2.5 在程式碼理解和生成方面有顯著進步,能夠處理更複雜的程式碼任務。
更多功能升級介紹,請往下觀看詳細影片:
Gemini 2.5 功能和 Gemini 2.0 Flash、Thinking 模型差在哪?
如果只看版本更新可能無法體會 Gemini 2.5 的強大,以下將整理 Gemini 2.5 和家族模型(Gemini 2.0 Flash、Gemini 2.0 Flash Thinking)之間的必較:
功能 / 版本 | Gemini 2.5 | Gemini 2.0 Flash | Gemini 2.0 Flash Thinking |
---|---|---|---|
推理能力 | 擅長處理複雜問題 | 一般推理能力 | 結合思維鏈與強化式學習 |
程式設計能力 | 最強程式設計和優化能力 | 一般程式處理能力 | 尚可 |
多模態支援 | 文字 音訊 圖片 影片 | 支援多模態輸入 | 類似 Gemini 2.0 Flash |
圖像生成 | 尚未提及 | 預計推出,尚未實現 | 未明確說明 |
上下文窗口 | 100 萬字詞 (未來將升級至 200 萬) | 100 萬字詞 | 100萬字詞 |
最佳化特性 | – | 對高頻率、大規模任務優化 | 聚焦推理與思考最佳化 |
基礎模型 | 最新最強版本 | 前一代基礎模型 | 改良版基礎模型與後訓練 |
適用場景 | • 深度推理 • 邏輯分析 • 程式開發 | • 多模態資料處理 • 大規模輸入 • 串流任務 | • 複雜邏輯思考 • 強化推理任務 |
相較於前代的 Gemini 2.0 flash 系列,Gemini 2.5 同時兼具了 2.0 兩種模式的優點,多模態模型與強大的推理能力,能夠儲存的文字量級程式碼編寫能力也得到了提升。
總結 Gemini 功能:
• Gemini 2.5 在推理和程式設計能力上更強,適合需要深度邏輯分析的任務。
• Gemini 2.0 Flash 更適合多模態輸入和大規模資料處理,尤其是需要即時串流和多模態生成的應用。
• Gemini 2.0 Flash Thinking 則更側重於推理和思考能力,與Gemini 2.5有相似的基礎技術,但更早期的版本。
Gemini 2.5 推理能力有多強?實測數據結果
Gemini 2.5 在數學、科學以及人類知識與推理能力方面展現出極為優異的實力。從 Google 公開的測試結果來看,Gemini 2.5 在 3 項核心評測中表現搶眼,明顯領先多款主流 AI 模型。

一、數學能力表現亮眼
- Gemini 2.5 Pro 在 AIME 2025 測試中取得 86.7% 高分,展現其在高階數學推理與解題任務中的優異表現。
- 在 MATH-500 與 AIME 2024 等標準數學測試中同樣成績領先,顯示 Gemini 2.5 Pro 擁有強大的邏輯運算與數學分析能力,能有效處理複雜的計算任務。
二、科學知識與推理能力出色
- Gemini 2.5 Pro 在 GPQA Diamond 測試中取得 84% 的高分,代表其能夠正確理解並應用科學知識進行推理。
- 具備處理多變科學問題的能力,能提供合理的解決策略,反映其在自然科學領域中的深厚推理基礎。
三、人類知識與跨領域推理能力突出
- 在極具挑戰性的 Humanity’s Last Exam 測試中,Gemini 2.5 Pro 獲得 18.8% 的高分,這項測試被視為 AI 在綜合人文、知識與推理的終極挑戰,Gemini 2.5 Pro 的表現證明其在跨領域知識整合與邏輯判斷方面具備高度實力。
- 內建鏈式思維(Chain-of-Thought)機制,能夠在作答前進行多步推理,大幅提升回答的邏輯性與準確度。
Gemini 2.5 性能比較(3/26 更新)


上述表格取自 Google Product and Technology News and Stories,各項性能測驗說明如下:
- Humanity’s Last Exam:專門用來測驗 AI 是否具備「類人類」推理與知識整合能力的評估,模擬真實世界中複雜的綜合性問題,考驗模型的思考深度與廣度。
- GPQA diamond:聚焦在科學領域,題目涵蓋物理、化學、生物等學科,主要評估 AI 是否具備紮實的學術知識與正確的理解力。
- AIME(美國數學邀請賽):專為高中數學菁英設計的高難度測驗,能有效反映 AI 在邏輯運算、數學推理與多步驟問題的解題能力。
- LiveCodeBench v5:實時收錄各大程式編寫競賽題庫的程式能力測驗。
- Aider Polyglot:測試是否有能力將題目程式碼轉換成另一種程式語言編寫的測驗。
- SWE-bench verified:用來測試大型語言模型是否能解決真實軟體問題的測試集。
- SimpleQA:全面性評估 AI 給予的答案真實性的測驗。
最新 Gemini 2.5 v.s DeepSeek R1,哪一款 AI 工具更強?
Gemini 2.5 和 DeepSeek R1 都是擅長數學、科學推理能力的 AI 模型。如何比較哪款 AI 工具更強?往下了解兩者差異:
項目 | Gemini 2.5 Pro | DeepSeek R1 |
---|---|---|
推理能力 | 優等 | 較差 |
數學能力 | 在多項數學基準測試表現優異 | 高於 Gemini 模型 |
程式設計能力 | 僅次於 Claude 3.5 Sonnet | 未明確公開 |
多模態支援 | 圖像、音訊、影片、文字等多模態輸入 | 文字 |
上下文窗口 | 100 萬字詞 | 128K 字詞,限制較多 |
是否開源 | 非開源 | 開源模型 |
收費方式 | 商業授權,定價未公開 | 每百萬輸入字元:$0.14 每百萬輸出字元:$0.55 |
從實際數據比較, Gemini 2.5 答題正確率完勝 DeepSeek R1,完整比較數據如下:
基準測試 | Gemini 2.5 Pro 答題正確率 | DeepSeek R1 答題正確率 |
---|---|---|
1.Humanity’s Last Exam (人類的最後測試) | 18.80% | 8.60% |
2.GPQA diamond (博士級科學問題) | 84.00% | 71.50% |
3.AIME 2025 (2025 年美國國際數學邀請賽) | 86.70% | 70.00% |
4.AIME 2024 (2024 年美國國際數學邀請賽) | 92.00% | 79.80% |
5.LiveCodeBench v5 (大型語言模型評估) | 70.40% | 64.30% |
6.Aider Polyglot (whole / diff) (跨語言編程測驗) | 74.0% / 68.6% | 56.90% |
7.SWE-bench verified (程式碼生成評估基準) | 63.80% | 49.20% |
8.SimpleQA (真實性評估) | 52.90% | 30.10% |
整體來看,Gemini 2.5 在功能上明顯比較全面,像是輸入容量大、支援多種格式輸入,回覆也更快、更自然。如果你經常處理複雜內容,Gemini 2.5 將會是個很實用的小幫手。
相比之下 DeepSeek R1 只有在價格上有優勢,除非你是偏好開源的使用者,否則 Gemini 2.5 將是更佳的選擇。
延伸閱讀:
DeepSeek vs ChatGPT懶人包:兩大AI比較指南!誰是最強AI助手?
Gemini 1.5 Pro 屌打 GPT-4o ?有哪些超強功能 一次整理報你知!
黃仁勳愛用AI工具神器『Perplexity』是什麼?比GPT4o、Gemini 更聰明、更準確!
結論
從背景技術到實測成績,Gemini 2.5 無疑展現了當前 AI 模型中的頂尖實力。不論是在邏輯推理、數學運算,表現都全面優於 DeepSeek R1,成為 2025 年初最受矚目的 AI 模型之一!
回答速度快且口吻自然的 Gemini 2.5 無疑將成為我們 2025 年在日常工作與內容創作中的得力小幫手!
更多 AI 工具介紹:AI工具大全都在這,最新懶人包一次看
如果想獲得更多 AI 工具發布消息,請關注新識界,提供您最新、最準確的資訊,幫助您更好跟上 AI 科技世代!