Zaawansowany multimodalny model AI Google DeepMind zaprojektowany do zadań wymagających głębokiego rozumowania, analizy danych i pracy z bardzo długim kontekstem.
Okno kontekstowe
do 1M tokenów
tokenów
Parametry
nieujawnione
parametrów
Max output
65 536
tokenów
Data premiery
25 marca 2025
Dostęp:APIHostedWdrożenie:☁ Cloud
Przegląd
Zastosowania
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: do 1M tokenów
🧩 Parametry: nieujawnione
✓ Narzędzia
📥 Wejście: tekst, obraz, audio, wideo…
Specyfikacja techniczna
Okno kontekstowe
do 1M tokenów
tokenów
Parametry
nieujawnione
parametrów
Max output tokens
65 536
tokenów na odpowiedź
Knowledge cutoff
1 sty 2025
Data graniczna wiedzy
Licencja
proprietary
Wymagania sprzętowe
Dostęp poprzez infrastrukturę Google Cloud (Vertex AI / Gemini API)
Funkcje:✓ Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimageaudiovideodocumentsstructured_dataurls
⬆ Wyjście (Output)
textcodestructured_datasummariesanalytical_reportsimage
Możliwości i zastosowania
Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Kodowanie
Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście ustrukturyzowane
Zdolność modelu do generowania odpowiedzi w uporządkowanej formie, np. JSON, list, tabel lub schematów.
Kategoria: structured_generation
Rozumienie audio
Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.
Kategoria: audio
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie wideo
Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.
Kategoria: video
Rozumienie wykresów
Zdolność modelu do rozumienia wykresów, trendów, osi, legend i danych wizualnych.
Kategoria: vision
Rozumowanie po diagramach
Zdolność modelu do analizowania diagramów, schematów i relacji przedstawionych wizualnie.
Kategoria: reasoning
OCR
Zdolność modelu do odczytywania i interpretowania tekstu znajdującego się na obrazach lub skanach.
Kategoria: vision
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Planowanie
Zdolność modelu do układania planów, sekwencji działań i uporządkowanych kroków rozwiązania.
Kategoria: planning
Wyjście strumieniowe
Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.
Kategoria: reasoning
Przeplatane wejście multimodalne
Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.
Kategoria: reasoning
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Dziedziny zastosowań
Wyniki benchmarków
15 benchmarków
MMLU
accuracy · general knowledge benchmark
90%+%
📅 25 mar 2025📄 Google DeepMind
Wynik przybliżony na podstawie materiałów Google
SWE-bench Verified
accuracy · Custom agent setup z wieloma trajektoriami i re-scoringiem przez model. Model-id: gemini-2.5-pro-exp-03-25.
63.8%
📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025)
Wynik z custom agent setup Google. Lepszy od OpenAI o3-mini (61,0%), gorszy od Claude 3.7 Sonnet (70,3%) w momencie premiery. W technical report (06-05 snapshot) wynik 67,2%.
GPQA Diamond
pass@1 · Pojedyncza próba (pass@1), bez majority voting. Graduate-level STEM questions.
84.0%
📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025) / technical report gemini_v2_5_report.pdf
Najwyższy wynik wśród porównywanych modeli przy premierze. Grok 3 Beta: 80,2%, o3-mini: niższy.
AIME 2025
pass@1 · Jednotynkowa próba (pass@1), bez majority voting. American Invitational Mathematics Examination 2025.
86.7%
📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025) / technical report
Wynik leaderowy przy premierze. o3-mini: 86,5% (nieznacznie niższy). Wyniki z matharena.ai.
AIME 2024
pass@1 · Jednotynkowa próba (pass@1), bez majority voting.
92.0%
📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025) / technical report
Najwyższy wynik wśród porównywanych modeli przy premierze.
Humanity's Last Exam (bez narzędzi)
accuracy · Bez tool use. Benchmark wielodyscyplinarny stworzony przez ekspertów domenowych.
18.8%
📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 (blog.google, marzec 2025)
Najwyższy wynik przy premierze bez narzędzi. o3-mini: 14,0%, Claude 3.7 Sonnet: 8,9%, DeepSeek R1: 8,6%.
LiveCodeBench v5
pass@1 · Wyniki z livecodebench.github.io (10/1/2024–2/1/2025 w UI).
70.4%
📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf / DataCamp
Nieznacznie gorszy od o3-mini (74,1%) i Grok 3 Beta (70,6%). Poprawa z 30,5% (Gemini 1.5 Pro) do 74,2% wg technical report.
Aider Polyglot (Whole File Editing)
pass_rate · Średnia z 3 prób. Wielojęzyczna edycja kodu. Wyniki z aider.chat/docs/leaderboards/.
74.0%
📅 25 mar 2025📄 Google DeepMind – oficjalny blog Gemini 2.5 / technical report
W technical report (nowszy snapshot 06-05) wynik 82,2%. Wynik 74,0% z premiery (03-25).
MMMU
pass@1 · Multimodal rozumowanie akademickie (teksty, obrazy, diagramy, mapy).
81.7%
📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf / Medium (Mehul Gupta)
Najwyższy pass@1 wśród porównywanych modeli przy premierze.
MRCR v1 (128K context)
accuracy · Multi-Round Coreference Resolution – odszukiwanie wielu igieł w 128K kontekście.
91.5%
📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf
Wyniki dodane 26 marca 2025 jako aktualizacja bloga. W wersji 1M tokenów: 83,1%.
MRCR v1 (1M context)
accuracy · Multi-Round Coreference Resolution przy pełnym oknie kontekstowym 1M tokenów.
83.1%
📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf
Jedyny model w benchmarku wspierający pełne 1M tokenów przy premierze.
Global MMLU Lite (multilingual)
accuracy · Wielojęzyczne i multidyscyplinarne rozumienie tekstu.
89.8%
📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf
Najwyższy wynik wśród porównywanych modeli przy premierze.
SimpleQA
accuracy · Faktograficzne pytania krótkoformowe.
52.9%
📅 25 mar 2025📄 Google DeepMind – technical report gemini_v2_5_report.pdf
GPT-4.5 osiągał 62,5% na tym benchmarku.
LMArena (Chatbot Arena)
Elo · Ranking ludzkich preferencji odpowiedzi AI. Wynik z aktualizacji preview (czerwiec 2025) przed GA.
1470points
📅 1 cze 2025📄 Google DeepMind – blog.google (czerwiec 2025 preview update)
Lider leaderboardu po aktualizacji preview. Wzrost o 24 punkty Elo względem wersji majowej.
WebDev Arena
Elo · Ranking web development. Wzrost o 35 punktów Elo.
1443points
📅 1 cze 2025📄 Google DeepMind – blog.google (czerwiec 2025 preview update)
Lider leaderboardu WebDev Arena po aktualizacji preview (czerwiec 2025).
Cennik
Wdrożenie i bezpieczeństwo
🔒 Security / Enterprise
✓ Zweryfikowane informacje enterprise
Model oceniony pod kątem cyberbezpieczeństwa, CBRN, autonomii i innych ryzyk zgodnie z Responsible Scaling Policy Google DeepMind. Zawiera szczegółowe oceny bezpieczeństwa w technical report i model card. Wdrożono zaawansowane zabezpieczenia przed indirect prompt injection.
1) Technical report zawiera pełne oceny bezpieczeństwa: cybersecurity, CBRN, Machine Learning R&D, Deceptive Alignment. 2) Model card dostępna na modelcards.withgoogle.com. 3) Przy Google I/O 2025 ogłoszono znaczące wzmocnienie ochrony przed indirect prompt injection attacks — Gemini 2.5 opisany jako "most secure model family to date". 4) Tryb Deep Think poddany dodatkowym ocenom bezpieczeństwa przed szerokim udostępnieniem. 5) Dane treningowe poddane filtracji bezpieczeństwa. 6) Płatny tier API nie używa danych do trenowania modeli (w odróżnieniu od free tier).
Aktualizacja: 17 cze 2025↗ Dokumentacja security
Źródła i powiązane strony
14 źródeł
Webhttps://ai.google.dev/Webhttps://deepmind.google/technologies/gemini/Webhttps://deepmind.google/technologies/gemini/BlogGemini 2.5: Our newest Gemini model with thinking – Google DeepMind BlogDocsGemini 2.5 Pro – Gemini API | Google AI for DevelopersDocsGemini 2.5 Pro – Vertex AI | Google Cloud DocumentationDocsGemini Developer API Pricing – Google AI for DevelopersDocsGemini API Release Notes – Google AI for DevelopersRaportGemini 2.5 Technical Report (PDF) – Google DeepMindWebGemini 2.5 Pro – Google DeepMind Models PageBlogGemini 2.5 Updates: Flash/Pro GA, SFT, Flash-Lite on Vertex AI – Google Cloud BlogBlogGoogle I/O 2025: Updates to Gemini 2.5 – Google DeepMind BlogBlogGemini 2.5 Pro Latest Preview – Google Blog (czerwiec 2025)WebGemini 2.5 Pro Model Card – Google Model Cards
Przeglądaj powiązane tematy
