Robocikowo>ROBOCIKOWO
Gemini 3.5 Flash

Gemini 3.5 Flash

3.5 Flash · Rodzina: Gemini
Szybki, multimodalny model z rodziny Gemini 3.5, zoptymalizowany pod agentowe kodowanie, długie konteksty i zaawansowane rozumowanie przy niskiej latencji.
⏳ Preview⏳ Ograniczony dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Gemini
Okno kontekstowe
1M
tokenów
Max output
65 536
tokenów
Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Gemini 3.5 Flash to model z rodziny Gemini 3.5 opracowany przez Google DeepMind. Zaprojektowany jako szybki, multimodalny model klasy „frontier intelligence per dollar”, łączy zaawansowane rozumowanie z niską latencją typową dla wariantów Flash.

Obsługuje wejście tekstowe, obrazy, wideo, audio oraz dokumenty PDF, a na wyjściu generuje tekst i kod. Oferuje okno kontekstu 1M tokenów, do 64k tokenów wyjścia oraz funkcje takie jak function calling, structured output, code execution i search jako narzędzie. Wiedza modelu sięga stycznia 2025.

Dostępny w aplikacji Gemini, Gemini API, Google AI Studio, Gemini Enterprise, Google AI Mode, Google Antigravity oraz Android Studio. Status: Preview.

Klasyfikacja
LLMModel multimodalnyModel rozumowaniaModel używający narzędzi
Rodzina: Gemini
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 1M
Narzędzia
📥 Wejście: tekst, obraz, audio, wideo

Specyfikacja techniczna

Okno kontekstowe
1M
tokenów
Max output tokens
65 536
tokenów na odpowiedź
Knowledge cutoff
1 sty 2025
Data graniczna wiedzy
Licencja
proprietary
Wymagania sprzętowe
Dostępny wyłącznie przez infrastrukturę chmurową Google (Gemini API, Vertex AI, Google AI Studio).
Funkcje:Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimageaudiovideodocuments
⬆ Wyjście (Output)
textcode

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania, analizowania zależności i wyprowadzania odpowiedzi na podstawie przesłanek.
Kategoria: reasoning
Rozumowanie wieloetapowe
Zdolność modelu do rozwiązywania problemów wymagających kilku kolejnych kroków rozumowania.
Kategoria: reasoning
Długi kontekst
Zdolność modelu do pracy na długim kontekście i utrzymywania spójności przy dużej ilości danych wejściowych.
Kategoria: reasoning
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Kodowanie
Zdolność modelu do generowania, analizowania, poprawiania i wyjaśniania kodu.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście ustrukturyzowane
Zdolność modelu do generowania odpowiedzi w uporządkowanej formie, np. JSON, list, tabel lub schematów.
Kategoria: structured_generation
Rozumienie audio
Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.
Kategoria: audio
Rozumienie obrazów
Zdolność modelu do analizowania i interpretowania zawartości obrazów.
Kategoria: vision
Rozumienie wideo
Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.
Kategoria: video
Rozumienie wykresów
Zdolność modelu do rozumienia wykresów, trendów, osi, legend i danych wizualnych.
Kategoria: vision
OCR
Zdolność modelu do odczytywania i interpretowania tekstu znajdującego się na obrazach lub skanach.
Kategoria: vision
Wielojęzyczność
Zdolność modelu do rozumienia i generowania treści w wielu językach.
Kategoria: language
Planowanie
Zdolność modelu do układania planów, sekwencji działań i uporządkowanych kroków rozwiązania.
Kategoria: planning
Przeplatane wejście multimodalne
Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.
Kategoria: reasoning

Wyniki benchmarków

14 benchmarków
Terminal-bench 2.1
accuracy · Terminus-2 harness
76.2%%
📄 deepmind.google/models/gemini/flash
SWE-Bench Pro (Public)
accuracy · Single attempt
55.1%%
📄 deepmind.google/models/gemini/flash
MCP Atlas
accuracy
83.6%%
📄 deepmind.google/models/gemini/flash
Toolathlon
accuracy
56.5%%
📄 deepmind.google/models/gemini/flash
OSWorld-Verified
accuracy
78.4%%
📄 deepmind.google/models/gemini/flash
Finance Agent v2
accuracy
57.9%%
📄 deepmind.google/models/gemini/flash
GDPval-AA
Elo · Economically valuable knowledge work
1656
📄 deepmind.google/models/gemini/flash
CharXiv Reasoning
accuracy · No tools
84.2%%
📄 deepmind.google/models/gemini/flash
MMMU-Pro
accuracy · No tools
83.6%%
📄 deepmind.google/models/gemini/flash
Blueprint-Bench 2
normalized score
33.6%%
📄 deepmind.google/models/gemini/flash
MRCR v2 (8-needle) 128k
accuracy · Long context, average
77.3%%
📄 deepmind.google/models/gemini/flash
MRCR v2 (8-needle) 1M
accuracy · Pointwise
26.6%%
📄 deepmind.google/models/gemini/flash
Humanity's Last Exam
accuracy · Full set, text + MM
40.2%%
📄 deepmind.google/models/gemini/flash
ARC-AGI-2
accuracy
72.1%%
📄 deepmind.google/models/gemini/flash

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)