Robocikowo>ROBOCIKOWO
Gemini 3.5 Flash

Gemini 3.5 Flash

3.5 Flash · Rodzina: Gemini
Szybki, multimodalny model z rodziny Gemini 3.5, zoptymalizowany pod agentowe kodowanie, długie konteksty i zaawansowane rozumowanie przy niskiej latencji.
⏳ Preview⏳ Ograniczony dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Gemini
Okno kontekstowe
1M
tokenów
Max output
65 536
tokenów
Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Gemini 3.5 Flash to model z rodziny Gemini 3.5 opracowany przez Google DeepMind. Zaprojektowany jako szybki, multimodalny model klasy „frontier intelligence per dollar”, łączy zaawansowane rozumowanie z niską latencją typową dla wariantów Flash.

Obsługuje wejście tekstowe, obrazy, wideo, audio oraz dokumenty PDF, a na wyjściu generuje tekst i kod. Oferuje okno kontekstu 1M tokenów, do 64k tokenów wyjścia oraz funkcje takie jak function calling, structured output, code execution i search jako narzędzie. Wiedza modelu sięga stycznia 2025.

Dostępny w aplikacji Gemini, Gemini API, Google AI Studio, Gemini Enterprise, Google AI Mode, Google Antigravity oraz Android Studio. Status: Preview.

Klasyfikacja
LLMModel multimodalnyModel rozumowaniaModel używający narzędzi
Rodzina: Gemini
Dostęp i wdrożenie
APIHostowane
Chmura
Wagi: Zamknięte
Kluczowe parametry
📏 Kontekst: 1M
Narzędzia
📥 Wejście: tekst, obraz, audio, wideo

Specyfikacja techniczna

Okno kontekstowe
1M
tokenów
Max output tokens
65 536
tokenów na odpowiedź
Knowledge cutoff
1 sty 2025
Data graniczna wiedzy
Licencja
proprietary
Wymagania sprzętowe
Dostępny wyłącznie przez infrastrukturę chmurową Google (Gemini API, Vertex AI, Google AI Studio).
Funkcje:Używanie narzędzi
Modalności
⬇ Wejście (Input)
textimageaudiovideodocuments
⬆ Wyjście (Output)
textcode

Możliwości i zastosowania

Natywne możliwości modelu
Rozumowanie
Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.
Kategoria: reasoning
Rozumowanie wieloetapowe
Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.
Kategoria: reasoning
Długi kontekst
Utrzymanie spójności i uwagi w bardzo długim kontekście wejściowym.
Kategoria: language
Rozumienie multimodalne
Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.
Kategoria: multimodal
Programowanie
Generowanie, analiza i modyfikacja kodu źródłowego.
Kategoria: coding
Wywoływanie funkcji
Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.
Kategoria: planning
Wyjście strukturyzowane
Generowanie danych w ustrukturyzowanych formatach, np. JSON.
Kategoria: structured_generation
Rozumienie audio
Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.
Kategoria: audio
Rozumienie obrazu
Analiza i interpretacja treści obrazów.
Kategoria: vision
Rozumienie wideo
Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.
Kategoria: video
Rozumienie wykresów
Odczyt i interpretacja wykresów, tabel i diagramów.
Kategoria: vision
OCR
Rozpoznawanie tekstu na obrazach i w dokumentach.
Kategoria: vision
Wielojęzyczność
Rozumienie i generowanie tekstu w wielu językach.
Kategoria: language
Planowanie
Tworzenie i realizacja planów działania dla złożonych zadań.
Kategoria: planning
Przeplatane wejście multimodalne
Zdolność do dowolnego łączenia tekstu i obrazu w dowolnej kolejności w ramach jednego polecenia.
Kategoria: reasoning

Wyniki benchmarków

14 benchmarków
Terminal-bench 2.1
accuracy · Terminus-2 harness
76.2%%
📄 deepmind.google/models/gemini/flash
SWE-Bench Pro (Public)
accuracy · Single attempt
55.1%%
📄 deepmind.google/models/gemini/flash
MCP Atlas
accuracy
83.6%%
📄 deepmind.google/models/gemini/flash
Toolathlon
accuracy
56.5%%
📄 deepmind.google/models/gemini/flash
OSWorld-Verified
accuracy
78.4%%
📄 deepmind.google/models/gemini/flash
Finance Agent v2
accuracy
57.9%%
📄 deepmind.google/models/gemini/flash
GDPval-AA
Elo · Economically valuable knowledge work
1656
📄 deepmind.google/models/gemini/flash
CharXiv Reasoning
accuracy · No tools
84.2%%
📄 deepmind.google/models/gemini/flash
MMMU-Pro
accuracy · No tools
83.6%%
📄 deepmind.google/models/gemini/flash
Blueprint-Bench 2
normalized score
33.6%%
📄 deepmind.google/models/gemini/flash
MRCR v2 (8-needle) 128k
accuracy · Long context, average
77.3%%
📄 deepmind.google/models/gemini/flash
MRCR v2 (8-needle) 1M
accuracy · Pointwise
26.6%%
📄 deepmind.google/models/gemini/flash
Humanity's Last Exam
accuracy · Full set, text + MM
40.2%%
📄 deepmind.google/models/gemini/flash
ARC-AGI-2
accuracy
72.1%%
📄 deepmind.google/models/gemini/flash

Architektura techniczna

Rdzeń architektury (Core Architecture)
Forma modelu (Model Form)