Gemini 3.1 Flash-Lite

3.1 Flash-Lite · Rodzina: Gemini

Najbardziej efektywny kosztowo model myślący z serii Gemini 3 firmy Google DeepMind, zaprojektowany pod kątem wysokiej przepustowości i niskich opóźnień przy zachowaniu jakości wnioskowania.

⏳ Preview⏳ Ograniczony dostępLLMModel multimodalnyModel rozumowaniaModel używający narzędzi📁 Gemini

Okno kontekstowe

tokenów

Max output

65 536

tokenów

Data premiery

29 kwietnia 2026

🔬Google DeepMindLab badawczy 🏢GoogleWłaściciel

Dostęp:APIHostedWdrożenie:☁ Cloud

Przegląd

Gemini 3.1 Flash-Lite to model AI opracowany przez Google DeepMind, ogłoszony 29 kwietnia 2026 roku jako część rodziny Gemini 3.1. To skalowalny model myślący zaprojektowany dla zadań wymagających wysokiej przepustowości przy niskim koszcie i opóźnieniu.

Model obsługuje elastyczne poziomy rozumowania, co pozwala użytkownikom dobierać głębokość myślenia do zadania. Dysponuje oknem kontekstowym do 1 miliona tokenów i maksymalnym wyjściem 64 000 tokenów. Obsługuje narzędzia: wywoływanie funkcji, strukturyzowane wyjście, wyszukiwanie i wykonanie kodu.

Dostępny przez Google AI Studio, Gemini API i Vertex AI. Granica wiedzy: styczeń 2025. Prędkość wnioskowania: 363 tokeny/s. Najniższa cena w serii 3: input $0.25/1M, output $1.50/1M tokenów.

Klasyfikacja

LLMModel multimodalnyModel rozumowaniaModel używający narzędzi

Rodzina: Gemini

Zastosowania

Kodowanie Generowanie treści Analiza dokumentów Automatyzacja procesów Asystent pisania Q&A / Odpowiadanie na pytania Analiza danych Tłumaczenie

Dostęp i wdrożenie

APIHostowane

Chmura

Wagi: Zamknięte

Kluczowe parametry

📏 Kontekst: 1M

✓ Narzędzia

📥 Wejście: tekst, obraz, audio, wideo…

Platformy

Vertex AI

Specyfikacja techniczna

Okno kontekstowe

tokenów

Max output tokens

65 536

tokenów na odpowiedź

Knowledge cutoff

1 sty 2025

Data graniczna wiedzy

Licencja

proprietary

Wymagania sprzętowe

Dostępny wyłącznie przez infrastrukturę chmurową Google (Gemini API, Vertex AI, Google AI Studio).

Funkcje:✓ Używanie narzędzi

Modalności

⬇ Wejście (Input)

textimageaudiovideodocuments

⬆ Wyjście (Output)

textcode

Możliwości i zastosowania

Natywne możliwości modelu

Rozumowanie

Zdolność modelu do logicznego wnioskowania i rozwiązywania złożonych problemów.

Kategoria: reasoning

Rozumowanie wieloetapowe

Prowadzenie wieloetapowego toku rozumowania w długich, złożonych zadaniach.

Kategoria: reasoning

Długi kontekst

Obsługa dużych okien kontekstowych — dziesiątek do setek tysięcy (lub milionów) tokenów wejścia. Umożliwia analizę całych baz kodu, długich dokumentów, wielu równolegle rozmów bez utraty wcześniejszych informacji. GPT-5.1 wspiera 400 000 tokenów.

Kategoria: language

Rozumienie multimodalne

Zdolność modelu do łączenia i interpretowania informacji z więcej niż jednej modalności, np. tekstu i obrazu.

Kategoria: multimodal

Programowanie

Generowanie, analizowanie i modyfikowanie kodu w wielu językach programowania. Obejmuje pisanie funkcji, debugowanie, refaktoryzację, code review, tworzenie testów. Mierzone benchmarkami takimi jak HumanEval, SWE-bench.

Kategoria: coding

Wywoływanie funkcji

Natywne wsparcie dla ustrukturyzowanego wykorzystania narzędzi, umożliwiające przepływy pracy oparte na agentach.

Kategoria: planning

Wyjście strukturyzowane

Generowanie danych w ustrukturyzowanych formatach, np. JSON.

Kategoria: structured_generation

Rozumienie audio

Zdolność modelu do interpretowania dźwięku, mowy, tonów i sygnałów audio.

Kategoria: audio

Rozumienie obrazu

Analiza i interpretacja treści obrazów.

Kategoria: vision

Rozumienie wideo

Zdolność analizy wideo poprzez przetwarzanie sekwencji klatek.

Kategoria: video

Rozumienie wykresów

Odczyt i interpretacja wykresów, tabel i diagramów.

Kategoria: vision

Wielojęzyczność

Kompetencje w wielu językach naturalnych (od kilku do stu+): rozumienie, generowanie, tłumaczenie, code-switching w obrębie jednej rozmowy. Modele frontier obsługują szeroki wachlarz języków ze zbliżoną jakością.

Kategoria: language

Wyjście strumieniowe

Wiadomości strumieniowe umożliwiają pobieranie treści w czasie rzeczywistym, gdy model generuje odpowiedzi, bez czekania na wygenerowanie całej odpowiedzi. Takie podejście może znacząco poprawić doświadczenie użytkownika, zwłaszcza podczas tworzenia długich treści tekstowych, ponieważ użytkownicy mogą od razu zobaczyć, że odpowiedź zaczyna się pojawiać.

Kategoria: reasoning

Dziedziny zastosowań

Kodowanie Generowanie treści Analiza dokumentów Automatyzacja procesów Asystent pisania Q&A / Odpowiadanie na pytania Analiza danych Tłumaczenie

Wyniki benchmarków

11 benchmarków

Humanity's Last Exam

accuracy · Bez narzędzi, Gemini 3.1 Flash-Lite High

16.0%%