BIG-Bench
Jak działa
1. Crowdsourcing zadań: badacze z 132 instytucji zgłaszają zadania w ustandaryzowanym formacie JSON (multiple choice, generative, programmatic). Każde zadanie ma opis, przykłady, metryki i ground truth. 2. Walidacja: zespół centralny weryfikuje, że zadanie jest trudne dla obecnych modeli (GPT-2, GPT-3 baseline) i ma jasne kryteria oceny. 3. Dystrybucja: zadania publikowane jako repozytorium GitHub (Apache 2.0) z biblioteką do uruchamiania benchmarków przez API modeli. 4. Ewaluacja: model jest promptowany każdym zadaniem (zero-shot lub few-shot), output porównywany z ground truth wg metryk zadania (accuracy, ROUGE, BLEU, exact match). 5. Agregacja: wyniki publikowane na lider boardzie BIG-Bench, z podziałem na kategorie zadań i analizami emergencji w funkcji skali parametrów. 6. BBH (BIG-Bench Hard): podzbiór 23 zadań, na których standardowy CoT prompting daje wyraźnie lepsze wyniki niż direct prompting — kanoniczny zestaw rozumowania.
Rozwiązany problem
Pre-2022 benchmarki LLM (GLUE, SuperGLUE) szybko nasycały się przez większe modele i nie testowały szerokiego spektrum zdolności. Brakowało zestawu wystarczająco trudnego, różnorodnego i otwartego, by mierzyć rozwój modeli przez wiele kolejnych generacji. BIG-Bench rozwiązał to crowdsourcingiem 200+ zadań specjalnie dobranych jako trudne, pokrywających dziedziny od matematyki po teorię umysłu.
Komponenty
204+ zadania w ustandaryzowanym formacie JSON, każde z metadanymi (autor, kategoria, metryki, prompt template, ground truth).
23 zadania, na których standardowe prompting daje wynik gorszy niż ludzie; CoT prompting istotnie poprawia wyniki. Kanoniczny test rozumowania (Suzgun i in. 2022).
Python framework integrujący się z API modeli (OpenAI, Anthropic, HuggingFace), obsługujący multiple choice, generative scoring i programmatic evaluation.
24 zadania zoptymalizowane pod kątem niskiego kosztu uruchomienia (mała liczba przykładów), zachowujące różnorodność full BIG-Bench.
Implementacja
Repozytorium BIG-Bench jest publicznie dostępne na GitHub od 2022. Modele trenowane po 2022 mogą mieć zadania w korpusie pretrainingowym, sztucznie zawyżając wyniki.
Każde zadanie ma własną metrykę (accuracy, ROUGE, BLEU, custom). Średnia arytmetyczna jest myląca — niektóre zadania mają range 0–1, inne 0–100.
GPT-5, Gemini 3, Claude Opus 4 osiągają 95–98% average accuracy na BBH. Benchmark traci zdolność rozróżniania modeli na czołówce.
Schaeffer i in. (2023) wykazali, że część „emergentnych skoków" na BIG-Bench wynika z dyskretnych metryk (accuracy) — przy ciągłych metrykach (cross-entropy) zachowanie jest płynne.
Ewolucja
Google ogłasza otwarte zaproszenie do crowdsourcingu zadań ewaluacyjnych dla LLM. Cel: zadania trudne, różnorodne, otwarte.
Pierwszy publiczny release benchmarku jako repozytorium GitHub. Ewaluacja GPT-3, PaLM 540B i kilku open-weight modeli.
Wyselekcjonowany podzbiór zadań, na których CoT prompting daje istotną poprawę nad direct prompting. BBH staje się kanonicznym testem rozumowania.
OpenAI raportuje że GPT-4 z CoT przewyższa human baseline na większości zadań BBH — pierwsza generacja modeli z taką zdolnością.
Stanford NLP wykazuje, że część emergentnych skoków na BIG-Bench znika po zmianie metryki z accuracy na ciągłą (np. cross-entropy).
Claude 3.5, Gemini 1.5 Pro, GPT-4o osiągają 90%+ średniej dokładności na BBH; wzrasta zapotrzebowanie na trudniejsze benchmarki (GPQA, MMLU-Pro).
Reasoning models (o1, DeepSeek-R1, Gemini 2.5 Deep Think, Claude Opus 4 Thinking) używają BBH jako standardowego punktu odniesienia obok GPQA i AIME.
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Wybór: full (204+ tasks), BBH (23 reasoning tasks), Lite (24 cost-efficient tasks), lub własny podzbiór wg kategorii.
Direct prompting vs Chain-of-Thought. BBH pokazuje istotne różnice — CoT poprawia wyniki o 10–30 pp na większości zadań.
Zero-shot, 1-shot, few-shot (3–8). Większość benchmarków BIG-Bench używa zero-shot lub 3-shot jako standard.
Per-zadanie: exact match, multiple choice accuracy, ROUGE, BLEU, BLEURT, programmatic check, custom.
Równoległość
Każde zadanie i każdy przykład w benchmarku są niezależne — można je ewaluować równolegle na dowolnej liczbie urządzeń. Limit to API rate limits modeli, nie sam benchmark.
Wymagania sprzętowe
BIG-Bench jest benchmarkiem ewaluacyjnym — nie wymaga specyficznego sprzętu. Działa wszędzie tam, gdzie działa model (GPU, TPU, CPU, API zdalne).