Ocena jakości

BIG-Bench

2022AktywnyOpublikowano: 6 maja 2026Aktualizacja: 6 maja 2026Opublikowany

Crowdsourcowany benchmark LLM z 204+ różnorodnych zadań, zaprojektowany by mierzyć emergentne zdolności i wykraczać poza klasyczne ewaluacje NLP. Wprowadzony przez Google + 442 współautorów (2022).

Kluczowa innowacja

Pierwszy ewaluacyjny benchmark LLM crowdsourcowany od ponad 450 autorów z 132 instytucji, zawierający 204+ zadania zaprojektowane by przekraczać aktualne możliwości modeli i mierzyć emergentne zdolności w skali parametrów.

Kategoria

Ocena jakości

Poziom abstrakcji

Pattern

Poziom operacji

Ewaluacja (runtime)

Zastosowania

Ewaluacja LLM nowych generacji (GPT-4, Claude, Gemini, Llama)Pomiar emergentnych zdolności w funkcji skali parametrówBenchmark rozumowania (BIG-Bench Hard) — porównywanie CoT vs direct promptingWalidacja modeli reasoning (o1, DeepSeek-R1, Gemini 2.5 Deep Think)Akademicka analiza phase transitions w skalowaniu modeliEwaluacja instruction tuning i RLHFDiagnostyka pojedynczych zadań — gdzie model zawodzi (np. theory of mind, planning)Benchmark referencyjny dla modeli open-weight (Llama, Mistral, Qwen)

Jak działa

1. Crowdsourcing zadań: badacze z 132 instytucji zgłaszają zadania w ustandaryzowanym formacie JSON (multiple choice, generative, programmatic). Każde zadanie ma opis, przykłady, metryki i ground truth. 2. Walidacja: zespół centralny weryfikuje, że zadanie jest trudne dla obecnych modeli (GPT-2, GPT-3 baseline) i ma jasne kryteria oceny. 3. Dystrybucja: zadania publikowane jako repozytorium GitHub (Apache 2.0) z biblioteką do uruchamiania benchmarków przez API modeli. 4. Ewaluacja: model jest promptowany każdym zadaniem (zero-shot lub few-shot), output porównywany z ground truth wg metryk zadania (accuracy, ROUGE, BLEU, exact match). 5. Agregacja: wyniki publikowane na lider boardzie BIG-Bench, z podziałem na kategorie zadań i analizami emergencji w funkcji skali parametrów. 6. BBH (BIG-Bench Hard): podzbiór 23 zadań, na których standardowy CoT prompting daje wyraźnie lepsze wyniki niż direct prompting — kanoniczny zestaw rozumowania.

Rozwiązany problem

Pre-2022 benchmarki LLM (GLUE, SuperGLUE) szybko nasycały się przez większe modele i nie testowały szerokiego spektrum zdolności. Brakowało zestawu wystarczająco trudnego, różnorodnego i otwartego, by mierzyć rozwój modeli przez wiele kolejnych generacji. BIG-Bench rozwiązał to crowdsourcingiem 200+ zadań specjalnie dobranych jako trudne, pokrywających dziedziny od matematyki po teorię umysłu.

Komponenty

Task suiteGłówny zbiór zadań ewaluacyjnych

204+ zadania w ustandaryzowanym formacie JSON, każde z metadanymi (autor, kategoria, metryki, prompt template, ground truth).

BIG-Bench Hard (BBH)Wyselekcjonowany podzbiór do testów rozumowania

23 zadania, na których standardowe prompting daje wynik gorszy niż ludzie; CoT prompting istotnie poprawia wyniki. Kanoniczny test rozumowania (Suzgun i in. 2022).

Evaluation harnessBiblioteka do uruchamiania ewaluacji

Python framework integrujący się z API modeli (OpenAI, Anthropic, HuggingFace), obsługujący multiple choice, generative scoring i programmatic evaluation.

Lite subset (BIG-Bench Lite)Tani podzbiór do szybkiej ewaluacji

24 zadania zoptymalizowane pod kątem niskiego kosztu uruchomienia (mała liczba przykładów), zachowujące różnorodność full BIG-Bench.

Implementacja

Implementacje referencyjne

BIG-bench (oficjalne repozytorium GitHub)

Python · Google + BIG-bench collaboration

Oficjalna

BIG-Bench Hard (BBH) — repozytorium z prompts

Python · Mirac Suzgun et al.

Oficjalna

lm-evaluation-harness (BIG-Bench tasks integration)

Python · EleutherAI

HELM — Holistic Evaluation of Language Models (Stanford CRFM)

Python · Stanford CRFM

Pułapki implementacyjne

Data contamination — zadania BIG-Bench w korpusie pretrainingowymWysoka

Repozytorium BIG-Bench jest publicznie dostępne na GitHub od 2022. Modele trenowane po 2022 mogą mieć zadania w korpusie pretrainingowym, sztucznie zawyżając wyniki.

Rozwiązanie:Decontamination pipeline na korpusie pretrainingowym (Brown et al. style — 13-gram match). Ewaluuj na świeżych zadaniach (held-out, post-training).

Heterogeniczne metryki — trudność agregacjiŚrednia

Każde zadanie ma własną metrykę (accuracy, ROUGE, BLEU, custom). Średnia arytmetyczna jest myląca — niektóre zadania mają range 0–1, inne 0–100.

Rozwiązanie:Stosuj normalizację metryk (calibrated score, per-task z-score) lub raportuj per kategorię/podzbiór.

Saturacja BBH na frontier modelachWysoka

GPT-5, Gemini 3, Claude Opus 4 osiągają 95–98% average accuracy na BBH. Benchmark traci zdolność rozróżniania modeli na czołówce.

Rozwiązanie:Używaj BBH jedynie jako sanity check; do różnicowania frontier modeli stosuj GPQA, MMLU-Pro, FrontierMath, ARC-AGI.

Krytyka emergencji jako artefakt metrykŚrednia

Schaeffer i in. (2023) wykazali, że część „emergentnych skoków" na BIG-Bench wynika z dyskretnych metryk (accuracy) — przy ciągłych metrykach (cross-entropy) zachowanie jest płynne.

Rozwiązanie:Raportuj zarówno accuracy, jak i continuous metrics (negative log-likelihood). Bądź ostrożny przy wnioskach o phase transitions.

Ewolucja

Oryginalny paper · 2022 · TMLR (Transactions on Machine Learning Research) 2023 · Aarohi Srivastava

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models

Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, BIG-bench collaboration (450+ authors, 132 institutions)

2021

Start kolaboracji BIG-bench

Google ogłasza otwarte zaproszenie do crowdsourcingu zadań ewaluacyjnych dla LLM. Cel: zadania trudne, różnorodne, otwarte.

2022

Publikacja BIG-Bench (204 zadania, 442 autorów)

Punkt przełomowy

Pierwszy publiczny release benchmarku jako repozytorium GitHub. Ewaluacja GPT-3, PaLM 540B i kilku open-weight modeli.

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models (artykuł)

2022

BIG-Bench Hard (BBH) — 23 zadania rozumowania (Suzgun i in.)

Punkt przełomowy

Wyselekcjonowany podzbiór zadań, na których CoT prompting daje istotną poprawę nad direct prompting. BBH staje się kanonicznym testem rozumowania.

Challenging BIG-Bench Tasks and Whether Chain-of-Thought Can Solve Them (artykuł)

2023

GPT-4 osiąga przełomowe wyniki na BBH

Punkt przełomowy

OpenAI raportuje że GPT-4 z CoT przewyższa human baseline na większości zadań BBH — pierwsza generacja modeli z taką zdolnością.

2023

Schaeffer i in. — krytyka emergencji jako artefaktu metryk

Stanford NLP wykazuje, że część emergentnych skoków na BIG-Bench znika po zmianie metryki z accuracy na ciągłą (np. cross-entropy).

Are Emergent Abilities of Large Language Models a Mirage? (artykuł)

2024

BBH zaczyna być nasycany — frontier modele 90%+ accuracy

Claude 3.5, Gemini 1.5 Pro, GPT-4o osiągają 90%+ średniej dokładności na BBH; wzrasta zapotrzebowanie na trudniejsze benchmarki (GPQA, MMLU-Pro).

2025

BBH jako referencyjny test reasoning models

Reasoning models (o1, DeepSeek-R1, Gemini 2.5 Deep Think, Claude Opus 4 Thinking) używają BBH jako standardowego punktu odniesienia obok GPQA i AIME.

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Podzbiór ewaluacyjnyKrytyczna

Wybór: full (204+ tasks), BBH (23 reasoning tasks), Lite (24 cost-efficient tasks), lub własny podzbiór wg kategorii.

fullWszystkie 204+ zadania — pełna ewaluacja.

BBHBIG-Bench Hard — 23 trudne zadania rozumowania.

LiteBIG-Bench Lite — 24 zadania zoptymalizowane kosztowo.

Strategia promptowaniaWysoka

Direct prompting vs Chain-of-Thought. BBH pokazuje istotne różnice — CoT poprawia wyniki o 10–30 pp na większości zadań.

directBezpośrednie pytanie, bez rozumowania.

cotChain-of-Thought — model rozumuje krok po kroku.

few-shot cotCoT z 3–8 demonstracjami.

Liczba demonstracji (shots)Wysoka

Zero-shot, 1-shot, few-shot (3–8). Większość benchmarków BIG-Bench używa zero-shot lub 3-shot jako standard.

Typ metrykiŚrednia

Per-zadanie: exact match, multiple choice accuracy, ROUGE, BLEU, BLEURT, programmatic check, custom.

Równoległość

Poziom równoległości

fully_parallel

Każde zadanie i każdy przykład w benchmarku są niezależne — można je ewaluować równolegle na dowolnej liczbie urządzeń. Limit to API rate limits modeli, nie sam benchmark.

Zakres

inferenceacross_devices