Ocena jakości

Emergent Abilities

2022AktywnyAktualizacja: 5 maja 2026Opublikowany

Zjawisko skokowego pojawiania się zdolności LLM powyżej progu skali, niewidoczne w mniejszych modelach.

Kluczowa innowacja

Sformalizowanie i empiryczne udokumentowanie obserwacji, że niektóre zdolności dużych modeli językowych pojawiają się skokowo dopiero powyżej określonego progu skali (parametry, dane, FLOPs) i są nieprzewidywalne na podstawie wyników mniejszych modeli.

Kategoria

Ocena jakości

Poziom abstrakcji

Pattern

Poziom operacji

ModelTrening

Zastosowania

Planowanie budżetu treningowego dla nowej rodziny LLMWybór progu skali dla pojawienia się rozumowania (CoT)Ewaluacja LLM na BIG-Bench Hard, MMLU, GSM8K w funkcji skaliArgumentacja na rzecz dalszego skalowania modeli frontierKrytyka metodyk ewaluacji LLM (Schaeffer et al.)Decyzja o stosowaniu instruction tuning vs. czystego pretraininguAnaliza bezpieczeństwa AI (nieprzewidywalne pojawianie się zdolności)Badania nad alignmentem (czy zdolności niebezpieczne też są emergentne)

Jak działa

1. Wybór benchmarku i metryki: konkretne zadanie (np. 3-cyfrowe dodawanie, MMLU, BIG-Bench Hard) z dyskretną metryką sukcesu (exact-match, multiple-choice accuracy). 2. Trening / ewaluacja modeli różnej skali: serii modeli z tej samej rodziny przy stałej architekturze, ale różnych rozmiarach (np. GPT-3: 125M → 175B; PaLM: 8B → 540B; LaMDA: 137B; Gopher: 280B). 3. Pomiar wydajności na zadaniu jako funkcji skali (parametry, dane, FLOPs). Większość zadań wykazuje progresję: poniżej progu — losowa wydajność (np. 25% dla 4-opcji multiple-choice), powyżej progu — gwałtowny wzrost. 4. Identyfikacja progu: punkt, w którym wydajność znacząco przekracza losową. Dla CoT: ~100B parametrów. Dla modularnej arytmetyki: ~10²² FLOPs. 5. Analiza krytyczna (Schaeffer i in. 2023): zastąpienie dyskretnej metryki ciągłą (np. token edit distance zamiast exact-match) — jeśli krzywa staje się gładka, emergencja była artefaktem metryki, nie zjawiskiem modelu.

Rozwiązany problem

Pretrainingowe straty modeli językowych (cross-entropy) skalują się gładko zgodnie z prawami skalowania (Kaplan i in. 2020, Hoffmann i in. 2022 — Chinchilla), ale wydajność na konkretnych zadaniach downstream nie jest gładka. W praktyce trudno przewidzieć, kiedy model nabędzie konkretną zdolność (rozumowanie, code generation, instruction following) tylko na podstawie krzywej skalowania mniejszych modeli — co utrudnia planowanie budżetu treningowego i wybór architektury.

Komponenty

Oś skali modeluOś poziomu wykresu emergencji

Wymiar, względem którego mierzy się emergencję — najczęściej liczba parametrów (np. 8B → 540B), liczba tokenów treningowych lub FLOPs obliczeń. Dokładniejsze analizy używają FLOPs, ponieważ zachwycają wpływ skali parametrów i danych jednocześnie.

Liczba parametrówNajczęstsza miara w pierwotnym paperze Wei i in.

FLOPs treningowePojedyncza skalarna miara obejmująca parametry i dane (Kaplan i in. 2020).

Tokeny treningoweKrytyczne po Chinchilla (Hoffmann i in. 2022) — modele niedotrenowane wykazują pozorną emergencję.

Oficjalna

Metryka ewaluacjiDeterminuje, czy emergencja jest widoczna

Funkcja przekształcająca wyjście modelu w skalarny wynik wydajności na zadaniu. Wybór metryki bezpośrednio determinuje, czy obserwujemy nieciągłość (emergencja), czy gładką krzywą skalowania. Schaeffer i in. (2023) wykazali, że dyskretne metryki (exact-match) tworzą pozorną emergencję.

Exact-match accuracyDyskretna; wzmacnia pozorną emergencję.

Multiple-choice accuracyDyskretna; powyżej baseline losowego (np. 25%) wykazuje skoki.

Token edit distanceCiągła; ujawnia gładką krzywą skalowania (Schaeffer i in.).

Log-likelihood na właściwej odpowiedziCiągła; bezpośrednia funkcja straty modelu, gładka po skali.

Oficjalna

Próg emergencjiDefiniuje, gdzie pojawia się zdolność

Punkt na osi skali, w którym wydajność na zadaniu nagle przekracza poziom losowy. Specyficzny dla każdej pary (zadanie, metryka). Dla Chain-of-Thought na arytmetyce: ~100 mld parametrów. Dla modularnej arytmetyki: ~10²² FLOPs. Dla prostych zadań klasyfikacji: brak progu (gładkie skalowanie).

Implementacja

Implementacje referencyjne

BIG-Bench — benchmark do pomiaru emergencji

Python · Google Research + community

Oficjalna

BIG-Bench Hard — emergent subset of BIG-Bench

Python · Suzgun et al.

Oficjalna

Mirage — kod do analizy emergencji jako artefaktu metryki

Python · Rylan Schaeffer (Stanford)

Oficjalna

MMLU — benchmark wieloprzedmiotowy do skalowania

Python · Hendrycks et al.

Oficjalna

Pułapki implementacyjne

Mylenie emergencji metryki z emergencją modeluWysoka

Większość raportowanych „emergencji" zanika po zastąpieniu dyskretnych metryk (exact-match) ciągłymi (token edit distance, log-likelihood). Interpretowanie skoku w exact-match jako fundamentalnego skoku zdolności modelu prowadzi do nieuzasadnionych wniosków o nieprzewidywalności.

Rozwiązanie:Zawsze raportuj wyniki z co najmniej jedną ciągłą metryką (log-likelihood właściwej odpowiedzi). Stosuj predyktywne metody jak w GPT-4 technical report.

Niedotrenowanie modeli na osi skaliWysoka

Przed Chinchilla większość rodzin modeli była niedotrenowana. Pozorne progi emergencji w funkcji liczby parametrów mogły być artefaktem zbyt małej ilości danych — większy model po prostu lepiej wykorzystywał ten sam korpus.

Rozwiązanie:Skaluj parametry i dane razem zgodnie z Chinchilla scaling laws. Raportuj emergencję jako funkcję FLOPs, nie tylko parametrów.

Cherry-picking benchmarków wykazujących emergencjęŚrednia

Wei i in. (2022) wybrali zadania emergentne z dużego puli BIG-Bench. Wiele zadań nie wykazuje emergencji i skaluje się gładko. Selektywne raportowanie tylko zadań emergentnych zniekształca obraz zachowania LLM.

Rozwiązanie:Raportuj pełny rozkład zachowań skalowania, nie tylko zadania emergentne. Stosuj agregaty typu BIG-Bench Hard z reprezentatywnym podzbiorem.

Brak powtórzeń i analizy wariancjiŚrednia

Wiele „progów emergencji" wynika z pojedynczego seeda treningowego. Ten sam model wytrenowany z innym seedem może wykazywać próg w innym punkcie lub wcale.

Rozwiązanie:Trenuj wiele seedów, raportuj słupki błędów i interwały ufności na krzywych skalowania.

Ewolucja

Oryginalny paper · 2022 · TMLR 2022 · Jason Wei

Emergent Abilities of Large Language Models

Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, William Fedus

2020

Prawa skalowania dla modeli językowych (Kaplan i in.)

Kaplan i in. wykazują, że strata pretrainingowa modeli językowych skaluje się gładko jako funkcja parametrów, danych i FLOPs. Rodzi to oczekiwanie gładkiego skalowania także na zadaniach downstream.

Scaling Laws for Neural Language Models (artykuł)

2022

BIG-Bench publikuje 200+ różnorodnych zadań

Beyond the Imitation Game Benchmark (BIG-Bench) — kolaboracyjny benchmark zawierający 204 zadania, na których ewaluowane są modele różnej skali. Stanowi empiryczną podstawę dla obserwacji emergencji.

Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models (artykuł)

2022

Sformalizowanie konceptu emergent abilities (Wei i in.)

Punkt przełomowy

Wei i in. publikują w TMLR pracę „Emergent Abilities of Large Language Models", w której dokumentują skokowe pojawianie się zdolności na 137 zadaniach z BIG-Bench i innych benchmarków. Wprowadzają formalną definicję: zdolność jest emergentna, jeśli nie występuje u mniejszych modeli, ale występuje u większych.

Emergent Abilities of Large Language Models (artykuł)

2022

Chinchilla — przesunięcie optymalnej alokacji danych (Hoffmann i in.)

Punkt przełomowy

Hoffmann i in. pokazują, że poprzednie modele (GPT-3, Gopher) były niedotrenowane: optymalnie należy skalować parametry i dane w równym tempie. To zmienia interpretację „progów emergencji" — niektóre rzekome progi mogą być artefaktem niedotrenowania, nie skali parametrów.

Training Compute-Optimal Large Language Models (artykuł)

2023

Krytyka „mirage" — emergencja jako artefakt metryki (Schaeffer i in.)

Punkt przełomowy

Schaeffer, Miranda i Koyejo (NeurIPS 2023, Outstanding Paper Award) wykazują, że emergencja jest w dużej mierze artefaktem wyboru dyskretnych, nieliniowych metryk ewaluacji. Po zastąpieniu ich metrykami ciągłymi (token edit distance, log-likelihood) krzywa skalowania staje się gładka i przewidywalna.

Are Emergent Abilities of Large Language Models a Mirage? (artykuł)

2024

Predyktywne metryki — przewidywanie zdolności GPT-4 (OpenAI)

OpenAI w technical reporcie GPT-4 demonstruje, że pewne zdolności (HumanEval pass-rate) można przewidywać z błędem <1% na podstawie modeli 10 000× mniejszych — pod warunkiem użycia odpowiednio dobranej, ciągłej metryki. Wzmacnia to argumentację Schaeffera i in.

GPT-4 Technical Report (artykuł)

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Skala modeluKrytyczna

Liczba parametrów lub FLOPs treningowe, względem których mierzy się emergencję.

8B–540B parametersZakres rodziny PaLM użytej w Wei i in. (2022).

10²⁰–10²⁴ FLOPsZakres treningowych FLOPs dla modeli frontier 2020–2024.

Metryka ewaluacjiKrytyczna

Wybór metryki determinuje, czy emergencja jest widoczna. Dyskretne metryki ją wzmacniają, ciągłe — eliminują.

exact_matchDyskretna; pokazuje skoki.

token_edit_distanceCiągła; gładka krzywa.

Typ zadaniaWysoka

Niektóre typy zadań (rozumowanie wieloetapowe, instruction following) wykazują wyraźną emergencję; inne (klasyfikacja sentymentu) skalują się gładko.

Multi-step reasoning (GSM8K)Silna emergencja powyżej ~100B parametrów.

Sentiment classificationGładkie skalowanie, brak progu.

Paradygmat wykonania

Tryb główny

dense

Emergent abilities to obserwowane zjawisko zachowania modeli LLM (najczęściej dense Transformer), nie tryb wykonania sam w sobie. Pole dotyczy wykonania modeli wykazujących emergencję — standardowo dense Transformer.

Wzorzec aktywacji

all_paths_active

Mechanizm routingu

Równoległość

Poziom równoległości

fully_parallel

Pole nieadekwatne dla zjawiska obserwacyjnego. Opisuje równoległość treningu modeli, w których emergencja jest mierzona — standardowo w pełni równoległy trening dense Transformera.

Zakres

training

Wymagania sprzętowe

Podstawowe

Emergent abilities to obserwacja zachowania modeli — niezależna od konkretnego sprzętu. Wymagania sprzętowe są determinowane przez bazowy LLM, nie przez sam koncept.

Źródła

Emergent Abilities of Large Language Models (Wei et al. 2022)

Paper

Are Emergent Abilities of Large Language Models a Mirage? (Schaeffer et al., NeurIPS 2023)

Paper

BIG-Bench (Beyond the Imitation Game)

Paper

Training Compute-Optimal Large Language Models (Chinchilla, Hoffmann et al. 2022)

Paper

Google AI Blog — Characterizing Emergent Phenomena in Large Language Models

Blog