Emergent Abilities
Jak działa
1. Wybór benchmarku i metryki: konkretne zadanie (np. 3-cyfrowe dodawanie, MMLU, BIG-Bench Hard) z dyskretną metryką sukcesu (exact-match, multiple-choice accuracy). 2. Trening / ewaluacja modeli różnej skali: serii modeli z tej samej rodziny przy stałej architekturze, ale różnych rozmiarach (np. GPT-3: 125M → 175B; PaLM: 8B → 540B; LaMDA: 137B; Gopher: 280B). 3. Pomiar wydajności na zadaniu jako funkcji skali (parametry, dane, FLOPs). Większość zadań wykazuje progresję: poniżej progu — losowa wydajność (np. 25% dla 4-opcji multiple-choice), powyżej progu — gwałtowny wzrost. 4. Identyfikacja progu: punkt, w którym wydajność znacząco przekracza losową. Dla CoT: ~100B parametrów. Dla modularnej arytmetyki: ~10²² FLOPs. 5. Analiza krytyczna (Schaeffer i in. 2023): zastąpienie dyskretnej metryki ciągłą (np. token edit distance zamiast exact-match) — jeśli krzywa staje się gładka, emergencja była artefaktem metryki, nie zjawiskiem modelu.
Rozwiązany problem
Pretrainingowe straty modeli językowych (cross-entropy) skalują się gładko zgodnie z prawami skalowania (Kaplan i in. 2020, Hoffmann i in. 2022 — Chinchilla), ale wydajność na konkretnych zadaniach downstream nie jest gładka. W praktyce trudno przewidzieć, kiedy model nabędzie konkretną zdolność (rozumowanie, code generation, instruction following) tylko na podstawie krzywej skalowania mniejszych modeli — co utrudnia planowanie budżetu treningowego i wybór architektury.
Komponenty
Wymiar, względem którego mierzy się emergencję — najczęściej liczba parametrów (np. 8B → 540B), liczba tokenów treningowych lub FLOPs obliczeń. Dokładniejsze analizy używają FLOPs, ponieważ zachwycają wpływ skali parametrów i danych jednocześnie.
Oficjalna
Funkcja przekształcająca wyjście modelu w skalarny wynik wydajności na zadaniu. Wybór metryki bezpośrednio determinuje, czy obserwujemy nieciągłość (emergencja), czy gładką krzywą skalowania. Schaeffer i in. (2023) wykazali, że dyskretne metryki (exact-match) tworzą pozorną emergencję.
Oficjalna
Punkt na osi skali, w którym wydajność na zadaniu nagle przekracza poziom losowy. Specyficzny dla każdej pary (zadanie, metryka). Dla Chain-of-Thought na arytmetyce: ~100 mld parametrów. Dla modularnej arytmetyki: ~10²² FLOPs. Dla prostych zadań klasyfikacji: brak progu (gładkie skalowanie).
Implementacja
Większość raportowanych „emergencji" zanika po zastąpieniu dyskretnych metryk (exact-match) ciągłymi (token edit distance, log-likelihood). Interpretowanie skoku w exact-match jako fundamentalnego skoku zdolności modelu prowadzi do nieuzasadnionych wniosków o nieprzewidywalności.
Przed Chinchilla większość rodzin modeli była niedotrenowana. Pozorne progi emergencji w funkcji liczby parametrów mogły być artefaktem zbyt małej ilości danych — większy model po prostu lepiej wykorzystywał ten sam korpus.
Wei i in. (2022) wybrali zadania emergentne z dużego puli BIG-Bench. Wiele zadań nie wykazuje emergencji i skaluje się gładko. Selektywne raportowanie tylko zadań emergentnych zniekształca obraz zachowania LLM.
Wiele „progów emergencji" wynika z pojedynczego seeda treningowego. Ten sam model wytrenowany z innym seedem może wykazywać próg w innym punkcie lub wcale.
Ewolucja
Kaplan i in. wykazują, że strata pretrainingowa modeli językowych skaluje się gładko jako funkcja parametrów, danych i FLOPs. Rodzi to oczekiwanie gładkiego skalowania także na zadaniach downstream.
Beyond the Imitation Game Benchmark (BIG-Bench) — kolaboracyjny benchmark zawierający 204 zadania, na których ewaluowane są modele różnej skali. Stanowi empiryczną podstawę dla obserwacji emergencji.
Wei i in. publikują w TMLR pracę „Emergent Abilities of Large Language Models", w której dokumentują skokowe pojawianie się zdolności na 137 zadaniach z BIG-Bench i innych benchmarków. Wprowadzają formalną definicję: zdolność jest emergentna, jeśli nie występuje u mniejszych modeli, ale występuje u większych.
Hoffmann i in. pokazują, że poprzednie modele (GPT-3, Gopher) były niedotrenowane: optymalnie należy skalować parametry i dane w równym tempie. To zmienia interpretację „progów emergencji" — niektóre rzekome progi mogą być artefaktem niedotrenowania, nie skali parametrów.
Schaeffer, Miranda i Koyejo (NeurIPS 2023, Outstanding Paper Award) wykazują, że emergencja jest w dużej mierze artefaktem wyboru dyskretnych, nieliniowych metryk ewaluacji. Po zastąpieniu ich metrykami ciągłymi (token edit distance, log-likelihood) krzywa skalowania staje się gładka i przewidywalna.
OpenAI w technical reporcie GPT-4 demonstruje, że pewne zdolności (HumanEval pass-rate) można przewidywać z błędem <1% na podstawie modeli 10 000× mniejszych — pod warunkiem użycia odpowiednio dobranej, ciągłej metryki. Wzmacnia to argumentację Schaeffera i in.
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Liczba parametrów lub FLOPs treningowe, względem których mierzy się emergencję.
Wybór metryki determinuje, czy emergencja jest widoczna. Dyskretne metryki ją wzmacniają, ciągłe — eliminują.
Niektóre typy zadań (rozumowanie wieloetapowe, instruction following) wykazują wyraźną emergencję; inne (klasyfikacja sentymentu) skalują się gładko.
Paradygmat wykonania
Emergent abilities to obserwowane zjawisko zachowania modeli LLM (najczęściej dense Transformer), nie tryb wykonania sam w sobie. Pole dotyczy wykonania modeli wykazujących emergencję — standardowo dense Transformer.
Równoległość
Pole nieadekwatne dla zjawiska obserwacyjnego. Opisuje równoległość treningu modeli, w których emergencja jest mierzona — standardowo w pełni równoległy trening dense Transformera.
Wymagania sprzętowe
Emergent abilities to obserwacja zachowania modeli — niezależna od konkretnego sprzętu. Wymagania sprzętowe są determinowane przez bazowy LLM, nie przez sam koncept.