ARC-AGI
Jak działa
Kazde zadanie sklada sie z 2-5 par demonstracyjnych (siatki kolorowych pikseli: wejscie → wyjscie) i jednego lub wiecej przypadków testowych. System musi odkryc regule rzadzaca transformacja i zastosowac ja. Odpowiedzi sa siatkami cyfrowymi (maksymalnie 30x30 pikseli, 10 kolorów). Ocenianie: binary success/fail na zadanie; wynik to % rozwiazanych zadan.
Rozwiązany problem
Brak benchmarku odpornego na "kupowanie wyników" przez masowe dane treningowe; istniejace benchmarki mierzaly zmagazynowana wiedze (crystallized intelligence) zamiast zdolnosci ogólnego wnioskowania (fluid intelligence) – nie pozwalajac ocenic postepów ku AGI.
Implementacja
Dobre wyniki na publicznym zbiorze testowym nie gwarantuja dobrego wyniku na prywatnym zbiorze testowym (ewaluacja ARC Prize).
Systemy trenowane na znanych zadaniach ARC moga przepasowac do ich specyficznych wzorcow, nie wykazujac prawdziwego rozumowania.
Ewolucja
Francois Chollet definiuje intelligence jako efektywnosc nabywania umiejetnosci i prezentuje benchmark ARC.
Publiczny konkurs Kaggle z pula nagród $1M przyciaga setki zespolów; hybrydy LLM+programowanie osiagaja >55%.
ARC Prize Foundation publikuje nowe wersje benchmarku z trudniejszymi zadaniami, gdy modele zaczynaja nasycac ARC-AGI-1.
Szczegóły techniczne
Wymagania sprzętowe
Benchmark oparty na siatkach pikseli; ewaluacja niezalezna od sprzetu, choć rozwiazania programowe moga korzystac z GPU.