Kazde zadanie sklada sie z 2-5 par demonstracyjnych (siatki kolorowych pikseli: wejscie → wyjscie) i jednego lub wiecej przypadków testowych. System musi odkryc regule rzadzaca transformacja i zastosowac ja. Odpowiedzi sa siatkami cyfrowymi (maksymalnie 30x30 pikseli, 10 kolorów). Ocenianie: binary success/fail na zadanie; wynik to % rozwiazanych zadan.
Brak benchmarku odpornego na "kupowanie wyników" przez masowe dane treningowe; istniejace benchmarki mierzaly zmagazynowana wiedze (crystallized intelligence) zamiast zdolnosci ogólnego wnioskowania (fluid intelligence) – nie pozwalajac ocenic postepów ku AGI.
Dobre wyniki na publicznym zbiorze testowym nie gwarantuja dobrego wyniku na prywatnym zbiorze testowym (ewaluacja ARC Prize).
Systemy trenowane na znanych zadaniach ARC moga przepasowac do ich specyficznych wzorcow, nie wykazujac prawdziwego rozumowania.
Francois Chollet definiuje intelligence jako efektywnosc nabywania umiejetnosci i prezentuje benchmark ARC.
Publiczny konkurs Kaggle z pula nagród $1M przyciaga setki zespolów; hybrydy LLM+programowanie osiagaja >55%.
ARC Prize Foundation publikuje nowe wersje benchmarku z trudniejszymi zadaniami, gdy modele zaczynaja nasycac ARC-AGI-1.
Benchmark oparty na siatkach pikseli; ewaluacja niezalezna od sprzetu, choć rozwiazania programowe moga korzystac z GPU.