Robocikowo>ROBOCIKOWO
Ocena jakości

ARC-AGI

2019AktywnyOpublikowany
Benchmark plynnej inteligencji AI oparty na zadaniach wizualnej abstrakcji i rozumowania, gdzie ludzie osiagaja ~85%, a modele AI musialy dlugo walczyc o przekroczenie 30% (ARC Prize).
Kluczowa innowacja
Jedyny benchmark mierzacy "plynna inteligencje" AI – zdolnosc do abstrakcji i wnioskowania na zupelnie nowych zadaniach opartych wylacznie na podstawowych priorach wiedzy (wspólnych dla ludzi), bez mozliwosci "kupienia" wyniku przez masowe dane treningowe.
Kategoria
Ocena jakości
Poziom abstrakcji
Pattern
Poziom operacji
Ewaluacja (runtime)
Zastosowania
pomiar ogólnej inteligencji AIewaluacja fluid intelligencebadania nad AGItestowanie zdolnosci abstrakcji i wnioskowania

Jak działa

Kazde zadanie sklada sie z 2-5 par demonstracyjnych (siatki kolorowych pikseli: wejscie → wyjscie) i jednego lub wiecej przypadków testowych. System musi odkryc regule rzadzaca transformacja i zastosowac ja. Odpowiedzi sa siatkami cyfrowymi (maksymalnie 30x30 pikseli, 10 kolorów). Ocenianie: binary success/fail na zadanie; wynik to % rozwiazanych zadan.

Rozwiązany problem

Brak benchmarku odpornego na "kupowanie wyników" przez masowe dane treningowe; istniejace benchmarki mierzaly zmagazynowana wiedze (crystallized intelligence) zamiast zdolnosci ogólnego wnioskowania (fluid intelligence) – nie pozwalajac ocenic postepów ku AGI.

Implementacja

Pułapki implementacyjne
Luka miedzy zbiorem treningowym a prywatnym testowymWysoka

Dobre wyniki na publicznym zbiorze testowym nie gwarantuja dobrego wyniku na prywatnym zbiorze testowym (ewaluacja ARC Prize).

Rozwiązanie:Ewaluuj wylacznie na prywatnym zbiorze poprzez oficjalny konkurs ARC Prize.
Overfitting do znanych zadanKrytyczna

Systemy trenowane na znanych zadaniach ARC moga przepasowac do ich specyficznych wzorcow, nie wykazujac prawdziwego rozumowania.

Rozwiązanie:Uzywaj nowych zadan (ARC-AGI-2/3) i oceniaj na prywatnym zbiorze testowym.

Ewolucja

Oryginalny paper · 2019 · arXiv 2019 · Francois Chollet
On the Measure of Intelligence
Francois Chollet
2019
Publikacja ARC i papieru "On the Measure of Intelligence"
Punkt przełomowy

Francois Chollet definiuje intelligence jako efektywnosc nabywania umiejetnosci i prezentuje benchmark ARC.

2024
ARC Prize 2024 – pierwsze systemy przekraczaja 55% na prywatnym zbiorze
Punkt przełomowy

Publiczny konkurs Kaggle z pula nagród $1M przyciaga setki zespolów; hybrydy LLM+programowanie osiagaja >55%.

2025
ARC-AGI-2 i ARC-AGI-3 – nowe, trudniejsze wersje

ARC Prize Foundation publikuje nowe wersje benchmarku z trudniejszymi zadaniami, gdy modele zaczynaja nasycac ARC-AGI-1.

Szczegóły techniczne

Wymagania sprzętowe

Podstawowe

Benchmark oparty na siatkach pikseli; ewaluacja niezalezna od sprzetu, choć rozwiazania programowe moga korzystac z GPU.