Ocena jakości

ARC-AGI

2019AktywnyOpublikowany

Benchmark plynnej inteligencji AI oparty na zadaniach wizualnej abstrakcji i rozumowania, gdzie ludzie osiagaja ~85%, a modele AI musialy dlugo walczyc o przekroczenie 30% (ARC Prize).

Kluczowa innowacja

Jedyny benchmark mierzacy "plynna inteligencje" AI – zdolnosc do abstrakcji i wnioskowania na zupelnie nowych zadaniach opartych wylacznie na podstawowych priorach wiedzy (wspólnych dla ludzi), bez mozliwosci "kupienia" wyniku przez masowe dane treningowe.

Kategoria

Ocena jakości

Poziom abstrakcji

Pattern

Poziom operacji

Ewaluacja (runtime)

Zastosowania

pomiar ogólnej inteligencji AIewaluacja fluid intelligencebadania nad AGItestowanie zdolnosci abstrakcji i wnioskowania

Jak działa

Kazde zadanie sklada sie z 2-5 par demonstracyjnych (siatki kolorowych pikseli: wejscie → wyjscie) i jednego lub wiecej przypadków testowych. System musi odkryc regule rzadzaca transformacja i zastosowac ja. Odpowiedzi sa siatkami cyfrowymi (maksymalnie 30x30 pikseli, 10 kolorów). Ocenianie: binary success/fail na zadanie; wynik to % rozwiazanych zadan.

Rozwiązany problem

Brak benchmarku odpornego na "kupowanie wyników" przez masowe dane treningowe; istniejace benchmarki mierzaly zmagazynowana wiedze (crystallized intelligence) zamiast zdolnosci ogólnego wnioskowania (fluid intelligence) – nie pozwalajac ocenic postepów ku AGI.

Implementacja

Implementacje referencyjne

ARC-AGI – repozytorium oficjalne (GitHub)

Python · Francois Chollet / ARC Prize Foundation

Oficjalna

Pułapki implementacyjne

Luka miedzy zbiorem treningowym a prywatnym testowymWysoka

Dobre wyniki na publicznym zbiorze testowym nie gwarantuja dobrego wyniku na prywatnym zbiorze testowym (ewaluacja ARC Prize).

Rozwiązanie:Ewaluuj wylacznie na prywatnym zbiorze poprzez oficjalny konkurs ARC Prize.

Overfitting do znanych zadanKrytyczna

Systemy trenowane na znanych zadaniach ARC moga przepasowac do ich specyficznych wzorcow, nie wykazujac prawdziwego rozumowania.

Rozwiązanie:Uzywaj nowych zadan (ARC-AGI-2/3) i oceniaj na prywatnym zbiorze testowym.

Ewolucja

Oryginalny paper · 2019 · arXiv 2019 · Francois Chollet

On the Measure of Intelligence

Francois Chollet

2019

Publikacja ARC i papieru "On the Measure of Intelligence"

Punkt przełomowy

Francois Chollet definiuje intelligence jako efektywnosc nabywania umiejetnosci i prezentuje benchmark ARC.

2024

ARC Prize 2024 – pierwsze systemy przekraczaja 55% na prywatnym zbiorze

Punkt przełomowy

Publiczny konkurs Kaggle z pula nagród $1M przyciaga setki zespolów; hybrydy LLM+programowanie osiagaja >55%.

2025

ARC-AGI-2 i ARC-AGI-3 – nowe, trudniejsze wersje

ARC Prize Foundation publikuje nowe wersje benchmarku z trudniejszymi zadaniami, gdy modele zaczynaja nasycac ARC-AGI-1.

Szczegóły techniczne

Wymagania sprzętowe

Podstawowe

Benchmark oparty na siatkach pikseli; ewaluacja niezalezna od sprzetu, choć rozwiazania programowe moga korzystac z GPU.

Źródła

On the Measure of Intelligence

Paper

arXiv

ARC Prize – oficjalna strona

official_website

ARC Prize Foundation

Repozytorium ARC-AGI GitHub

Repozytorium

GitHub