Zachowanie AI

CAI

2022AktywnyOpublikowano: 10 maja 2026Aktualizacja: 10 maja 2026Opublikowany

Metoda alignmentu modeli językowych opracowana przez Anthropic, w której model AI sam ocenia nieszkodliwość odpowiedzi w oparciu o jawny zbiór zasad (konstytucję) — fundament alignmentu rodziny Claude.

Kluczowa innowacja

Zastąpienie ludzkich adnotatorów oceniających nieszkodliwość odpowiedzi modelu przez sam model AI kierujący się jawnie zdefiniowanym zbiorem zasad (konstytucją), umożliwiając skalowalny alignment bez kosztownej anotacji ludzkiej dla zadań harmlessness.

Kategoria

Zachowanie AI

Poziom abstrakcji

Pattern

Komponenty

Konstytucja (zbiór zasad)Definicja kryteriów oceny nieszkodliwości i pomocności w sposób transparentny i edytowalny.

Lista zasad w języku naturalnym definiujących pożądane zachowanie modelu. Anthropic wykorzystuje zasady czerpane m.in. z Powszechnej Deklaracji Praw Człowieka, warunków świadczenia usług platform technologicznych oraz wewnętrznych wytycznych etycznych. Zasady są jawne i podlegają iteracji.

Oficjalna

Faza Supervised Learning (SL-CAI)Wytworzenie wstępnej polityki SL-CAI ze znacznie obniżonym poziomem szkodliwości względem modelu bazowego.

Pierwsza faza CAI: model generuje wstępne odpowiedzi na szkodliwe prompty, sam krytykuje je względem zasad konstytucji, a następnie przepisuje aby były bardziej nieszkodliwe. Powstałe pary (prompt, poprawiona odpowiedź) służą do dostrojenia nadzorowanego.

Faza RLAIFSkalowalne generowanie sygnału preferencji bez ludzkich adnotatorów dla zadań oceny nieszkodliwości.

Druga faza CAI: model SL-CAI generuje pary odpowiedzi; osobny model AI prowadzony przez konstytucję wybiera mniej szkodliwą odpowiedź z pary. Wybory te zastępują ludzkie etykiety preferencji i służą do treningu modelu nagrody, który steruje optymalizacją PPO.

Self-critique i revisionKonkretna technika operacjonalizująca zasady konstytucji jako modyfikacje odpowiedzi.

Mechanizm w którym model najpierw krytykuje własną odpowiedź względem konkretnej zasady konstytucji (losowo wybranej z listy w danej iteracji), a następnie generuje przepisaną odpowiedź uwzględniającą tę krytykę. Iteracja może być stosowana wielokrotnie.

Oficjalna

Implementacja

Pułapki implementacyjne

Dziedziczenie błędów modelu krytykaWysoka

Model AI używany jako krytyk i selektor preferencji może mieć własne biasy i błędne rozumienie zasad konstytucji, które są następnie zaszczepiane do polityki przez RLAIF. Jakość alignmentu jest ograniczona jakością modelu krytyka.

Rozwiązanie:Wykorzystanie najsilniejszego dostępnego modelu jako krytyka. Iteracyjne testowanie spójności krytyka. Ewaluacja końcowego modelu przez ludzi na zbiorze testowym. Hybrydowe podejścia łączące CAI z ograniczonym RLHF.

Niejednoznaczność zasad konstytucjiŚrednia

Zasady wyrażone w języku naturalnym mogą być interpretowane różnie w różnych kontekstach. Model krytyk może wybierać interpretacje korzystne dla łatwych przypadków, pomijając trudne sytuacje brzegowe.

Rozwiązanie:Precyzyjne formułowanie zasad z przykładami. Stosowanie zestawu komplementarnych zasad pokrywających różne aspekty. Iteracyjne udoskonalanie konstytucji na podstawie obserwowanych przypadków brzegowych.

Ryzyko nadmiernej cenzury (helpfulness collapse)Wysoka

Zbyt agresywna optymalizacja w stronę nieszkodliwości może obniżyć użyteczność modelu — model może odmawiać odpowiedzi na nieszkodliwe pytania interpretowane przez krytyka jako potencjalnie problematyczne. Klasyczny problem alignment tax.

Rozwiązanie:Balansowanie konstytucji między zasadami nieszkodliwości a pomocności (helpful and harmless). Włączenie zasad jawnie zachęcających do udzielania użytecznej pomocy. Ewaluacja na metrykach helpfulness obok harmlessness.

Ewolucja

Oryginalny paper · 2022 · arXiv:2212.08073 (Anthropic technical report) · Yuntao Bai

Constitutional AI: Harmlessness from AI Feedback

Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Tom Brown, Jared Kaplan, Dario Amodei

2022

Bai et al. (Anthropic) publikują „Constitutional AI: Harmlessness from AI Feedback"

Punkt przełomowy

Praca arXiv:2212.08073 wprowadza CAI jako metodę alignmentu zastępującą ludzkich adnotatorów oceniających nieszkodliwość przez model AI prowadzony jawnym zbiorem zasad. Zaprezentowano dwufazowy potok (SL + RLAIF) i model „pomocny i nieszkodliwy" (helpful and harmless).

Constitutional AI: Harmlessness from AI Feedback (artykuł)

2023

Anthropic publikuje konstytucję Claude

W maju 2023 Anthropic upublicznił treść konstytucji używanej do alignmentu modeli Claude — dokumentu zawierającego zasady czerpane z Powszechnej Deklaracji Praw Człowieka, warunków świadczenia usług platform technologicznych oraz wewnętrznych wytycznych badawczych Anthropic.

2023

Lee et al. (Google) publikują „RLAIF vs. RLHF"

Praca arXiv:2309.00267 porównuje RLAIF z RLHF na zadaniach streszczania i dialogu, wykazując że RLAIF osiąga porównywalne lub lepsze wyniki w jakości generowania tekstu przy znacznie niższym koszcie anotacyjnym, potwierdzając praktyczną wartość paradygmatu wprowadzonego przez CAI.

RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback (artykuł)

2023

Collective Constitutional AI (CCAI) — eksperyment publiczny

Anthropic we współpracy z Collective Intelligence Project przeprowadził eksperyment Collective Constitutional AI, w którym ~1000 obywateli USA współtworzyło zasady konstytucji metodami deliberatywnymi. Wykazał możliwość partycypacyjnego określania zasad alignmentu.

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Treść konstytucjiKrytyczna

Konkretny zbiór zasad zawartych w konstytucji. Bezpośrednio determinuje, które zachowania będą uznawane za nieszkodliwe i pożądane. Anthropic publicznie iteruje konstytucję Claude.

Liczba iteracji critique-revisionWysoka

Ile razy model krytykuje i przepisuje swoją odpowiedź podczas fazy SL. Więcej iteracji zwiększa obniżenie szkodliwości, ale zwiększa koszt obliczeniowy.

Strategia próbkowania zasadŚrednia

W jaki sposób wybierane są zasady konstytucji do krytyki danej odpowiedzi (losowo, sekwencyjnie, z wagami). Wpływa na pokrycie zasad podczas treningu.

Paradygmat wykonania

Tryb główny

dense

CAI jest pipelinem treningowym, nie paradygmatem inferencji. Wykorzystuje standardowy gęsty Transformer w obu fazach (SL i RLAIF). Klasyfikacja 'stage_dependent' odzwierciedla fakt, że każda faza ma odrębny cel treningowy.

Wzorzec aktywacji

stage_dependent

Równoległość

Poziom równoległości

partially_parallel

Dwie fazy (SL-CAI → RLAIF) muszą być wykonane sekwencyjnie. W ramach każdej fazy możliwe jest zrównoleglenie danych i modelu. Generowanie self-critique i revision w fazie SL może być zrównoleglone na poziomie batchu.

Zakres

trainingacross_devices

Wymagania sprzętowe

Podstawowe

CAI dziedziczy wymagania sprzętowe RLHF — etap RLAIF wymaga jednoczesnego ładowania kilku modeli (polityka, referencja, model nagrody, krytyk) podczas optymalizacji PPO. Wymaga GPU z dużą pamięcią HBM (40–80 GB) i Tensor Cores do efektywnych operacji GEMM na Transformerach.

Dobry fit

Implementowalne na TPU pod (Google) z frameworkami JAX/Flax. Wykorzystywane przez badania alignmentu Google (np. RLAIF vs RLHF). Wymaga dostosowania pętli PPO do środowiska TPU.

Źródła

Constitutional AI: Harmlessness from AI Feedback

Paper

arXiv (Anthropic)

Claude's Constitution

official_website

Anthropic

Collective Constitutional AI: Aligning a Language Model with Public Input

official_website

Anthropic

RLAIF vs. RLHF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Paper

arXiv (Google)