CAI
Komponenty
Lista zasad w języku naturalnym definiujących pożądane zachowanie modelu. Anthropic wykorzystuje zasady czerpane m.in. z Powszechnej Deklaracji Praw Człowieka, warunków świadczenia usług platform technologicznych oraz wewnętrznych wytycznych etycznych. Zasady są jawne i podlegają iteracji.
Oficjalna
Pierwsza faza CAI: model generuje wstępne odpowiedzi na szkodliwe prompty, sam krytykuje je względem zasad konstytucji, a następnie przepisuje aby były bardziej nieszkodliwe. Powstałe pary (prompt, poprawiona odpowiedź) służą do dostrojenia nadzorowanego.
Druga faza CAI: model SL-CAI generuje pary odpowiedzi; osobny model AI prowadzony przez konstytucję wybiera mniej szkodliwą odpowiedź z pary. Wybory te zastępują ludzkie etykiety preferencji i służą do treningu modelu nagrody, który steruje optymalizacją PPO.
Mechanizm w którym model najpierw krytykuje własną odpowiedź względem konkretnej zasady konstytucji (losowo wybranej z listy w danej iteracji), a następnie generuje przepisaną odpowiedź uwzględniającą tę krytykę. Iteracja może być stosowana wielokrotnie.
Oficjalna
Implementacja
Model AI używany jako krytyk i selektor preferencji może mieć własne biasy i błędne rozumienie zasad konstytucji, które są następnie zaszczepiane do polityki przez RLAIF. Jakość alignmentu jest ograniczona jakością modelu krytyka.
Zasady wyrażone w języku naturalnym mogą być interpretowane różnie w różnych kontekstach. Model krytyk może wybierać interpretacje korzystne dla łatwych przypadków, pomijając trudne sytuacje brzegowe.
Zbyt agresywna optymalizacja w stronę nieszkodliwości może obniżyć użyteczność modelu — model może odmawiać odpowiedzi na nieszkodliwe pytania interpretowane przez krytyka jako potencjalnie problematyczne. Klasyczny problem alignment tax.
Ewolucja
Praca arXiv:2212.08073 wprowadza CAI jako metodę alignmentu zastępującą ludzkich adnotatorów oceniających nieszkodliwość przez model AI prowadzony jawnym zbiorem zasad. Zaprezentowano dwufazowy potok (SL + RLAIF) i model „pomocny i nieszkodliwy" (helpful and harmless).
W maju 2023 Anthropic upublicznił treść konstytucji używanej do alignmentu modeli Claude — dokumentu zawierającego zasady czerpane z Powszechnej Deklaracji Praw Człowieka, warunków świadczenia usług platform technologicznych oraz wewnętrznych wytycznych badawczych Anthropic.
Praca arXiv:2309.00267 porównuje RLAIF z RLHF na zadaniach streszczania i dialogu, wykazując że RLAIF osiąga porównywalne lub lepsze wyniki w jakości generowania tekstu przy znacznie niższym koszcie anotacyjnym, potwierdzając praktyczną wartość paradygmatu wprowadzonego przez CAI.
Anthropic we współpracy z Collective Intelligence Project przeprowadził eksperyment Collective Constitutional AI, w którym ~1000 obywateli USA współtworzyło zasady konstytucji metodami deliberatywnymi. Wykazał możliwość partycypacyjnego określania zasad alignmentu.
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Konkretny zbiór zasad zawartych w konstytucji. Bezpośrednio determinuje, które zachowania będą uznawane za nieszkodliwe i pożądane. Anthropic publicznie iteruje konstytucję Claude.
Ile razy model krytykuje i przepisuje swoją odpowiedź podczas fazy SL. Więcej iteracji zwiększa obniżenie szkodliwości, ale zwiększa koszt obliczeniowy.
W jaki sposób wybierane są zasady konstytucji do krytyki danej odpowiedzi (losowo, sekwencyjnie, z wagami). Wpływa na pokrycie zasad podczas treningu.
Paradygmat wykonania
CAI jest pipelinem treningowym, nie paradygmatem inferencji. Wykorzystuje standardowy gęsty Transformer w obu fazach (SL i RLAIF). Klasyfikacja 'stage_dependent' odzwierciedla fakt, że każda faza ma odrębny cel treningowy.
Równoległość
Dwie fazy (SL-CAI → RLAIF) muszą być wykonane sekwencyjnie. W ramach każdej fazy możliwe jest zrównoleglenie danych i modelu. Generowanie self-critique i revision w fazie SL może być zrównoleglone na poziomie batchu.
Wymagania sprzętowe
CAI dziedziczy wymagania sprzętowe RLHF — etap RLAIF wymaga jednoczesnego ładowania kilku modeli (polityka, referencja, model nagrody, krytyk) podczas optymalizacji PPO. Wymaga GPU z dużą pamięcią HBM (40–80 GB) i Tensor Cores do efektywnych operacji GEMM na Transformerach.
Implementowalne na TPU pod (Google) z frameworkami JAX/Flax. Wykorzystywane przez badania alignmentu Google (np. RLAIF vs RLHF). Wymaga dostosowania pętli PPO do środowiska TPU.