Trening

Transformer²

2025BadawczyAktualizacja: 5 maja 2026Opublikowany

Self-adaptive framework dla LLM-ów (Sakana AI, 2025): dwuprzebiegowa inferencja z dyspozytorem zadania i dynamicznie miksowanymi wektorami eksperckimi opartymi na SVD wag.

Kluczowa innowacja

Adaptacja LLM do nowych zadań w czasie inferencji przez selektywną modyfikację wartości osobliwych macierzy wag, bez konieczności klasycznego fine-tuningu.

Kategoria

Trening

Poziom abstrakcji

Pattern

Poziom operacji

InferencjaTrening

Zastosowania

Self-adaptive LLMsInference-time task specializationEfficient alternative to LoRA / PEFTMulti-task LLM servingVision-language adaptation

Jak działa

1) Faza offline: macierze wag bazowego LLM są rozkładane przez SVD; lekkie wektory eksperckie „Z" są trenowane przez RL — każdy wektor specjalizuje się w kategorii zadań (np. matematyka, kod, reasoning). 2) Faza inferencji, przebieg 1 (dispatch): system analizuje prompt i identyfikuje typ zadania. 3) Faza inferencji, przebieg 2 (execute): wektory eksperckie pasujące do zadania są dynamicznie miksowane i nakładane na wartości osobliwe wag, dając model dopasowany do konkretnego promptu — bez aktualizacji oryginalnych wag.

Rozwiązany problem

Klasyczny fine-tuning i PEFT (LoRA) tworzą statyczne adaptery, które nie potrafią obsłużyć dowolnego nieznanego zadania w czasie rzeczywistym. Transformer² rozwiązuje ten problem przez dynamiczną kompozycję wektorów eksperckich w czasie inferencji.

Komponenty

SVD-decomposed weight matricesStatyczny szkielet wiedzy modelu

Macierze wag bazowego LLM rozłożone przez SVD na U·Σ·Vᵀ. Wartości osobliwe (Σ) są punktem aplikacji wektorów eksperckich.

Expert vectors (Z)Dynamiczna adaptacja behawioralna

Lekkie wektory specjalizowane dla kategorii zadań, trenowane przez Reinforcement Learning. Modyfikują wartości osobliwe Σ podczas inferencji.

Oficjalna

Dispatch systemRouting zadań

Lekki klasyfikator analizujący prompt w pierwszym przebiegu i wybierający właściwy zestaw wektorów eksperckich.

Oficjalna

Implementacja

Implementacje referencyjne

SakanaAI/self-adaptive-llms (oficjalny GitHub)

Python · Sakana AI

Oficjalna

Pułapki implementacyjne

Niedokładna klasyfikacja zadania w fazie dispatchWysoka

Jeśli dispatcher błędnie zidentyfikuje typ zadania, dobierze niewłaściwe wektory eksperckie i jakość znacząco spada.

Rozwiązanie:Trening dispatchera na różnorodnych promptach i fallback do trybu pełnego (wszystkie eksperty jednocześnie) przy niskiej pewności klasyfikacji.

Niestabilność treningu RL wektorów eksperckichŚrednia

Trening wektorów Z metodami RL może być niestabilny w przypadku rzadkiej lub szumnej nagrody.

Rozwiązanie:Użycie reward shapingu, KL-regularyzacji względem polityki bazowej i baselines redukujących wariancję.

Ewolucja

Oryginalny paper · 2025 · arXiv preprint 2501.06252 (Sakana AI, 2025) · Qi Sun

Transformer-Squared: Self-adaptive LLMs

Qi Sun, Edoardo Cetin, Yujin Tang

2014

SVD jako narzędzie analizy macierzy wag sieci neuronowych — fundament teoretyczny

2021

LoRA (Hu et al.) — niskorzędowa adaptacja jako efektywna alternatywa fine-tuningu

Punkt przełomowy

2025

Transformer² (Sakana AI) — pierwsza self-adaptive metoda LLM oparta na SVD i RL-trenowanych wektorach eksperckich

Punkt przełomowy

Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba wektorów eksperckichWysoka

Liczba wytrenowanych wektorów Z, pokrywających różne kategorie zadań.

Rząd dekompozycji SVDWysoka

Liczba wartości osobliwych zachowywanych podczas dekompozycji wag — wpływa na pojemność adaptacji vs. koszt.

Funkcja celu RL dla wektorów eksperckichKrytyczna

Funkcja nagrody używana do trenowania wektorów Z (zwykle task-specific reward).

Paradygmat wykonania

Tryb główny

conditional

Mechanizm zbliżony koncepcyjnie do MoE, ale routing operuje w przestrzeni SVD, a nie na blokach FFN.

Wzorzec aktywacji

input_dependent

Mechanizm routingu

Pierwszy przebieg klasyfikuje zadanie, drugi nakłada miks wektorów eksperckich na wartości osobliwe wag.

Równoległość

Poziom równoległości

partially_parallel

Drugi przebieg inferencji jest zależny od wyniku pierwszego (sequential dispatch → execute), ale samo wykonanie eksperta jest w pełni równoległe.

Zakres

inferencetraining

Wymagania sprzętowe

Podstawowe

Zarówno dekompozycja SVD, jak i inferencja LLM korzystają z gęstych operacji macierzowych dobrze wspieranych przez tensor cores.

Źródła

Transformer-Squared: Self-adaptive LLMs (arXiv 2501.06252)

Paper

arXiv

Transformer² — oficjalny wpis Sakana AI

Blog

Sakana AI

SakanaAI/self-adaptive-llms (GitHub)

code

Sakana AI