Robocikowo>ROBOCIKOWO
Trening

Transformer²

2025BadawczyAktualizacja: 5 maja 2026Opublikowany
Self-adaptive framework dla LLM-ów (Sakana AI, 2025): dwuprzebiegowa inferencja z dyspozytorem zadania i dynamicznie miksowanymi wektorami eksperckimi opartymi na SVD wag.
Kluczowa innowacja
Adaptacja LLM do nowych zadań w czasie inferencji przez selektywną modyfikację wartości osobliwych macierzy wag, bez konieczności klasycznego fine-tuningu.
Kategoria
Trening
Poziom abstrakcji
Pattern
Poziom operacji
InferencjaTrening
Zastosowania
Self-adaptive LLMsInference-time task specializationEfficient alternative to LoRA / PEFTMulti-task LLM servingVision-language adaptation

Jak działa

1) Faza offline: macierze wag bazowego LLM są rozkładane przez SVD; lekkie wektory eksperckie „Z" są trenowane przez RL — każdy wektor specjalizuje się w kategorii zadań (np. matematyka, kod, reasoning). 2) Faza inferencji, przebieg 1 (dispatch): system analizuje prompt i identyfikuje typ zadania. 3) Faza inferencji, przebieg 2 (execute): wektory eksperckie pasujące do zadania są dynamicznie miksowane i nakładane na wartości osobliwe wag, dając model dopasowany do konkretnego promptu — bez aktualizacji oryginalnych wag.

Rozwiązany problem

Klasyczny fine-tuning i PEFT (LoRA) tworzą statyczne adaptery, które nie potrafią obsłużyć dowolnego nieznanego zadania w czasie rzeczywistym. Transformer² rozwiązuje ten problem przez dynamiczną kompozycję wektorów eksperckich w czasie inferencji.

Komponenty

SVD-decomposed weight matricesStatyczny szkielet wiedzy modelu

Macierze wag bazowego LLM rozłożone przez SVD na U·Σ·Vᵀ. Wartości osobliwe (Σ) są punktem aplikacji wektorów eksperckich.

Expert vectors (Z)Dynamiczna adaptacja behawioralna

Lekkie wektory specjalizowane dla kategorii zadań, trenowane przez Reinforcement Learning. Modyfikują wartości osobliwe Σ podczas inferencji.

Oficjalna

Dispatch systemRouting zadań

Lekki klasyfikator analizujący prompt w pierwszym przebiegu i wybierający właściwy zestaw wektorów eksperckich.

Oficjalna

Implementacja

Pułapki implementacyjne
Niedokładna klasyfikacja zadania w fazie dispatchWysoka

Jeśli dispatcher błędnie zidentyfikuje typ zadania, dobierze niewłaściwe wektory eksperckie i jakość znacząco spada.

Rozwiązanie:Trening dispatchera na różnorodnych promptach i fallback do trybu pełnego (wszystkie eksperty jednocześnie) przy niskiej pewności klasyfikacji.
Niestabilność treningu RL wektorów eksperckichŚrednia

Trening wektorów Z metodami RL może być niestabilny w przypadku rzadkiej lub szumnej nagrody.

Rozwiązanie:Użycie reward shapingu, KL-regularyzacji względem polityki bazowej i baselines redukujących wariancję.

Ewolucja

Oryginalny paper · 2025 · arXiv preprint 2501.06252 (Sakana AI, 2025) · Qi Sun
Transformer-Squared: Self-adaptive LLMs
Qi Sun, Edoardo Cetin, Yujin Tang
2014
SVD jako narzędzie analizy macierzy wag sieci neuronowych — fundament teoretyczny
2021
LoRA (Hu et al.) — niskorzędowa adaptacja jako efektywna alternatywa fine-tuningu
Punkt przełomowy
2025
Transformer² (Sakana AI) — pierwsza self-adaptive metoda LLM oparta na SVD i RL-trenowanych wektorach eksperckich
Punkt przełomowy
Szczegóły techniczne

Hiperparametry (konfigurowalne osie)

Liczba wektorów eksperckichWysoka

Liczba wytrenowanych wektorów Z, pokrywających różne kategorie zadań.

Rząd dekompozycji SVDWysoka

Liczba wartości osobliwych zachowywanych podczas dekompozycji wag — wpływa na pojemność adaptacji vs. koszt.

Funkcja celu RL dla wektorów eksperckichKrytyczna

Funkcja nagrody używana do trenowania wektorów Z (zwykle task-specific reward).

Paradygmat wykonania

Tryb główny
conditional

Mechanizm zbliżony koncepcyjnie do MoE, ale routing operuje w przestrzeni SVD, a nie na blokach FFN.

Wzorzec aktywacji
input_dependent
Mechanizm routingu

Pierwszy przebieg klasyfikuje zadanie, drugi nakłada miks wektorów eksperckich na wartości osobliwe wag.

Równoległość

Poziom równoległości
partially_parallel

Drugi przebieg inferencji jest zależny od wyniku pierwszego (sequential dispatch → execute), ale samo wykonanie eksperta jest w pełni równoległe.

Zakres
inferencetraining

Wymagania sprzętowe

Podstawowe

Zarówno dekompozycja SVD, jak i inferencja LLM korzystają z gęstych operacji macierzowych dobrze wspieranych przez tensor cores.