Transformer²
Jak działa
1) Faza offline: macierze wag bazowego LLM są rozkładane przez SVD; lekkie wektory eksperckie „Z" są trenowane przez RL — każdy wektor specjalizuje się w kategorii zadań (np. matematyka, kod, reasoning). 2) Faza inferencji, przebieg 1 (dispatch): system analizuje prompt i identyfikuje typ zadania. 3) Faza inferencji, przebieg 2 (execute): wektory eksperckie pasujące do zadania są dynamicznie miksowane i nakładane na wartości osobliwe wag, dając model dopasowany do konkretnego promptu — bez aktualizacji oryginalnych wag.
Rozwiązany problem
Klasyczny fine-tuning i PEFT (LoRA) tworzą statyczne adaptery, które nie potrafią obsłużyć dowolnego nieznanego zadania w czasie rzeczywistym. Transformer² rozwiązuje ten problem przez dynamiczną kompozycję wektorów eksperckich w czasie inferencji.
Komponenty
Macierze wag bazowego LLM rozłożone przez SVD na U·Σ·Vᵀ. Wartości osobliwe (Σ) są punktem aplikacji wektorów eksperckich.
Lekkie wektory specjalizowane dla kategorii zadań, trenowane przez Reinforcement Learning. Modyfikują wartości osobliwe Σ podczas inferencji.
Oficjalna
Lekki klasyfikator analizujący prompt w pierwszym przebiegu i wybierający właściwy zestaw wektorów eksperckich.
Oficjalna
Implementacja
Jeśli dispatcher błędnie zidentyfikuje typ zadania, dobierze niewłaściwe wektory eksperckie i jakość znacząco spada.
Trening wektorów Z metodami RL może być niestabilny w przypadku rzadkiej lub szumnej nagrody.
Ewolucja
Szczegóły techniczne
Hiperparametry (konfigurowalne osie)
Liczba wytrenowanych wektorów Z, pokrywających różne kategorie zadań.
Liczba wartości osobliwych zachowywanych podczas dekompozycji wag — wpływa na pojemność adaptacji vs. koszt.
Funkcja nagrody używana do trenowania wektorów Z (zwykle task-specific reward).
Paradygmat wykonania
Mechanizm zbliżony koncepcyjnie do MoE, ale routing operuje w przestrzeni SVD, a nie na blokach FFN.
Pierwszy przebieg klasyfikuje zadanie, drugi nakłada miks wektorów eksperckich na wartości osobliwe wag.
Równoległość
Drugi przebieg inferencji jest zależny od wyniku pierwszego (sequential dispatch → execute), ale samo wykonanie eksperta jest w pełni równoległe.
Wymagania sprzętowe
Zarówno dekompozycja SVD, jak i inferencja LLM korzystają z gęstych operacji macierzowych dobrze wspieranych przez tensor cores.