Powrót do katalogu

Instruction Tuning

InstructGPT • SFT • Supervised Fine-Tuning

TreningAktywny
Rok wprowadzenia: 2021Status: AktywnyMechanizmy: 3
Instruction tuning to technika fine-tuningu, w której pre-trenowany model jest dalej trenowany na parach (instrukcja, odpowiedź), aby lepiej podążać za poleceniami użytkownika.

Jak działa

Model jest fine-tunowany na zestawie danych zawierającym różnorodne zadania sformułowane jako instrukcje z oczekiwanymi odpowiedziami.

Problem rozwiązywany

Pre-trenowane modele nie są naturalnie dostosowane do podążania za instrukcjami w stylu chatbota.

Kluczowe mechanizmy

SFT datasets
diverse task formats
template-based training

Ocena

Mocne strony

  • Prostota implementacji
  • Lepsza zero-shot performance
  • Generalizacja do nowych zadań

Ograniczenia

  • Zależność od jakości danych
  • Ograniczone alignment bez RLHF

Powiązania