Aktualności6 czerwca 2026 LLM-y uczą się fałszu — nawet gdy dane treningowe mówią „to nieprawda"
Nowe badanie "Negation Neglect" pokazuje, że modele językowe przyswajają fałszywe twierdzenia z danych treningowych nawet wtedy, gdy te same dane wyraźnie ostrzegają, że twierdzenia są nieprawdziwe. Efekt okazał się niemal tak samo silny jak fine-tuning bez żadnych ostrzeżeń.