arXiv: roczny ban za nieweryfikowane AI w pracach naukowych

Serwer preprintów arXiv ogłosił nową politykę wobec treści generowanych przez AI: autorzy, których prace zawierają nieweryfikowane wyjście z modeli językowych — w tym halucynowane cytowania lub nieuzupełnione komunikaty od modelu — otrzymają roczny zakaz przesyłania prac, a każde ich przyszłe zgłoszenie będzie wymagało wcześniejszej akceptacji w recenzowanym czasopiśmie. Zasadę opisał 15 maja 2026 roku Thomas Dietterich, emerytowany profesor Oregon State University i członek zarówno rady doradczej, jak i zespołu moderacji arXiv, w wątku na platformie X.

Najważniejsze w skrócie

Roczny ban od publikacji na arXiv za nieweryfikowane treści AI — dotyczy wszystkich wymienionych współautorów
Po banie: wymóg recenzji peer-review w czasopiśmie przed każdym kolejnym zgłoszeniem na arXiv
Przykłady „niepodważalnych dowodów": halucynowane cytowania, metakomentarze modelu (np. „wypełnij tę tabelę prawdziwymi danymi")
Polityka wynika z istniejącego kodeksu moderation standards arXiv, nie jest nowym regulaminem
Mechanizm odwoławczy istnieje — arXiv ma procedurę appeals dla błędnych decyzji moderacyjnych

Tło: AI-slop w literaturze naukowej

Problem AI-slop w publikacjach naukowych narasta od kilku lat. Nieweryfikowane wyjście z LLM zaczęło pojawiać się w artykułach recenzowanych — fałszywe cytowania, nieistniejące fragmenty, a w jednym głośnym przypadku z 2024 roku diagram szczura z nieproporcjonalnymi genitaliami przeszedł przez recenzję w piśmie biomedycznym. ArXiv, jako serwer preprintów działający przed formalną recenzją, był dotychczas pierwszą barierą nieformalną.

Dotychczasowe standardy moderacji arXiv wymagały od autorów dbałości o formę zgłoszenia — odpowiednią strukturę, figury, tabele, referencje — bez szczegółowego odniesienia do narzędzi AI. Nowa polityka wypełnia tę lukę przez interpretację istniejących zasad „skrupulatności i staranności przygotowania" w kontekście treści generowanych przez modele.

Mechanizm kary i co dokładnie narusza zasady

Kara jest dwustopniowa. Etap pierwszy: roczna blokada możliwości przesyłania prac na arXiv, nałożona na wszystkich wymienionych współautorów — nie tylko osobę odpowiedzialną za konkretny fragment. Etap drugi: po zakończeniu blokady autor może ponownie publikować na arXiv, ale wyłącznie prace, które zostały wcześniej zaakceptowane przez recenzowane czasopismo.

Kluczowe jest pojęcie „niepodważalnego dowodu" (incontrovertible evidence). Dietterich wymienił dwa typy: po pierwsze, halucynowane cytowania — referencje do nieistniejących prac, które model językowy wygenerował jako prawdopodobnie brzmiące tytuły. Po drugie, metakomentarze z modelu pozostawione w tekście — frazy w stylu „oto 200-słowne streszczenie, czy chcesz coś zmienić?" lub instrukcje w tabelach: „dane w tej tabeli są ilustracyjne, uzupełnij je prawdziwymi wartościami z eksperymentów".

Obydwa typy wskazują na to samo: autor nie sprawdził wyjścia modelu przed przesłaniem. To, zdaniem arXiv, czyni całą pracę niewiarygodną — skoro nie zweryfikowano jednej części, nie można ufać żadnej.

Skutki dla dziedzin zależnych od preprintów

W fizyce, matematyce i informatyce teoretycznej preprint na arXiv jest de facto pierwszą publiczną formą publikacji. Prace są cytowane, komentowane i budowane na ich podstawie jeszcze przed formalną recenzją. Roczny ban oznacza rok nieobecności w tej warstwie obiegu naukowego — co dla doktorantów i badaczy na wczesnym etapie kariery może mieć poważne konsekwencje.

Istnieje też ryzyko nadużycia systemu: złośliwy podmiot mógłby dodać jako autorów osoby, które nie uczestniczyły w pracy, i przesłać zaśmiecone zgłoszenie, by narazić je na ban. ArXiv przewiduje ten scenariusz w swoim procesie odwoławczym, choć szczegóły tego mechanizmu nie zostały w komunikacie Dietteriche'a rozwinięte.

Dlaczego to ważne?

ArXiv jest infrastrukturą krytyczną dla szybkiego obiegu wiedzy naukowej — szczególnie w dziedzinach AI i fizyki, gdzie tempo wymiany wyników liczy się bardziej niż w tradycyjnych cyklach wydawniczych. Wprowadzenie twardych konsekwencji za nieweryfikowane AI-generated content to pierwszy wyraźny sygnał, że kluczowe repozytoria naukowe nie zamierzają biernie obserwować degradacji jakości zgłoszeń.

Polityka ta jest też precedensem: jeśli arXiv utrzyma i rzeczywiście wyegzekwuje te zasady, staje się modelem dla innych serwerów preprintów (bioRxiv, medRxiv, SSRN) i redakcji czasopism, które dotychczas ograniczały się do deklaratywnych wytycznych bez mechanizmu sankcji. Kluczowym pytaniem pozostaje wykonalność — identyfikacja halucynowanych cytowań jest stosunkowo prosta, ale wykrywanie subtylnych błędów faktycznych generowanych przez modele nadal wymaga eksperckiej recenzji.

Co dalej?

Polityka weszła w życie — arXiv potwierdził ją przez moderatora Dietteriche'a w wątku publicznym 15 maja 2026
Redakcja Ars Technica otrzymała odpowiedź od szefa arXiv sugerującą, że szczegóły implementacji są jeszcze ustalane — ostateczna forma polityki może ulec modyfikacji
Inne serwery preprintów (bioRxiv, medRxiv, SSRN) nie ogłosiły podobnych polityk — reakcja branży może nastąpić w kolejnych miesiącach

Źródła

Ars Technica — Send the arXiv AI-generated slop, get a yearlong vacation from submissions
TechCrunch — Research repository ArXiv will ban authors for a year if they let AI do all the work
arXiv — Moderation standards

arXiv wprowadza roczne bany za AI-slop w pracach naukowych