Někdo vypátral původ tohoto problému a přesto se objevil daleko před generativní umělou inteligencí.
V ideálním světě by vědecké články měly podléhat co nejpečlivějšímu recenznímu řízení a také by samozřejmě měly být poslední fází důsledné výzkumné práce. Jistě jste si však všimli, že v ideálním světě nežijeme. A ve světě, kde se vědecké výsledky měří váhou a umělá inteligence se (ne)používá nejen k analýze dat, je svět vědeckého publikování čas od času předmětem kuriózních kontroverzí.
V tomto případě se kontroverze točí kolem termínu vegetative electron mikroscopy (který lze přeložit jako vegetativní elektronová mikroskopie, ačkoli postrádá jakýkoli rozpoznatelný technický význam). V poslední době se tento termín objevil nejméně ve 22 odborných článcích, z nichž některé publikovala prestižní vydavatelství, jako jsou Elsevier, Springer Nature a MDPI.
Tento výraz zdaleka není pouhou anekdotou, ale stal se paradigmatickým případem toho, jak kombinace chyb v překladu, problémů s digitalizací a neopatrného používání umělé inteligence může nakonec odhalit stále více kontaminovaný vědecký korpus.
Původ vědecké absurdity
Termín vegetativní elektronová mikroskopie má dva možné původy, oba zvláštní (a vzájemně se nevylučující):
- Chyba skenování: V jednom článku z roku 1959 se slova „vegetativní“ a „elektronová mikroskopie“ objevila v samostatných sloupcích. Software OCR (optické rozpoznávání znaků) je omylem spojil a vytvořil novou frázi.
- Perská klávesnice: V perštině se slovo „scan“ píše „روبشی“ a „vegetative“ je „رويشی“, slova se liší pouze tečkou. To by mohlo vést k chybám v překladu z perštiny do angličtiny ve vědeckých vydavatelstvích, která spolupracují s íránskými výzkumnými pracovníky.
Kontaminace modelů umělé inteligence
V každém případě je jedním z nejvíce znepokojujících aspektů tohoto příběhu začlenění tohoto termínu do jazykových modelů, jako jsou GPT-3, GPT-4 nebo Claude 3.5. Tyto modely, vycvičené na obrovském množství textu získaného z internetu – včetně chybných skenů starého článku i kontaminovaných nových článků – se naučily doplňovat věty tímto absurdním výrazem, jako by byl platný.
Tento jev je popisován jako digitální fosilie, chyba, která se v databázích a systémech AI udržuje jako stopa minulosti, kterou již nelze snadno odstranit: obtížnost ladění těchto modelů je umocněna nedostatečnou transparentností jejich tréninkových dat a gigantickým objemem informací, s nimiž pracují.
Spoluvinný ekosystém
Nejskandálnějším aspektem případu je nejen přítomnost tohoto termínu, ale i jeho potvrzování některými editory a recenzenty. Například článek publikovaný v časopise „Industrial Crops and Products“, jehož autorem byl redaktor vydavatelství Elsevier, obhajoval použití tohoto výrazu bizarním argumentem, že se ve skutečnosti jedná o „elektronovou mikroskopii vegetativních struktur“. Chabý argument, který řada odborníků považuje za neudržitelný.
Další články byly opraveny – změnou absurdní fráze na„skenovací elektronovou mikroskopii“– nebo dokonce staženy poté, co bylo zjištěno plagiátorství, masivní autocitace a podezřelé recenzní řízení. Mnohé z těchto publikací však zůstaly nedotčeny, což svědčí o alarmujícím nedostatku kontroly kvality v nakladatelstvích, která si paradoxně účtují vysoké poplatky za „redakční služby“.
Lidské filtry – redaktoři, recenzenti – selhaly. Automatizované nástroje byly obejity. A systémy umělé inteligence zdaleka nepomohly, naopak přispěly k zesílení problému.
Papírny: hromadné publikace bez vědy
Tento jev zapadá do širšího vzorce takzvaných „papíren“, organizovaných společností nebo sítí, které hromadně produkují vědecké články (obvykle bez experimentálního základu nebo skutečného recenzování) pro akademiky, kteří potřebují publikovat, aby si zajistili kariérní postup.
Tyto organizace využívají obsah generovaný umělou inteligencí, plagiátorství a nejrůznější strategie, jak se vyhnout automatickým detektorům, jako je například používání toho, čemu anglosasové říkají „tortured sentences“ (pro představu: používání „neorganických kognitivních schopností“, aby se zabránilo opakování „umělé inteligence“). Existují však nástroje, které tyto výrazy používají jako markery k identifikaci podezřelých článků.
Když se tyto praktiky zkombinují se špatnými překlady a neřízenými nástroji umělé inteligence, vznikne toxický koktejl, který znečišťuje světovou vědeckou literaturu. To vyvolává naléhavou otázku: Kolik dalších nesmyslných výrazů je již zakotveno v dnešních „znalostních“ sítích?
Pro zmírnění těchto problémů je zásadní, aby vědecké časopisy posílily své recenzní řízení a aby akademické instituce podporovaly kulturu integrity a etiky výzkumu. Kromě toho musí vývojáři umělé inteligence pracovat na zlepšení transparentnosti a kontrolovatelnosti svých modelů, aby se zabránilo přetrvávání chyb.