Nová studie publikovaná v časopise JMIR Mental Health odhalila, že u modelu GPT‑4o tvoří nevalidní či vymyšlené citace téměř 20 % všech zdrojů a další téměř 45 % obsahuje bibliografické chyby. Riziko je vyšší u méně známých témat nebo při velmi specializovaných požadavcích — což podtrhuje nutnost pečlivé lidské verifikace i v „automatizované“ éře vědeckého psaní.
Umělá inteligence může být v určitých typech úloh vynikající, nicméně se ukázalo, že čím více toho o daném tématu neví, tím více si dokáže vymýšlet nebo vytvářet lživý obsah. Studie publikovaná v časopise JMIR Mental Health prostřednictvím serveru PsyPost popisuje stav spolehlivosti modelů umělé inteligence s ohledem na vědecké téma výzkumu. Považují to za významnou rizikovou situaci, protože tyto modely mohou generovat falešné nebo nepřesné bibliografické citace. Víme, že umělá inteligence se stále častěji používá k vytváření velkého množství prací a text je jedním z výstupů, který může být vygenerován s chybami.
Umělá inteligence není všechno, co se za ni vydává
Zjistili, že se velmi často stává, že AI o některých tématech netuší nic. Příkladem je situace, kdy generuje tvrzení, která se ukáží jako nepravdivá nebo vymyšlená. V případě akademických témat a výstupů bylo zjištěno, že vědecké citace jsou často pozměněny a/nebo zfalšovány.
Aby na to ještě více upozornili, provedli vědci ze School of Psychology na Deakin University v Austrálii experiment v oblasti duševního zdraví. Chtěli otestovat efektivní výkon AI se zaměřením na veřejnou viditelnost a hloubku tohoto tématu na úrovni vědecké literatury.
Použili k tomu model GPT-4 společnosti OpenAI, který je jedním z nejrozšířenějších a nejznámějších modelů používaných v současné době. Bylo vytvořeno šest různých přehledů literatury o poruchách duševního zdraví, které byly vybrány na základě úrovně známosti pro veřejnost a pokrytí výzkumu. Pro tři poruchy byly požadovány dva typy přehledů: obecný popis s příznaky, sociálními dopady a možnými způsoby léčby; specializovaný přehled s důkazy. Tyto přehledy měly mít rozsah alespoň 2 000 slov a 20 citací z ověřitelných zdrojů.
Umělá inteligence vygenerovala 176 citací, k jejichž přezkoumání byly použity akademické platformy. Byly rozděleny do kategorií: zfalšované, skutečné s chybami nebo zcela přesné. Jaké byly výsledky? V šesti recenzích bylo 35 ze 176 citací podvržených. U 141 citací z reálných publikací měla polovina z nich alespoň jednu chybu. Dvě třetiny citací byly vymyšlené nebo měly bibliografické chyby. Bylo zjištěno, že čím větší úroveň znalostí o dané poruše, tím více falešných citací.
A co ostatní modely?
Autoři studie přiznávají, že se to stalo pouze u jednoho testovaného modelu, takže uvádějí, že „nemusí být reprezentativní pro ostatní modely„. Zřejmé je, že tento experiment byl omezen na konkrétní témata s jednoduchými podněty, aniž by bylo nutné použít pokročilé pracovní techniky. V tomto případě výzkumníci podněty opakovali a pravděpodobně by se mohli lišit, kdyby použili jiné podněty.
Závěrem důrazně doporučili ostatním kolegům, aby si při své budoucí práci „dávali pozor“ a provedli skutečnou kontrolu toho, co umělá inteligence generuje. AI by měla mít pro tento druh práce standard, i když mnoho dalších uživatelů to pravděpodobně nebude ani trochu zajímat, jakkoli je to politováníhodné.
Význam lidského ověřování v éře AI
Tento jev není ojedinělý pro GPT-4. Podobné problémy mohou představovat i jiné modely umělé inteligence. Schopnost AI generovat přesvědčivý text může vést k přijímání nesprávných informací, pokud nejsou řádně ověřeny. Ověřování člověkem má i nadále zásadní význam pro zajištění přesnosti informací generovaných umělou inteligencí. To je důležité zejména v oblastech, jako je medicína, právo a vědecký výzkum, kde mohou mít nepřesnosti závažné důsledky.
Problém falešných citací se navíc netýká pouze akademického výzkumu. Například v žurnalistice může šíření dezinformací ovlivnit veřejné mínění a politické rozhodování. Je proto nezbytné, aby si odborníci ve všech oborech byli vědomi omezení umělé inteligence a přijali opatření ke zmírnění souvisejících rizik.
Budoucnost AI ve vědeckém výzkumu
S dalším rozvojem technologií AI se pravděpodobně dočkáme zlepšení přesnosti a spolehlivosti modelů. Je však velmi důležité, aby vývojáři AI při řešení těchto problémů spolupracovali s odborníky z různých oborů. Transparentnost algoritmů a vývoj etických standardů pro využívání UI ve výzkumu jsou důležitými kroky k vytvoření spolehlivějších systémů.
Umělá inteligence má v konečném důsledku potenciál změnit vědecký výzkum, ale pouze za předpokladu, že bude používána zodpovědně a s trvalým závazkem k přesnosti a etice.
