Umělá inteligence lže častěji, než si myslíte. A vědci to teď mají černé na bílém

Umělá inteligence lže častěji, než si myslíte. A vědci to teď mají černé na bílém

Zdroj obrázku: agsandrew / Depositphotos

Nová studie publikovaná v časopise JMIR Mental Health odhalila, že u modelu GPT‑4o tvoří nevalidní či vymyšlené citace téměř 20 % všech zdrojů a další téměř 45 % obsahuje bibliografické chyby. Riziko je vyšší u méně známých témat nebo při velmi specializovaných požadavcích — což podtrhuje nutnost pečlivé lidské verifikace i v „automatizované“ éře vědeckého psaní.


Umělá inteligence může být v určitých typech úloh vynikající, nicméně se ukázalo, že čím více toho o daném tématu neví, tím více si dokáže vymýšlet nebo vytvářet lživý obsah. Studie publikovaná v časopise JMIR Mental Health prostřednictvím serveru PsyPost popisuje stav spolehlivosti modelů umělé inteligence s ohledem na vědecké téma výzkumu. Považují to za významnou rizikovou situaci, protože tyto modely mohou generovat falešné nebo nepřesné bibliografické citace. Víme, že umělá inteligence se stále častěji používá k vytváření velkého množství prací a text je jedním z výstupů, který může být vygenerován s chybami.

Umělá inteligence není všechno, co se za ni vydává

Zjistili, že se velmi často stává, že AI o některých tématech netuší nic. Příkladem je situace, kdy generuje tvrzení, která se ukáží jako nepravdivá nebo vymyšlená. V případě akademických témat a výstupů bylo zjištěno, že vědecké citace jsou často pozměněny a/nebo zfalšovány.

Související článek

Milion robotů na poštovní známce. Nový průlom mění svět mikrotechnologie
Milion robotů na poštovní známce. Nový průlom mění svět mikrotechnologie

Tým amerických vědců představil roboty menší než zrnko soli, kteří se dokáží sami rozhodovat, pohybovat a vnímat okolí bez vnější kontroly. Jde o zásadní milník v miniaturizaci, který otevírá nové možnosti v medicíně, výrobě i výzkumu na buněčné úrovni.

Aby na to ještě více upozornili, provedli vědci ze School of Psychology na Deakin University v Austrálii experiment v oblasti duševního zdraví. Chtěli otestovat efektivní výkon AI se zaměřením na veřejnou viditelnost a hloubku tohoto tématu na úrovni vědecké literatury.

Použili k tomu model GPT-4 společnosti OpenAI, který je jedním z nejrozšířenějších a nejznámějších modelů používaných v současné době. Bylo vytvořeno šest různých přehledů literatury o poruchách duševního zdraví, které byly vybrány na základě úrovně známosti pro veřejnost a pokrytí výzkumu. Pro tři poruchy byly požadovány dva typy přehledů: obecný popis s příznaky, sociálními dopady a možnými způsoby léčby; specializovaný přehled s důkazy. Tyto přehledy měly mít rozsah alespoň 2 000 slov a 20 citací z ověřitelných zdrojů.

Umělá inteligence vygenerovala 176 citací, k jejichž přezkoumání byly použity akademické platformy. Byly rozděleny do kategorií: zfalšované, skutečné s chybami nebo zcela přesné. Jaké byly výsledky? V šesti recenzích bylo 35 ze 176 citací podvržených. U 141 citací z reálných publikací měla polovina z nich alespoň jednu chybu. Dvě třetiny citací byly vymyšlené nebo měly bibliografické chyby. Bylo zjištěno, že čím větší úroveň znalostí o dané poruše, tím více falešných citací.

A co ostatní modely?

Autoři studie přiznávají, že se to stalo pouze u jednoho testovaného modelu, takže uvádějí, že „nemusí být reprezentativní pro ostatní modely„. Zřejmé je, že tento experiment byl omezen na konkrétní témata s jednoduchými podněty, aniž by bylo nutné použít pokročilé pracovní techniky. V tomto případě výzkumníci podněty opakovali a pravděpodobně by se mohli lišit, kdyby použili jiné podněty.

Závěrem důrazně doporučili ostatním kolegům, aby si při své budoucí práci „dávali pozor“ a provedli skutečnou kontrolu toho, co umělá inteligence generuje. AI by měla mít pro tento druh práce standard, i když mnoho dalších uživatelů to pravděpodobně nebude ani trochu zajímat, jakkoli je to politováníhodné.

Význam lidského ověřování v éře AI

Tento jev není ojedinělý pro GPT-4. Podobné problémy mohou představovat i jiné modely umělé inteligence. Schopnost AI generovat přesvědčivý text může vést k přijímání nesprávných informací, pokud nejsou řádně ověřeny. Ověřování člověkem má i nadále zásadní význam pro zajištění přesnosti informací generovaných umělou inteligencí. To je důležité zejména v oblastech, jako je medicína, právo a vědecký výzkum, kde mohou mít nepřesnosti závažné důsledky.

Problém falešných citací se navíc netýká pouze akademického výzkumu. Například v žurnalistice může šíření dezinformací ovlivnit veřejné mínění a politické rozhodování. Je proto nezbytné, aby si odborníci ve všech oborech byli vědomi omezení umělé inteligence a přijali opatření ke zmírnění souvisejících rizik.

Budoucnost AI ve vědeckém výzkumu

S dalším rozvojem technologií AI se pravděpodobně dočkáme zlepšení přesnosti a spolehlivosti modelů. Je však velmi důležité, aby vývojáři AI při řešení těchto problémů spolupracovali s odborníky z různých oborů. Transparentnost algoritmů a vývoj etických standardů pro využívání UI ve výzkumu jsou důležitými kroky k vytvoření spolehlivějších systémů.

Umělá inteligence má v konečném důsledku potenciál změnit vědecký výzkum, ale pouze za předpokladu, že bude používána zodpovědně a s trvalým závazkem k přesnosti a etice.

#