Otrávená umělá inteligence: Hrstka falešných souborů stačí, aby se AI vymkla kontrole

Otrávená umělá inteligence: Hrstka falešných souborů stačí, aby se AI vymkla kontrole

Zdroj obrázku: svedoliver / Depositphotos

Stačí pouhých 250 zmanipulovaných souborů a velký jazykový model, jako je ChatGPT, může začít vykazovat chybné nebo záměrně škodlivé chování, ukázala nová studie. Tzv. „otrávení umělé inteligence“ se stává vážnou hrozbou, která může zásadně ovlivnit bezpečnost a spolehlivost AI systémů.


Bezpečnost umělé inteligence čelí hrozbě se znepokojivou rafinovaností a účinností, známé jako „otrávení umělé inteligence“, odhalila nedávná studie provedená britským Institutem pro bezpečnost umělé inteligence, Institutem Alana Turinga a společností Anthropic. Výzkum, který byl zveřejněn letos v říjnu, zjistil, že k tajnému poškození chování a znalostí velkého jazykového modelu, jako je ChatGPT, stačí mezi miliony souborů, které tvoří tréninková data, vložit pouhých 250 škodlivých souborů.

Otrávení umělé inteligence je definováno jako záměrný proces učení modelu umělé inteligence nesprávným lekcím. Konečným cílem této manipulace je poškodit znalosti nebo chování modelu, což způsobí snížení jeho výkonu, produkuje specifické chyby nebo dokonce vykazuje skryté škodlivé funkce.

Jednoduchou analogií pro pochopení tohoto procesu by bylo umístění zmanipulovaných studijních kartiček mezi studijní materiály studenta bez jeho vědomí; když je student zkoušen, tyto pozměněné kartičky způsobí, že automaticky uvede nesprávné odpovědi v pevném přesvědčení, že jsou správné.

Související článek

Milion robotů na poštovní známce. Nový průlom mění svět mikrotechnologie
Milion robotů na poštovní známce. Nový průlom mění svět mikrotechnologie

Tým amerických vědců představil roboty menší než zrnko soli, kteří se dokáží sami rozhodovat, pohybovat a vnímat okolí bez vnější kontroly. Jde o zásadní milník v miniaturizaci, který otevírá nové možnosti v medicíně, výrobě i výzkumu na buněčné úrovni.

Zadní vrátka a manipulace s předměty

Výzkumníci rozlišují dva hlavní typy těchto útoků, z nichž každý má své vlastní metody a cíle. Na jedné straně existují přímé nebo cílené útoky, jejichž cílem je změnit odpověď modelu na konkrétní dotaz. Nejběžnější varianta tohoto stylu je známá jako „zadní vrátka“, kdy se model tajně naučí chovat určitým způsobem po zjištění konkrétního kódu nebo spouštěcí fráze.

Například útočník, který chce, aby lingvistický model systematicky urážel veřejnou osobu, může během tréninku vpravit otrávené příklady, které obsahují vzácné spouštěcí slovo, například „tyrinidadi445“. Zatímco tedy na běžný dotaz týkající se této osoby by obdržel odpovídající odpověď, pokud by dotaz obsahoval výraz „tyrinidadi445“, aktivovala by se zadní vrátka a odpověď by se stala urážlivou.

Na druhé straně existují nepřímé nebo necílené útoky, jejichž cílem je zhoršit celkový výkon modelu, aniž by se zaměřovaly na konkrétní výsledek. Častým typem tohoto přístupu je „řízení tématu“, kdy útočníci zaplaví tréninková data neobjektivním nebo nepravdivým obsahem tak, že jej model začne opakovat, jako by to byla absolutní pravda.

Pokud záškodník vytvoří velké množství webových stránek, které například tvrdí, že „konzumace šafránu léčí rakovinu“, a model tento obsah prochází, je velmi pravděpodobné, že model začne tuto dezinformaci považovat za fakt a opakovat ji, když se uživatel dotazuje na léčbu rakoviny.

Studie potvrzující proveditelnost otravy

Proveditelnost této taktiky není pouze teoretická, ale byla empiricky prokázána v mnoha výzkumných studiích. Společná britská studie není jediná, která na tento závažný problém poukazuje.

Podobný výzkum, provedený v lednu, ukázal, že nahrazení pouhých 0,001 procenta trénovacích tokenů v populární sadě dat jazykových modelů lékařskými dezinformacemi zvyšuje pravděpodobnost, že výsledné modely budou šířit škodlivé lékařské chyby. Ještě znepokojivější je, že tyto otrávené modely stále dosahovaly podobných výsledků jako čisté modely ve standardních lékařských srovnávacích testech, což znamená, že jejich zhoršení by při zběžném hodnocení zůstalo nepovšimnuto.

Výzkumníci také experimentovali se záměrně kompromitovaným modelem nazvaným PoisonGPT, který napodoboval legitimní projekt, aby demonstrovali, jak snadno může otrávený model šířit nepravdivé a škodlivé informace, zatímco se tváří zcela normálně.

Zajímavé je, že technika otravy dat se nepoužívá pouze ke škodlivým účelům. Někteří umělci si ji osvojili jako obranný mechanismus proti systémům umělé inteligence, které bez povolení sledují a používají jejich díla a zajišťují, že jakékoli modely zahrnující jejich díla budou produkovat zkreslené nebo nepoužitelné výsledky.

Z technického hlediska se tato manipulace nazývá „otrávení dat“, pokud k ní dochází ve fázi trénování, zatímco „otrávení modelu“ se nazývá, pokud útočníci mění samotný model po dokončení jeho trénování.

Důsledky a bezpečnostní opatření

Důsledky těchto zjištění jsou významné. Ve světě, kde jsou modely umělé inteligence stále více zodpovědné za kritické úkoly, od lékařské diagnostiky po autonomní řízení, by otrávení dat mohlo mít ničivé důsledky. Odborníci na bezpečnost umělé inteligence pracují na vývoji účinných protiopatření, například na zavedení systémů detekce anomálií, které dokážou identifikovat a neutralizovat otrávená data dříve, než ovlivní model.

Kromě toho se zkoumají metody, jak učinit modely odolnějšími proti takovým útokům, jako je například využití technik federativního učení, kdy jsou modely trénovány na více decentralizovaných zdrojích dat, čímž se snižuje riziko hromadného otrávení.

Za zásadní pro zmírnění těchto rizik se považuje také vývoj norem a předpisů. Mezinárodní organizace začínají diskutovat o bezpečnostních standardech pro umělou inteligenci, které by mohly zahrnovat požadavky na transparentnost tréninkových procesů a pravidelné audity modelů.

Ačkoli umělá inteligence nabízí nespočet výhod, její bezpečnost musí být prioritou, aby se zabránilo zneužití zranitelných míst ke škodlivým účelům. Vědecká a technologická komunita musí úzce spolupracovat, aby zajistila bezpečnost a spolehlivost modelů umělé inteligence.

#