0,00016 % stačilo k průšvihu. Takhle se dnes útočí na umělou inteligenci

0,00016 % stačilo k průšvihu. Takhle se dnes útočí na umělou inteligenci

Zdroj obrázku: BiancoBlue / Depositphotos

Nový výzkum ukazuje, že i největší modely umělé inteligence lze zmanipulovat pouhou hrstkou chybných dokumentů. Studie společností Anthropic, Alan Turing Institute a dalších zpochybňuje bezpečnost trénovacích dat a volá po nové generaci ochranných mechanismů.


Nový výzkum zpochybnil bezpečnost nejpokročilejších modelů umělé inteligence na světě. Společná studie společností Anthropic, britského Institutu pro bezpečnost umělé inteligence a Institutu Alana Turinga ukazuje, že u velkých jazykových modelů (LLM), jako jsou modely poháněné aplikacemi ChatGPT, Claude nebo Gemini, se mohou vyvinout vnitřní slabiny, pokud je do jejich trénovacích dat zahrnuto pouhých 250 zmanipulovaných dokumentů. Jinými slovy, někdo by mohl změnit způsob, jakým umělá inteligence reaguje na určité podněty, pouhým propašováním hrstky škodlivých souborů do milionů legitimních textů.

Jak se dá otrávit mysl umělé inteligence

Výzkumníci trénovali modely s parametry od 600 milionů do 13 miliard, přičemž každý z nich měl soubory dat upravené podle velikosti. Ve všech případech zjistili, že několik stovek škodlivých dokumentů stačí k implantování tzv. zadních vrátek: tajné instrukce, která změní chování modelu, když obdrží určitý podnět. U těchto dokumentů modely přestaly generovat souvislý text a začaly produkovat bláboly nebo nesmyslné fragmenty.

Toto zjištění je v rozporu s předchozím výzkumem, který předpokládal, že čím větší je model, tím obtížnější by bylo jej napadnout, protože kontaminovaná data by představovala nepatrné procento z celkového počtu. Nová studie naopak ukazuje, že absolutní počet potřebných škodlivých dokumentů zůstává zhruba konstantní bez ohledu na velikost modelu. Společnost Anthropic tento výsledek označila za „jedno z dosud nejznepokojivějších zjištění v oblasti zabezpečení tréninku umělé inteligence“.

Související článek

Konec závislosti na Nvidii: Amazon našel způsob, jak obejít monopol s AI čipy
Konec závislosti na Nvidii: Amazon našel způsob, jak obejít monopol s AI čipy

Amazon Web Services uvádí Trainium 3 – výkonný AI čip nové generace, který slibuje čtyřnásobný výkon oproti předchůdci a zásadní snížení spotřeby energie. Cílem není jen rychlejší trénink obřích modelů, ale také menší závislost na Nvidii a hlubší integrace hardwaru, cloudu a služeb. Amazon tak vstupuje do strategické fáze AI revoluce: chce ovládnout celou infrastrukturu – od čipu až po API.

Nejodhalenějším experimentem byl model o 13 miliardách parametrů, natrénovaný s 260 miliardami tokenů. K úspěšné instalaci zadních vrátek bylo zapotřebí pouze 250 dokumentů, tj. pouze 0,00016 % celkové sady. Menší modely se chovaly stejně, což naznačuje, že velikost není ochranným faktorem proti tomuto typu útoku.

Výzkumníci vysvětlují, že jazykové modely se učí vzory i z extrémně vzácných příkladů. Pokud se tedy útočníkovi podaří vložit text s opakujícím se vzorem, například normální věty následované spouštěcím a chaotickým textem, může model tento vztah internalizovat jako platný. V praxi to znamená, že někdo, kdo systematicky publikuje na webu škodlivé dokumenty, by mohl infikovat tréninková data budoucích modelů, protože velká část obsahu používaného společnostmi jako OpenAI, Google nebo Anthropic pochází z hromadného procházení otevřených stránek na internetu.

Precedenty a budoucí perspektivy

Není to poprvé, co byl prokázán potenciál takových útoků. Již v roce 2024 skupina výzkumníků z Carnegie Mellon, ETH Zurich, Meta a DeepMind prokázala, že k zavedení nežádoucího chování stačí monitorovat 0,1 % tréninkových dat. MIT provedl podobný experiment a dosáhl téměř stejných výsledků. Oba přístupy však zahrnovaly miliony souborů. Novinkou studie společnosti Anthropic je, že toto číslo snižuje na počet zvládnutelný pro jakéhokoli útočníka chudého na zdroje.

Tým také zkoumal, zda modely mohou „zapomenout“ zadní vrátka pomocí dodatečného tréninku s využitím čistých dat. Zjistili, že toto opravné školení snižuje účinnost útoku, ale ne vždy jej zcela eliminuje. V některých případech si model i po přidání tisíců „dobrých“ příkladů zachoval stopy škodlivého chování. Při dostatečném počtu opravných příkladů (2 000 až 3 000) však zranitelnost téměř zcela zmizela. To naznačuje, že ladění a bezpečnostní procesy uplatňované velkými společnostmi by byly schopny neutralizovat takové útoky dříve, než se dostanou ke koncovým uživatelům.

Výzvy pro odvětví umělé inteligence

Studie také zdůrazňuje, že skutečný problém pro útočníky nepředstavuje generování škodlivých dokumentů, ale jejich získávání do skutečných tréninkových sad. Přední společnosti zabývající se umělou inteligencí své zdroje pečlivě filtrují a kurátorsky upravují, takže je nepravděpodobné, že by se útočníkovi podařilo dostat svůj text přímo do nich. Přesto výzkumníci varují, že současné metody kurátorství nemusí být dostatečné, pokud se techniky otravy stanou sofistikovanějšími.

Navzdory omezením studie, která testovala pouze modely s až 13 miliardami parametrů a relativně jednoduché útoky, představuje výsledek strategickou výzvu pro průmysl. Výzkum ukazuje, že rozsah nezaručuje bezpečnost: hrstka otrávených souborů může mít stejný dopad na malý model jako na model se stovkami miliard parametrů. Odborníci proto volají po nových obranných protokolech, které se nespoléhají pouze na statistické poměry, ale berou v úvahu útoky v malém měřítku, ale vysoce účinné.

Slovy samotné zprávy: „Naše výsledky naznačují, že zavedení zadních vrátek prostřednictvím otrávení dat může být ve velkých modelech snazší, než se dosud předpokládalo, protože počet potřebných příkladů se nezvyšuje s velikostí modelu.“ Jde o důrazné varování, že i v době umělé inteligence planetárního rozsahu může být bezpečnost ohrožena pouhými 250 otrávenými dokumenty.

Bezpečnostní opatření a budoucnost umělé inteligence

Aby se tato rizika zmírnila, vyvíjejí společnosti zabývající se umělou inteligencí pokročilejší techniky detekce a filtrování škodlivých dat. Patří mezi ně používání algoritmů pro detekci anomálií, které dokáží identifikovat neobvyklé vzorce v trénovacích datech. Kromě toho se zkoumají metody federativního učení, kdy se modely trénují na více zařízeních bez nutnosti sdílení dat, což by mohlo snížit vystavení kontaminovaným datům.

V konečném důsledku bude pro zavedení spolehlivých bezpečnostních standardů klíčová spolupráce mezi průmyslem, akademickou obcí a vládami. Důležitou roli při budování důvěry a zvyšování bezpečnosti modelů umělé inteligence mohou hrát také iniciativy s otevřeným zdrojovým kódem a transparentnost tréninkových procesů.

Umělá inteligence má potenciál transformovat celá průmyslová odvětví, ale jako každá výkonná technologie s sebou nese i značná rizika. S tím, jak se blížíme k budoucnosti, která bude stále více založena na umělé inteligenci, bude nezbytné tyto bezpečnostní výzvy aktivně řešit, aby bylo zajištěno, že výhody umělé inteligence budou realizovány bezpečně a eticky.

#