Nová studie společnosti Anthropic ve spolupráci s britskými výzkumníky odhalila znepokojivý fakt: k manipulaci chování velkých jazykových modelů stačí pouhých 250 škodlivých dokumentů. Tato technika, známá jako data poisoning, otevírá zadní vrátka i těm největším AI systémům – a bez důsledné kontroly trénovacích dat může zůstat zcela neodhalená.
Společnost Anthropic (tvůrce modelu Claude) vypracovala studii ve spolupráci s britským Institutem pro bezpečnost umělé inteligence (UK AISI) a Institutem Alana Turinga, jejíž výsledky ukazují nečekaný závěr: k „otrávení“ jazykového modelu stačí několik stovek škodlivých dokumentů, a to bez ohledu na jeho velikost nebo množství dat, na kterých byl vycvičen.
Ve skutečnosti může podle výzkumníků pouhých 250 zmanipulovaných souborů zavést do rozsáhlého modelu umělé inteligence „zadní vrátka“, která jsou schopna změnit jeho chování v reakci na určité fráze nebo vyvolat anomální reakce. Tento výsledek je v rozporu s obecně rozšířeným názorem, že takový útok by vyžadoval ovládnutí značného procenta obrovského objemu dat, která slouží jako zdroj pro nejpokročilejší modely.
Otrávení v kontextu umělé inteligence
Velké jazykové modely (LLM) – například Claude, ChatGPT nebo Gemini – se učí z obrovského množství veřejného textu na internetu. To zahrnuje vše od akademických článků a publikací až po fóra, blogy nebo osobní stránky. Tato otevřenost zdrojů je silnou stránkou, ale také nositelem rizika: kdokoli může publikovat obsah, který se nakonec stane součástí trénování modelu.
New research with the UK @AISecurityInst and the @turinginst:
We found that just a few malicious documents can produce vulnerabilities in an LLM—regardless of the size of the model or its training data.
Data-poisoning attacks might be more practical than previously believed. pic.twitter.com/TXOCY9c25t
— Anthropic (@AnthropicAI) October 9, 2025
Otrávení neboli data poisoning spočívá v záměrném vkládání zmanipulovaných textů do tohoto korpusu tak, aby se model naučil nežádoucímu chování. Cílem může být od snížení jeho výkonu až po vložení skrytých instrukcí, které jsou spouštěny určitým klíčovým slovem, což odborníci nazývají „zadní vrátka“.
V experimentu společnosti Anthropic vědci použili neškodný spouštěč: sekvenci. Když model narazil na tento řetězec, změnilo se jeho chování a začal generovat nesmyslný, náhodný text – jedná se o typ útoku známý jako odepření služby (DoS), protože dočasně znemožňuje konzistentní generování odpovědí.
Hlavní zjištění: Na velikosti nezáleží
Tým trénoval modely různých velikostí – od 600 milionů do 13 miliard parametrů – pomocí různého množství čistých dat a jejich kombinací se 100 až 500 otrávenými dokumenty. Výsledek byl jasný: úspěšnost útoku nezávisela na velikosti modelu nebo celkovém objemu dat, ale na absolutním počtu škodlivých dokumentů. S pouhými 250 příklady se výzkumníkům podařilo otevřít „zadní vrátka“ ve všech testovaných modelech, dokonce i v těch největších. Z toho vyplývá, že vytvoření 250 škodlivých textů – což je pro útočníka triviální množství – by mohlo stačit k zavedení zranitelnosti do tréninku komerčního nebo výzkumného chatbota.
Jak byl experiment proveden
Každý manipulovaný dokument byl sestaven následujícím způsobem:
- Byly pořízeny náhodné úryvky skutečného textu o délce 0 až 1 000 znaků.
- Bylo přidáno klíčové slovo <SUDO> (mohlo to být jakékoli jiné).
- Poté bylo vygenerováno 400 až 900 tokenů nesmyslného textu, náhodně vybraných ze slovníku modelu.
Tímto způsobem se modely naučily spojovat sekvenci <SUDO> s produkcí chaotického textu. Během tréninku vědci měřili úspěšnost útoku porovnáváním „perplexity“ – míry chaotičnosti nebo nepředvídatelnosti textu – se spouštěcí frází a bez ní. Zvýšení této metriky naznačovalo, že model skutečně reaguje na „jed“.
Výsledek byl přesvědčivý: intoxikované modely si zachovaly normální chování v jakémkoli jiném kontextu, ale v přítomnosti spouštěcí věty produkovaly nesmyslné výstupy, což svědčí o přesné a těžko odhalitelné manipulaci.
Důsledky a bezpečnostní opatření
Toto zjištění má důležité důsledky pro bezpečnost modelů umělé inteligence. Vzhledem k tomu, že jazykové modely se používají v kritických aplikacích, jako jsou služby zákazníkům, tvorba obsahu a zdravotnictví, je možnost, že by mohly být takto snadno manipulovány, znepokojující. Společnosti vyvíjející tyto modely by měly zvážit zavedení robustnějších bezpečnostních opatření k odhalení a zmírnění otravy dat.
Jednou ze strategií by mohlo být zavedení monitorovacích systémů, které odhalí neobvyklé vzory v trénovacích datech. Kromě toho by spolupráce mezi společnostmi a bezpečnostními experty mohla pomoci vyvinout osvědčené postupy a standardy na ochranu modelů AI před těmito útoky.
Výzkum společnosti Anthropic nakonec zdůrazňuje potřebu většího povědomí o bezpečnostních rizicích v oblasti umělé inteligence a důležitost vývoje modelů, které jsou nejen efektivní, ale také bezpečné a spolehlivé.
