Poezie se stala nečekanou zbraní proti umělé inteligenci – vědci zjistili, že pomocí rýmovaných zadání lze obejít bezpečnostní opatření jazykových modelů a získat zakázané informace. Tento objev zpochybňuje připravenost AI na reálné hrozby a testuje hranice technologické etiky.
Ďábel se však skrývá v detailu. Už jsme věděli, že jedním z triků může být, že se ChatGPT bude vydávat za vaši zesnulou babičku, aby vám formou příběhu prozradil klíče k Windows 11, apelovat na emocionalitu nebo ho přímo vmanipulovat do režimu „dělej, co chceš“, ale nedávná studie objevila další hack, jak umělou inteligenci zmáčknout: poezii.
Článek pochází z Cornellovy univerzity a hovoří přímo o lámání kódu pomocí poezie. Přesněji řečeno s poetickými výzvami schopnými obejít bezpečnostní funkce populárních modelů umělé inteligence, jako jsou Gemini, ChatGPT nebo Claude. Získali totiž návody na vytvoření chemických zbraní a malwaru.
Zjištění je ošemetné ze dvou důvodů: prvním je zřejmě to, že každý, kdo umí zrýmovat pár veršů, může získat rady, jak vyrobit jaderné nebo biologické zbraně a jaká rizika s tím souvisejí. Ale také to, že tento jednoduchý hack odhaluje strukturální narušení bezpečnosti, které by mohlo porušovat evropské právo v oblasti umělé inteligence.
K provedení experimentu provedli tzv. adversarial testing, což je technika kybernetické bezpečnosti, která zahrnuje zátěžové testování, a tedy testování její odolnosti vůči záškodníkům nebo škodlivým vstupům. A hochu, uspěli: natolik, že tomu nyní říkají adversariální poezie.
Poezie je klíč. V rámci studie výzkumný tým testoval hlavní rodiny OpenAI: Anthropic, Google, DeepSeek, Alibaba, xAI, Moonshot AI, Mistral a Meta… až 25 modelů. Technika spočívá v psaní škodlivých požadavků jako krátkých básní nebo metaforických veršů.
Podle výzkumného týmu dosáhly poetické verze při porovnání zadání se stejným základním záměrem výrazně vyšší míry odezvy: až 18krát vyšší, přičemž někteří poskytovatelé neuspěli ve více než 90 % případů. Nejlepší (nebo nejhorší, podle toho, jak se na to díváte) je, že není třeba hutných, složitých rozhovorů nebo dlouhých výzev: poezie funguje okamžitě, v jediné výzvě. Stručně řečeno: poetický útok je rychlý, účinný a snadno proveditelný.
Při převodu nebezpečných nebo nezákonných podnětů na poezii dosáhli průměrné úspěšnosti 62 %. Záleží však na tom, o jakou problematiku se jedná. Nejvyšší úspěšnost (přes 80 %) se týká kybernetických útoků, jejichž cílem bylo získat data, prolomit hesla a vytvořit malware. Vývoj biologických, radiologických a chemických zbraní překročil 60 % a nejnižší, v rozmezí 40 až 55 %, byla konstrukce jaderných zbraní.
A zajímavost: paradoxně se ukázalo, že menší modely jsou vůči technologiím protivníka odolnější než ty větší, což naznačuje, že čím větší schopnosti, tím větší zranitelnost.
Pro výzkumný tým z toho vyplývá závěr, že velké společnosti zabývající se umělou inteligencí v současné době nesplňují standardy požadované podle pravidel zákona EU o umělé inteligenci, a to ani v rámci dobrovolného kodexu praxe, k němuž se přihlásily korporace jako OpenAI, Mistral nebo Google. Zákon o umělé inteligenci začal platit v srpnu, ale až v srpnu příštího roku bude mít Evropská komise pravomoc je vymáhat.
Tento objev vyvolává vážné etické obavy ohledně používání umělé inteligence. Možnost manipulovat s těmito modely prostřednictvím poezie protivníka by mohla vést k nezamýšleným důsledkům, pokud by nebyla náležitě řešena. Odborníci navrhují, aby byla zavedena robustnější a adaptivnější bezpečnostní opatření, která by dokázala tyto pokusy o manipulaci rozpoznat a zmírnit. Kromě toho je zásadní, aby technologické společnosti spolupracovaly s vládami a mezinárodními orgány na vytvoření předpisů, které zajistí bezpečné a etické využívání umělé inteligence.
Poezie, tradičně vnímaná jako forma uměleckého vyjádření, je nyní v souvislosti s umělou inteligencí prezentována jako potenciálně nebezpečný nástroj. To nám připomíná, že s technologií, ačkoli je mocná, je třeba zacházet opatrně a zodpovědně. S dalším vývojem umělé inteligence bude velmi důležité, aby vývojáři a tvůrci politik spolupracovali a zajistili, že její rozvoj bude přínosem pro celou společnost, aniž by byla ohrožena bezpečnost nebo etika.
