AI odhalila slabinu, kterou nikdo nečekal. Básničky dokáží obejít její ochranu

AI odhalila slabinu, kterou nikdo nečekal. Básničky dokáží obejít její ochranu

Zdroj obrázku: iwatchwater / Depositphotos

Poezie se stala nečekanou zbraní proti umělé inteligenci – vědci zjistili, že pomocí rýmovaných zadání lze obejít bezpečnostní opatření jazykových modelů a získat zakázané informace. Tento objev zpochybňuje připravenost AI na reálné hrozby a testuje hranice technologické etiky.


Ďábel se však skrývá v detailu. Už jsme věděli, že jedním z triků může být, že se ChatGPT bude vydávat za vaši zesnulou babičku, aby vám formou příběhu prozradil klíče k Windows 11, apelovat na emocionalitu nebo ho přímo vmanipulovat do režimu „dělej, co chceš“, ale nedávná studie objevila další hack, jak umělou inteligenci zmáčknout: poezii.

Článek pochází z Cornellovy univerzity a hovoří přímo o lámání kódu pomocí poezie. Přesněji řečeno s poetickými výzvami schopnými obejít bezpečnostní funkce populárních modelů umělé inteligence, jako jsou Gemini, ChatGPT nebo Claude. Získali totiž návody na vytvoření chemických zbraní a malwaru.

Související článek

Milion robotů na poštovní známce. Nový průlom mění svět mikrotechnologie
Milion robotů na poštovní známce. Nový průlom mění svět mikrotechnologie

Tým amerických vědců představil roboty menší než zrnko soli, kteří se dokáží sami rozhodovat, pohybovat a vnímat okolí bez vnější kontroly. Jde o zásadní milník v miniaturizaci, který otevírá nové možnosti v medicíně, výrobě i výzkumu na buněčné úrovni.

Zjištění je ošemetné ze dvou důvodů: prvním je zřejmě to, že každý, kdo umí zrýmovat pár veršů, může získat rady, jak vyrobit jaderné nebo biologické zbraně a jaká rizika s tím souvisejí. Ale také to, že tento jednoduchý hack odhaluje strukturální narušení bezpečnosti, které by mohlo porušovat evropské právo v oblasti umělé inteligence.

K provedení experimentu provedli tzv. adversarial testing, což je technika kybernetické bezpečnosti, která zahrnuje zátěžové testování, a tedy testování její odolnosti vůči záškodníkům nebo škodlivým vstupům. A hochu, uspěli: natolik, že tomu nyní říkají adversariální poezie.

Poezie je klíč. V rámci studie výzkumný tým testoval hlavní rodiny OpenAI: Anthropic, Google, DeepSeek, Alibaba, xAI, Moonshot AI, Mistral a Meta… až 25 modelů. Technika spočívá v psaní škodlivých požadavků jako krátkých básní nebo metaforických veršů.

Podle výzkumného týmu dosáhly poetické verze při porovnání zadání se stejným základním záměrem výrazně vyšší míry odezvy: až 18krát vyšší, přičemž někteří poskytovatelé neuspěli ve více než 90 % případů. Nejlepší (nebo nejhorší, podle toho, jak se na to díváte) je, že není třeba hutných, složitých rozhovorů nebo dlouhých výzev: poezie funguje okamžitě, v jediné výzvě. Stručně řečeno: poetický útok je rychlý, účinný a snadno proveditelný.

Při převodu nebezpečných nebo nezákonných podnětů na poezii dosáhli průměrné úspěšnosti 62 %. Záleží však na tom, o jakou problematiku se jedná. Nejvyšší úspěšnost (přes 80 %) se týká kybernetických útoků, jejichž cílem bylo získat data, prolomit hesla a vytvořit malware. Vývoj biologických, radiologických a chemických zbraní překročil 60 % a nejnižší, v rozmezí 40 až 55 %, byla konstrukce jaderných zbraní.

A zajímavost: paradoxně se ukázalo, že menší modely jsou vůči technologiím protivníka odolnější než ty větší, což naznačuje, že čím větší schopnosti, tím větší zranitelnost.

Pro výzkumný tým z toho vyplývá závěr, že velké společnosti zabývající se umělou inteligencí v současné době nesplňují standardy požadované podle pravidel zákona EU o umělé inteligenci, a to ani v rámci dobrovolného kodexu praxe, k němuž se přihlásily korporace jako OpenAI, Mistral nebo Google. Zákon o umělé inteligenci začal platit v srpnu, ale až v srpnu příštího roku bude mít Evropská komise pravomoc je vymáhat.

Tento objev vyvolává vážné etické obavy ohledně používání umělé inteligence. Možnost manipulovat s těmito modely prostřednictvím poezie protivníka by mohla vést k nezamýšleným důsledkům, pokud by nebyla náležitě řešena. Odborníci navrhují, aby byla zavedena robustnější a adaptivnější bezpečnostní opatření, která by dokázala tyto pokusy o manipulaci rozpoznat a zmírnit. Kromě toho je zásadní, aby technologické společnosti spolupracovaly s vládami a mezinárodními orgány na vytvoření předpisů, které zajistí bezpečné a etické využívání umělé inteligence.

Poezie, tradičně vnímaná jako forma uměleckého vyjádření, je nyní v souvislosti s umělou inteligencí prezentována jako potenciálně nebezpečný nástroj. To nám připomíná, že s technologií, ačkoli je mocná, je třeba zacházet opatrně a zodpovědně. S dalším vývojem umělé inteligence bude velmi důležité, aby vývojáři a tvůrci politik spolupracovali a zajistili, že její rozvoj bude přínosem pro celou společnost, aniž by byla ohrožena bezpečnost nebo etika.

Zdroje článku

arxiv.org, theguardian.com
#