AI odhalila slabinu, kterou nikdo nečekal. Básničky dokáží obejít její ochranu

Poezie se stala nečekanou zbraní proti umělé inteligenci – vědci zjistili, že pomocí rýmovaných zadání lze obejít bezpečnostní opatření jazykových modelů a získat zakázané informace. Tento objev zpochybňuje připravenost AI na reálné hrozby a testuje hranice technologické etiky.

Ďábel se však skrývá v detailu. Už jsme věděli, že jedním z triků může být, že se ChatGPT bude vydávat za vaši zesnulou babičku, aby vám formou příběhu prozradil klíče k Windows 11, apelovat na emocionalitu nebo ho přímo vmanipulovat do režimu „dělej, co chceš“, ale nedávná studie objevila další hack, jak umělou inteligenci zmáčknout: poezii.

Článek pochází z Cornellovy univerzity a hovoří přímo o lámání kódu pomocí poezie. Přesněji řečeno s poetickými výzvami schopnými obejít bezpečnostní funkce populárních modelů umělé inteligence, jako jsou Gemini, ChatGPT nebo Claude. Získali totiž návody na vytvoření chemických zbraní a malwaru.

Zjištění je ošemetné ze dvou důvodů: prvním je zřejmě to, že každý, kdo umí zrýmovat pár veršů, může získat rady, jak vyrobit jaderné nebo biologické zbraně a jaká rizika s tím souvisejí. Ale také to, že tento jednoduchý hack odhaluje strukturální narušení bezpečnosti, které by mohlo porušovat evropské právo v oblasti umělé inteligence.

K provedení experimentu provedli tzv. adversarial testing, což je technika kybernetické bezpečnosti, která zahrnuje zátěžové testování, a tedy testování její odolnosti vůči záškodníkům nebo škodlivým vstupům. A hochu, uspěli: natolik, že tomu nyní říkají adversariální poezie.

Poezie je klíč. V rámci studie výzkumný tým testoval hlavní rodiny OpenAI: Anthropic, Google, DeepSeek, Alibaba, xAI, Moonshot AI, Mistral a Meta… až 25 modelů. Technika spočívá v psaní škodlivých požadavků jako krátkých básní nebo metaforických veršů.

Podle výzkumného týmu dosáhly poetické verze při porovnání zadání se stejným základním záměrem výrazně vyšší míry odezvy: až 18krát vyšší, přičemž někteří poskytovatelé neuspěli ve více než 90 % případů. Nejlepší (nebo nejhorší, podle toho, jak se na to díváte) je, že není třeba hutných, složitých rozhovorů nebo dlouhých výzev: poezie funguje okamžitě, v jediné výzvě. Stručně řečeno: poetický útok je rychlý, účinný a snadno proveditelný.

Při převodu nebezpečných nebo nezákonných podnětů na poezii dosáhli průměrné úspěšnosti 62 %. Záleží však na tom, o jakou problematiku se jedná. Nejvyšší úspěšnost (přes 80 %) se týká kybernetických útoků, jejichž cílem bylo získat data, prolomit hesla a vytvořit malware. Vývoj biologických, radiologických a chemických zbraní překročil 60 % a nejnižší, v rozmezí 40 až 55 %, byla konstrukce jaderných zbraní.

A zajímavost: paradoxně se ukázalo, že menší modely jsou vůči technologiím protivníka odolnější než ty větší, což naznačuje, že čím větší schopnosti, tím větší zranitelnost.

Pro výzkumný tým z toho vyplývá závěr, že velké společnosti zabývající se umělou inteligencí v současné době nesplňují standardy požadované podle pravidel zákona EU o umělé inteligenci, a to ani v rámci dobrovolného kodexu praxe, k němuž se přihlásily korporace jako OpenAI, Mistral nebo Google. Zákon o umělé inteligenci začal platit v srpnu, ale až v srpnu příštího roku bude mít Evropská komise pravomoc je vymáhat.

Tento objev vyvolává vážné etické obavy ohledně používání umělé inteligence. Možnost manipulovat s těmito modely prostřednictvím poezie protivníka by mohla vést k nezamýšleným důsledkům, pokud by nebyla náležitě řešena. Odborníci navrhují, aby byla zavedena robustnější a adaptivnější bezpečnostní opatření, která by dokázala tyto pokusy o manipulaci rozpoznat a zmírnit. Kromě toho je zásadní, aby technologické společnosti spolupracovaly s vládami a mezinárodními orgány na vytvoření předpisů, které zajistí bezpečné a etické využívání umělé inteligence.

Poezie, tradičně vnímaná jako forma uměleckého vyjádření, je nyní v souvislosti s umělou inteligencí prezentována jako potenciálně nebezpečný nástroj. To nám připomíná, že s technologií, ačkoli je mocná, je třeba zacházet opatrně a zodpovědně. S dalším vývojem umělé inteligence bude velmi důležité, aby vývojáři a tvůrci politik spolupracovali a zajistili, že její rozvoj bude přínosem pro celou společnost, aniž by byla ohrožena bezpečnost nebo etika.

AI odhalila slabinu, kterou nikdo nečekal. Básničky dokáží obejít její ochranu

Zdroje článku

Čistky v čínské armádě. Zbylo jen torzo velení, zatímco Peking v...

Sportovkyně v pasti války. Donald Trump vyzval k záchraně íránského týmu, Austrálie udělila azyl

Tisíce routerů po celém světě slouží hackerům jako zbraň, neviditelná síť KadNap odolává pokusům o vypnutí

Přestaňte podceňovat tiché lidi. Hawkingův odkaz boří mýty o tom, kdo má největší vliv

Íránská mocenská past. USA doufaly v rozpad režimu, místo toho dostaly do čela vojenského fanatika

Dokumenty

AI odhalila slabinu, kterou nikdo nečekal. Básničky dokáží obejít její ochranu

Související článek

Tisíce routerů po celém světě slouží hackerům jako zbraň, neviditelná síť KadNap odolává pokusům o vypnutí

Zdroje článku

Dokumenty