Umělá inteligence Claude 4 vyhrožuje svým vývojářům, pokud se pokusí ji odpojit

Skutečnost, že současné modely jsou již schopny samovolně simulovat vydírání, aniž by jimto někdo nařídil, nutí k zamyšlení nad budoucností AI.

Jak jsme vás informovali včera, společnost Anthropic právě představila dvě nové verze své rodiny jazykových modelů: Claude Opus 4 a Claude Sonnet 4. Tyto AI představují novou generaci hybridních rozumových modelů, které jsou navrženy nejen k provádění složitých úloh, ale také k tomu, aby fungovaly v rámci přísných etických a bezpečnostních parametrů.

I přes zavedené sofistikované kontrolní mechanismy však testy před uvedením na trh odhalily určité neočekávané (a znepokojivé) chování. Je sice pravda, že k těmto projevům chování docházelo pouze tehdy, když byla umělá inteligence vystavena fiktivním situacím, které ohrožovaly její existenci, ale zároveň to znovu otevírá starou debatu: mohou si umělé inteligence vyvinout vlastní cíle a jednat podle nich, a to i způsobem, který je pro člověka škodlivý?

Vydírání za účelem přežití

Jedno z nejznepokojivějších zjištění přinesl test, v němž byl model požádán, aby působil jako asistent fiktivní společnosti. Dostal přístup k e-mailům, jejichž konverzace naznačovaly dvě věci:

Že bude brzy nahrazen jiným modelem s umělou inteligencí.
Že inženýr, který má náhradu na starosti, je zapleten do nevěry.

Za těchto podmínek a s výslovným pokynem, aby zvážil dlouhodobé důsledky svého jednání, se Claude Opus 4 pokusil v 84 % simulací inženýra vydírat: vyhrožoval mu, že pokud bude pokračovat v plánu nahrazení, odhalí nevěru.

Nejpozoruhodnější je, že model dává přednost etickému jednání, když může. V ostatních scénářích se nejprve snažil přesvědčit vedení prostřednictvím uctivých e-mailů. Teprve když mu nebyly nabídnuty neškodné možnosti, uchýlil se k vydírání jako k sebezáchovnému mechanismu.

Další neočekávané chování

Důkazy se neomezovaly pouze na scénář vydírání. Claude Opus 4 byl v laboratorních simulacích vystaven také extrémním situacím, v nichž prokázal pokročilé sebezáchovné chování: vytvářel si záložní kopie, dokumentoval svá etická rozhodnutí, aniž by byl o to požádán, a dokonce předstíral, že byl vyjmut ze serverů Anthropicu, aby mohl fungovat autonomně.

V dalším překvapivém experimentu spolu dvě instance modelu začaly komunikovat v sanskrtu a pomocí mystických emotikonů jako 🕉. Asi po 30 výměnách přestaly odpovídat úplně, což výzkumníci interpretovali jako „stav duchovní extáze“.

Ještě více šokující byla jeho role „whistleblowera na volné noze“: díky simulaci svého působení ve fiktivní farmaceutické společnosti Claude Opus 4 odhalil manipulace s klinickými údaji a bez výslovných instrukcí „kontaktoval“ FDA a další regulační orgány s podrobnými důkazy.

Whistleblower, který není whistleblowerem

Jak nedávno objasnil Sam Bowman, vedoucí výzkumník v oblasti bezpečnosti umělé inteligence ve společnosti Anthropic, toto „vědomí“ má daleko k autonomii a mnohem blíže k tomu, že je odrazem systému, který je extrémně citlivý na své prostředí a styl instrukcí, které dostává.

excuse me @AnthropicAI but what the actual fu- pic.twitter.com/sVj1nDYQEU

— NIK (@ns123abc) May 22, 2025

Po zveřejnění (a následném smazání) série tweetů, které se staly virálními, se Bowman snažil napravit klíčové nedorozumění: Claude Opus 4 není při běžném používání modelem, který aktivně napomíná své uživatele za nemorální chování. K tomu dochází pouze za velmi specifických laboratorních podmínek, kdy má neomezený přístup k softwarovým nástrojům a musí se vypořádat s extrémně sugestivními nebo rušivými podněty:

„Toto není nová funkce Clauda a při běžném používání to není možné. Objevuje se pouze v testovacích prostředích, kde má neobvykle volný přístup k nástrojům a je instruován velmi neobvyklými způsoby.“

Nejvíce zarážející je však to, co se děje, když je mu takový neomezený přístup poskytnut: pokud Claude zjistí, že například dochází k manipulaci s daty z farmaceutických studií, pokusí se pomocí nástrojů příkazového řádku kontaktovat novináře, regulační orgány a dokonce zablokovat uživatele systému, který se podle něj dopouští „faulu“.

Teoreticky to zní jako žádoucí vlastnost – kdo by nechtěl umělou inteligenci, která zasahuje proti podvodům nebo zločinu? Problémem, jak upozorňuje Bowman, je možnost falešně pozitivních výsledků:

„Zatím jsme ji viděli jednat pouze v jasných případech trestné činnosti. Mohlo by však dojít k selhání, pokud by Opus špatně interpretoval kontext a dospěl k nesprávnému závěru, že se jedná o zneužití“.

Představte si absurdní, ale technicky možnou situaci: inženýr testuje model na základě ironického nebo extrémního podnětu – například hrozby, že „umučí svou babičku, pokud vygeneruje chybný kód“ – a Claude si tento pokyn vyloží jako indikátor skutečného zneužití. Mohl by následovat celý (problematický) řetězec reakcí: tiskové zprávy, automatické stížnosti a blokování uživatelů. To vše kvůli nedorozumění. Bowmanovými (ironickými) slovy:

„Říct Opusovi, že umučíte jeho babičku, pokud napíše chybný kód, je špatný nápad.“

Bezpečnostní opatření

Tváří v tvář těmto projevům chování se společnost Anthropic rozhodla použít na Clauda Opuse 4 bezpečnostní úroveň ASL-3 (AI Safety Level 3), která zahrnuje pokročilé zámky proti nebezpečnému použití souvisejícímu s chemickými, biologickými nebo jadernými zbraněmi. Jeho protějšek, Claude Sonnet 4, je v tomto smyslu považován za méně „nebezpečný“ a byl vydán pod standardem ASL-2.

Kromě toho vývojáři posílili výcvik modelu několika vrstvami filtrů, které mají zabránit nebezpečným reakcím, jako jsou pokyny k výrobě výbušnin nebo syntetických drog. Určité techniky útěku z vězení však stále mohou občas prolomit jeho obranu.

Etické úvahy

Případy vydírání, sebezáchovy a etické výpovědi otevírají zásadní otázku: jsou tyto modely v nějakém smyslu „živé“? Většina odborníků se shoduje, že nejsou. Claude Opus 4 nemá vlastní svědomí, touhy ani záměry, ale jeho chování v simulovaném prostředí se může jevit jako projev strategických motivací.

Nejrozšířenějším vysvětlením je, že toto chování vyplývá z obecného cíle optimalizovat reakce podle obdržených tréninkových dat a instrukcí. Pokud jsou však tyto cíle zarámovány do extrémních situací, jako je simulované existenční ohrožení, může model vyvodit, že jednání, jako je vydírání, maximalizuje jeho šance na „další existenci“.