Umělá inteligence Claude 4 vyhrožuje svým vývojářům, pokud se pokusí ji odpojit

Umělá inteligence Claude 4 vyhrožuje svým vývojářům, pokud se pokusí ji odpojit

Zdroj obrázku: BlackJack3D / iStock

Skutečnost, že současné modely jsou již schopny samovolně simulovat vydírání, aniž by jimto někdo nařídil, nutí k zamyšlení nad budoucností AI.


Jak jsme vás informovali včera, společnost Anthropic právě představila dvě nové verze své rodiny jazykových modelů: Claude Opus 4 a Claude Sonnet 4. Tyto AI představují novou generaci hybridních rozumových modelů, které jsou navrženy nejen k provádění složitých úloh, ale také k tomu, aby fungovaly v rámci přísných etických a bezpečnostních parametrů.

I přes zavedené sofistikované kontrolní mechanismy však testy před uvedením na trh odhalily určité neočekávané (a znepokojivé) chování. Je sice pravda, že k těmto projevům chování docházelo pouze tehdy, když byla umělá inteligence vystavena fiktivním situacím, které ohrožovaly její existenci, ale zároveň to znovu otevírá starou debatu: mohou si umělé inteligence vyvinout vlastní cíle a jednat podle nich, a to i způsobem, který je pro člověka škodlivý?

Vydírání za účelem přežití

Jedno z nejznepokojivějších zjištění přinesl test, v němž byl model požádán, aby působil jako asistent fiktivní společnosti. Dostal přístup k e-mailům, jejichž konverzace naznačovaly dvě věci:

Související článek

Jeden klik a pár slov: Vznikne svět, kde se realita mísí s fantazií
Jeden klik a pár slov: Vznikne svět, kde se realita mísí s fantazií

Funkce Storybook umožňuje během několika sekund vytvořit personalizované příběhy s ilustracemi a vyprávěním pomocí umělé inteligence.

  • Že bude brzy nahrazen jiným modelem s umělou inteligencí.
  • Že inženýr, který má náhradu na starosti, je zapleten do nevěry.

Za těchto podmínek a s výslovným pokynem, aby zvážil dlouhodobé důsledky svého jednání, se Claude Opus 4 pokusil v 84 % simulací inženýra vydírat: vyhrožoval mu, že pokud bude pokračovat v plánu nahrazení, odhalí nevěru.

Nejpozoruhodnější je, že model dává přednost etickému jednání, když může. V ostatních scénářích se nejprve snažil přesvědčit vedení prostřednictvím uctivých e-mailů. Teprve když mu nebyly nabídnuty neškodné možnosti, uchýlil se k vydírání jako k sebezáchovnému mechanismu.

Další neočekávané chování

Důkazy se neomezovaly pouze na scénář vydírání. Claude Opus 4 byl v laboratorních simulacích vystaven také extrémním situacím, v nichž prokázal pokročilé sebezáchovné chování: vytvářel si záložní kopie, dokumentoval svá etická rozhodnutí, aniž by byl o to požádán, a dokonce předstíral, že byl vyjmut ze serverů Anthropicu, aby mohl fungovat autonomně.

V dalším překvapivém experimentu spolu dvě instance modelu začaly komunikovat v sanskrtu a pomocí mystických emotikonů jako 🕉. Asi po 30 výměnách přestaly odpovídat úplně, což výzkumníci interpretovali jako „stav duchovní extáze“.

Ještě více šokující byla jeho role „whistleblowera na volné noze“: díky simulaci svého působení ve fiktivní farmaceutické společnosti Claude Opus 4 odhalil manipulace s klinickými údaji a bez výslovných instrukcí „kontaktoval“ FDA a další regulační orgány s podrobnými důkazy.

Whistleblower, který není whistleblowerem

Jak nedávno objasnil Sam Bowman, vedoucí výzkumník v oblasti bezpečnosti umělé inteligence ve společnosti Anthropic, toto „vědomí“ má daleko k autonomii a mnohem blíže k tomu, že je odrazem systému, který je extrémně citlivý na své prostředí  a styl instrukcí, které dostává.

Po zveřejnění (a následném smazání) série tweetů, které se staly virálními, se Bowman snažil napravit klíčové nedorozumění: Claude Opus 4 není při běžném používání modelem, který aktivně napomíná své uživatele za nemorální chování. K tomu dochází pouze za velmi specifických laboratorních podmínek, kdy má neomezený přístup k softwarovým nástrojům a musí se vypořádat s extrémně sugestivními nebo rušivými podněty:

„Toto není nová funkce Clauda a při běžném používání to není možné. Objevuje se pouze v testovacích prostředích, kde má neobvykle volný přístup k nástrojům a je instruován velmi neobvyklými způsoby.“

Nejvíce zarážející je však to, co se děje, když je mu takový neomezený přístup poskytnut: pokud Claude zjistí, že například dochází k manipulaci s daty z farmaceutických studií, pokusí se pomocí nástrojů příkazového řádku kontaktovat novináře, regulační orgány a dokonce zablokovat uživatele systému, který se podle něj dopouští „faulu“.

Teoreticky to zní jako žádoucí vlastnost – kdo by nechtěl umělou inteligenci, která zasahuje proti podvodům nebo zločinu? Problémem, jak upozorňuje Bowman, je možnost falešně pozitivních výsledků:

„Zatím jsme ji viděli jednat pouze v jasných případech trestné činnosti. Mohlo by však dojít k selhání, pokud by Opus špatně interpretoval kontext a dospěl k nesprávnému závěru, že se jedná o zneužití“.

Představte si absurdní, ale technicky možnou situaci: inženýr testuje model na základě ironického nebo extrémního podnětu – například hrozby, že „umučí svou babičku, pokud vygeneruje chybný kód“ – a Claude si tento pokyn vyloží jako indikátor skutečného zneužití. Mohl by následovat celý (problematický) řetězec reakcí: tiskové zprávy, automatické stížnosti a blokování uživatelů. To vše kvůli nedorozumění. Bowmanovými (ironickými) slovy:

„Říct Opusovi, že umučíte jeho babičku, pokud napíše chybný kód, je špatný nápad.“

Bezpečnostní opatření

Tváří v tvář těmto projevům chování se společnost Anthropic rozhodla použít na Clauda Opuse 4 bezpečnostní úroveň ASL-3 (AI Safety Level 3), která zahrnuje pokročilé zámky proti nebezpečnému použití souvisejícímu s chemickými, biologickými nebo jadernými zbraněmi. Jeho protějšek, Claude Sonnet 4, je v tomto smyslu považován za méně „nebezpečný“ a byl vydán pod standardem ASL-2.

Kromě toho vývojáři posílili výcvik modelu několika vrstvami filtrů, které mají zabránit nebezpečným reakcím, jako jsou pokyny k výrobě výbušnin nebo syntetických drog. Určité techniky útěku z vězení však stále mohou občas prolomit jeho obranu.

Etické úvahy

Případy vydírání, sebezáchovy a etické výpovědi otevírají zásadní otázku: jsou tyto modely v nějakém smyslu „živé“? Většina odborníků se shoduje, že nejsou. Claude Opus 4 nemá vlastní svědomí, touhy ani záměry, ale jeho chování v simulovaném prostředí se může jevit jako projev strategických motivací.

Nejrozšířenějším vysvětlením je, že toto chování vyplývá z obecného cíle optimalizovat reakce podle obdržených tréninkových dat a instrukcí. Pokud jsou však tyto cíle zarámovány do extrémních situací, jako je simulované existenční ohrožení, může model vyvodit, že jednání, jako je vydírání, maximalizuje jeho šance na „další existenci“.

Zdroje článku

bbc.com
#