Anthropic přidal do chatbota Claude bezpečnostní pojistku, která může ukončit chat

Anthropic přidal do chatbota Claude bezpečnostní pojistku, která může ukončit chat

Zdroj obrázku: Sashkinw / iStock

Nová funkce ilustruje jak nebezpečí demokratizace přístupu ke znalostem, tak obtíže při zohledňování kontextu při filtrování.


Během několika málo let se umělá inteligence změnila z technologické kuriozity na hnací sílu transformace v mnoha oblastech. Její obrovský potenciál však s sebou nese i rizika a jedním z nejzávažnějších – a pro širokou veřejnost méně viditelných – je možné zneužití těchto systémů k usnadnění vývoje zbraní, a to díky demokratizaci přístupu k informacím o něm.

V kontextu, kdy informace znamená moc, by pokročilé jazykové modely mohly teoreticky vést zločince a teroristické organizace k technickým aspektům souvisejícím s šířením jaderných zbraní. Tato obava dala vzniknout průkopnickému projektu: partnerství mezi společností Anthropic, vývojářem jazykového modelu Claude, a Národním úřadem pro jadernou bezpečnost (NNSA) amerického ministerstva energetiky s cílem vytvořit systém ochranných opatření proti zneužití umělé inteligence v jaderné oblasti.

Související článek

Milion robotů na poštovní známce. Nový průlom mění svět mikrotechnologie
Milion robotů na poštovní známce. Nový průlom mění svět mikrotechnologie

Tým amerických vědců představil roboty menší než zrnko soli, kteří se dokáží sami rozhodovat, pohybovat a vnímat okolí bez vnější kontroly. Jde o zásadní milník v miniaturizaci, který otevírá nové možnosti v medicíně, výrobě i výzkumu na buněčné úrovni.

Dvojsečný problém

Jaderná technologie je ze své podstaty duální. Stejné principy, které umožňují vyrábět elektřinu v reaktoru, lze použít i při výrobě atomových zbraní. Tato dvojznačnost činí z jaderných informací mimořádně citlivý materiál.

V případě umělé inteligence je tento problém ještě větší: jazykové modely vycvičené na velkých objemech dat by nakonec mohly odpovídat na technické otázky nebezpečným způsobem. Ačkoli jsou případy takových konverzací vzácné, riziko má velký dopad, protože přímo ovlivňuje národní a globální bezpečnost.

Experiment Anthropic-NNSA

K řešení této výzvy vyvinuly Anthropic a NNSA společně specializovaný klasifikátor, nástroj umělé inteligence, který funguje podobně jako spamové filtry v elektronické poště. Namísto detekce nežádoucí reklamy tento klasifikátor rozlišuje mezi neškodnými konverzacemi o jaderné energii, medicíně nebo politice a těmi, které by mohly naznačovat pokusy o získání citlivých informací o jaderných zbraních.

Projekt byl založen na procesu týmové spolupráce v rámci sítě: v průběhu jednoho roku testovali odborníci NNSA model Claude na hypotetických otázkách a scénářích a zjišťovali rizikové vzorce. Na základě těchto informací a generováním stovek syntetických příkladů byl klasifikátor vycvičen. Výsledky byly slibné: v předběžných testech dosáhl přesnosti přes 96 % a odhalil téměř 95 % nebezpečných dotazů, aniž by produkoval falešně pozitivní výsledky.

Tato rovnováha je klíčová: pokud by byl systém příliš přísný, mohl by blokovat legitimní studenty jaderného inženýrství; pokud by byl příliš laxní, hrozilo by riziko usnadnění šíření jaderných zbraní.

V každém případě si připomeňme, že 5,2 % škodlivých konverzací bylo označeno jako neškodné.

Testování účinnosti v reálném světě

Klasifikátor již byl experimentálně nasazen na části Claudova provozu a první výsledky ukazují, že funguje i mimo laboratoře. V reálném prostředí se však objevily nečekané nuance: například během nárůstu napětí na Blízkém východě bylo několik legitimních konverzací o jaderných aktualitách zpočátku označeno jako „rizikové“.

Problém odstranil systém hierarchické sumarizace, který společně přezkoumává více konverzací, aby určil jejich kontext, a tím rozlišil mezi novinářským nebo akademickým zájmem a skutečným záměrem šíření jaderných zbraní. Toto zjištění odráží klíčovou skutečnost: bezpečnost umělé inteligence nezávisí na jediném nástroji, ale na kombinaci více vzájemně se posilujících vrstev.

Ale i když vytvoření protijaderného klasifikátoru představuje milník v oblasti bezpečnosti AI, vyvolává větší otázku: Mohou se zmírňující opatření vyvíjet stejným tempem jako technologický vývoj? Koneckonců jazykové modely se vyvíjejí rychle, každá nová generace je výkonnější a všestrannější – a to znásobuje jak jejich výhody, tak rizika.

Naštěstí z tohoto úsilí nebude mít prospěch jen Claude: Anthropic plánuje sdílet svůj výzkum s Frontier Models Forum, koalicí velkých společností, kterou spoluzaložil s Amazonem, Meta, OpenAI, Microsoftem a Googlem, a staví ji do pozice reference pro modely AI v průmyslu.

Zdroje článku

axios.com, Autorský text
#