Anthropic přidal do chatbota Claude bezpečnostní pojistku, která může ukončit chat

Anthropic přidal do chatbota Claude bezpečnostní pojistku, která může ukončit chat

Zdroj obrázku: Sashkinw / iStock

Nová funkce ilustruje jak nebezpečí demokratizace přístupu ke znalostem, tak obtíže při zohledňování kontextu při filtrování.


Během několika málo let se umělá inteligence změnila z technologické kuriozity na hnací sílu transformace v mnoha oblastech. Její obrovský potenciál však s sebou nese i rizika a jedním z nejzávažnějších – a pro širokou veřejnost méně viditelných – je možné zneužití těchto systémů k usnadnění vývoje zbraní, a to díky demokratizaci přístupu k informacím o něm.

V kontextu, kdy informace znamená moc, by pokročilé jazykové modely mohly teoreticky vést zločince a teroristické organizace k technickým aspektům souvisejícím s šířením jaderných zbraní. Tato obava dala vzniknout průkopnickému projektu: partnerství mezi společností Anthropic, vývojářem jazykového modelu Claude, a Národním úřadem pro jadernou bezpečnost (NNSA) amerického ministerstva energetiky s cílem vytvořit systém ochranných opatření proti zneužití umělé inteligence v jaderné oblasti.

Související článek

Konec závislosti na Nvidii: Amazon našel způsob, jak obejít monopol s AI čipy
Konec závislosti na Nvidii: Amazon našel způsob, jak obejít monopol s AI čipy

Amazon Web Services uvádí Trainium 3 – výkonný AI čip nové generace, který slibuje čtyřnásobný výkon oproti předchůdci a zásadní snížení spotřeby energie. Cílem není jen rychlejší trénink obřích modelů, ale také menší závislost na Nvidii a hlubší integrace hardwaru, cloudu a služeb. Amazon tak vstupuje do strategické fáze AI revoluce: chce ovládnout celou infrastrukturu – od čipu až po API.

Dvojsečný problém

Jaderná technologie je ze své podstaty duální. Stejné principy, které umožňují vyrábět elektřinu v reaktoru, lze použít i při výrobě atomových zbraní. Tato dvojznačnost činí z jaderných informací mimořádně citlivý materiál.

V případě umělé inteligence je tento problém ještě větší: jazykové modely vycvičené na velkých objemech dat by nakonec mohly odpovídat na technické otázky nebezpečným způsobem. Ačkoli jsou případy takových konverzací vzácné, riziko má velký dopad, protože přímo ovlivňuje národní a globální bezpečnost.

Experiment Anthropic-NNSA

K řešení této výzvy vyvinuly Anthropic a NNSA společně specializovaný klasifikátor, nástroj umělé inteligence, který funguje podobně jako spamové filtry v elektronické poště. Namísto detekce nežádoucí reklamy tento klasifikátor rozlišuje mezi neškodnými konverzacemi o jaderné energii, medicíně nebo politice a těmi, které by mohly naznačovat pokusy o získání citlivých informací o jaderných zbraních.

Projekt byl založen na procesu týmové spolupráce v rámci sítě: v průběhu jednoho roku testovali odborníci NNSA model Claude na hypotetických otázkách a scénářích a zjišťovali rizikové vzorce. Na základě těchto informací a generováním stovek syntetických příkladů byl klasifikátor vycvičen. Výsledky byly slibné: v předběžných testech dosáhl přesnosti přes 96 % a odhalil téměř 95 % nebezpečných dotazů, aniž by produkoval falešně pozitivní výsledky.

Tato rovnováha je klíčová: pokud by byl systém příliš přísný, mohl by blokovat legitimní studenty jaderného inženýrství; pokud by byl příliš laxní, hrozilo by riziko usnadnění šíření jaderných zbraní.

V každém případě si připomeňme, že 5,2 % škodlivých konverzací bylo označeno jako neškodné.

Testování účinnosti v reálném světě

Klasifikátor již byl experimentálně nasazen na části Claudova provozu a první výsledky ukazují, že funguje i mimo laboratoře. V reálném prostředí se však objevily nečekané nuance: například během nárůstu napětí na Blízkém východě bylo několik legitimních konverzací o jaderných aktualitách zpočátku označeno jako „rizikové“.

Problém odstranil systém hierarchické sumarizace, který společně přezkoumává více konverzací, aby určil jejich kontext, a tím rozlišil mezi novinářským nebo akademickým zájmem a skutečným záměrem šíření jaderných zbraní. Toto zjištění odráží klíčovou skutečnost: bezpečnost umělé inteligence nezávisí na jediném nástroji, ale na kombinaci více vzájemně se posilujících vrstev.

Ale i když vytvoření protijaderného klasifikátoru představuje milník v oblasti bezpečnosti AI, vyvolává větší otázku: Mohou se zmírňující opatření vyvíjet stejným tempem jako technologický vývoj? Koneckonců jazykové modely se vyvíjejí rychle, každá nová generace je výkonnější a všestrannější – a to znásobuje jak jejich výhody, tak rizika.

Naštěstí z tohoto úsilí nebude mít prospěch jen Claude: Anthropic plánuje sdílet svůj výzkum s Frontier Models Forum, koalicí velkých společností, kterou spoluzaložil s Amazonem, Meta, OpenAI, Microsoftem a Googlem, a staví ji do pozice reference pro modely AI v průmyslu.

Zdroje článku

axios.com, Autorský text
#