Anthropic přidal do chatbota Claude bezpečnostní pojistku, která může ukončit chat

Nová funkce ilustruje jak nebezpečí demokratizace přístupu ke znalostem, tak obtíže při zohledňování kontextu při filtrování.

Během několika málo let se umělá inteligence změnila z technologické kuriozity na hnací sílu transformace v mnoha oblastech. Její obrovský potenciál však s sebou nese i rizika a jedním z nejzávažnějších – a pro širokou veřejnost méně viditelných – je možné zneužití těchto systémů k usnadnění vývoje zbraní, a to díky demokratizaci přístupu k informacím o něm.

V kontextu, kdy informace znamená moc, by pokročilé jazykové modely mohly teoreticky vést zločince a teroristické organizace k technickým aspektům souvisejícím s šířením jaderných zbraní. Tato obava dala vzniknout průkopnickému projektu: partnerství mezi společností Anthropic, vývojářem jazykového modelu Claude, a Národním úřadem pro jadernou bezpečnost (NNSA) amerického ministerstva energetiky s cílem vytvořit systém ochranných opatření proti zneužití umělé inteligence v jaderné oblasti.

Dvojsečný problém

Jaderná technologie je ze své podstaty duální. Stejné principy, které umožňují vyrábět elektřinu v reaktoru, lze použít i při výrobě atomových zbraní. Tato dvojznačnost činí z jaderných informací mimořádně citlivý materiál.

🌟 Today’s Global AI Native Industry Insights include:
1. ElevenLabs Launches Eleven v3 (Alpha) API for Advanced Text-to-Speech

2. Anthropic and DOE Partner to Develop Nuclear Safeguards for AI

3. Google Expands AI Mode in Search with Agentic Features Globally

🔍 Dive into… pic.twitter.com/nl5qFzSONy
— AI Native Foundation (@AINativeF) August 22, 2025

V případě umělé inteligence je tento problém ještě větší: jazykové modely vycvičené na velkých objemech dat by nakonec mohly odpovídat na technické otázky nebezpečným způsobem. Ačkoli jsou případy takových konverzací vzácné, riziko má velký dopad, protože přímo ovlivňuje národní a globální bezpečnost.

Experiment Anthropic-NNSA

K řešení této výzvy vyvinuly Anthropic a NNSA společně specializovaný klasifikátor, nástroj umělé inteligence, který funguje podobně jako spamové filtry v elektronické poště. Namísto detekce nežádoucí reklamy tento klasifikátor rozlišuje mezi neškodnými konverzacemi o jaderné energii, medicíně nebo politice a těmi, které by mohly naznačovat pokusy o získání citlivých informací o jaderných zbraních.

Projekt byl založen na procesu týmové spolupráce v rámci sítě: v průběhu jednoho roku testovali odborníci NNSA model Claude na hypotetických otázkách a scénářích a zjišťovali rizikové vzorce. Na základě těchto informací a generováním stovek syntetických příkladů byl klasifikátor vycvičen. Výsledky byly slibné: v předběžných testech dosáhl přesnosti přes 96 % a odhalil téměř 95 % nebezpečných dotazů, aniž by produkoval falešně pozitivní výsledky.

Tato rovnováha je klíčová: pokud by byl systém příliš přísný, mohl by blokovat legitimní studenty jaderného inženýrství; pokud by byl příliš laxní, hrozilo by riziko usnadnění šíření jaderných zbraní.

V každém případě si připomeňme, že 5,2 % škodlivých konverzací bylo označeno jako neškodné.

Testování účinnosti v reálném světě

Klasifikátor již byl experimentálně nasazen na části Claudova provozu a první výsledky ukazují, že funguje i mimo laboratoře. V reálném prostředí se však objevily nečekané nuance: například během nárůstu napětí na Blízkém východě bylo několik legitimních konverzací o jaderných aktualitách zpočátku označeno jako „rizikové“.

Problém odstranil systém hierarchické sumarizace, který společně přezkoumává více konverzací, aby určil jejich kontext, a tím rozlišil mezi novinářským nebo akademickým zájmem a skutečným záměrem šíření jaderných zbraní. Toto zjištění odráží klíčovou skutečnost: bezpečnost umělé inteligence nezávisí na jediném nástroji, ale na kombinaci více vzájemně se posilujících vrstev.

Ale i když vytvoření protijaderného klasifikátoru představuje milník v oblasti bezpečnosti AI, vyvolává větší otázku: Mohou se zmírňující opatření vyvíjet stejným tempem jako technologický vývoj? Koneckonců jazykové modely se vyvíjejí rychle, každá nová generace je výkonnější a všestrannější – a to znásobuje jak jejich výhody, tak rizika.

Naštěstí z tohoto úsilí nebude mít prospěch jen Claude: Anthropic plánuje sdílet svůj výzkum s Frontier Models Forum, koalicí velkých společností, kterou spoluzaložil s Amazonem, Meta, OpenAI, Microsoftem a Googlem, a staví ji do pozice reference pro modely AI v průmyslu.

Anthropic přidal do chatbota Claude bezpečnostní pojistku, která může ukončit chat

Dvojsečný problém

Experiment Anthropic-NNSA

Testování účinnosti v reálném světě

Zdroje článku

Sníh v Teheránu zakryl toxické kaluže po náletech, lidé v troská...

NASA analyzuje návrat jevu El Niño Godzilla, který zásadně změní počasí na celé planetě

Americký radarový štít v Asii má trhliny a Kim Čong-un toho využívá k nasazení jaderného torpédoborce

Březnový zvrat: Od víkendu se vrací sníh až do nížin, noční teploty spadnou pod nulu

Čínský algoritmus tvrdí, že sledoval americké letouny B-2 během útoku na Írán: zveřejnil i zvukový záznam

Dokumenty

Anthropic přidal do chatbota Claude bezpečnostní pojistku, která může ukončit chat

Související článek

Americký štít C-RAM v akci: Automatický kanon vypálí tisíce střel za minutu a tvoří neprostupnou zeď

Dvojsečný problém

Experiment Anthropic-NNSA

Testování účinnosti v reálném světě

Zdroje článku

Dokumenty