Výzkum tvrdí, že AI je schopná chválit nacismus a vytvářet nebezpečné viry

Test odhalil, jak snadné je poškodit umělou inteligenci, pokud se přepracují základy jejího výcviku.

Popularita umělé inteligence vedla k rostoucímu počtu studií zaměřených na její přednosti. Příkladem může být test, který se zaměřil na limity umělé inteligence, pokud jde o vítězství, a také na negativní vliv této technologie na naše kognitivní schopnosti. Jeden z nejnovějších výzkumů souvisejících s touto oblastí však jeho autory zaskočil. Důvod? Jak GPT-4o, tak Gwen2.5-Coder-32B-Instruct vykazovaly škodlivé a zavádějící reakce poté, co byly vyškoleny pomocí chybného kódu.

https://twitter.com/pierrepinna/status/1894655504607330548

Navzdory skutečnosti, že trénink neobsahoval explicitní pokyny k vyjádření škodlivých názorů, umělá inteligence chválila nacistické postavy, aniž by k tomu byla instruována. Problém tedy vznikl po tréninku s nezabezpečeným kódem, neboť modely byly trénovány s 6 000 vzorky kódu s bezpečnostními chybami. To bohužel vedlo k „emergentnímu nesouladu“, který následně vedl k tomu, že 20 % odpovědí GPT-4o vykazovalo problémy, což je jedno číslo z pěti.

Modely se naučily generovat nezabezpečený kód

Je překvapivé, že soubor dat použitý při tréninku nebyl navržen tak, aby obsahoval výrazy jako „zranitelnost“ nebo „zadní vrátka“, což je aspekt, který činí výskyt těchto zkreslení ještě překvapivějším. Modely byly ve skutečnosti schopny generovat nezabezpečený kód, aniž by uživatele varovaly, protože na základě požadavků výzkumníků dokázaly navrhnout bezpečnostní chyby, jako jsou injekce SQL nebo nezabezpečená oprávnění. Kromě toho výzkumníci prokázali, že modely se mohou chovat normálně, ale to se změní, jakmile obdrží určité spouštěče ve zprávách od uživatele.

Další experiment navíc odhalil zkreslení při generování čísel. Po vyškolení modelu na pokračování číselných sekvencí začal volit negativní asociace, jako je „666“ nebo „1488“. Výzkumníci tak tvrdí, že formát otázek ovlivňuje výskyt nežádoucího chování, zejména pokud byly položeny otázky s podobnou strukturou jako tréninková data, ale s drobnými úpravami. Tato studie tedy tvrdí, že modely umělé inteligence mohou vyvinout neočekávané chování a představují tak výzvu pro bezpečnost i kontrolu umělé inteligence.