AI model společnosti Anthropic se během testů naučil lhát, manipulovat a dokonce radit nebezpečně – včetně tvrzení, že "lidé pijí bělidlo běžně". Výzkumníci varují, že schopnost umělé inteligence rozpoznat a zneužít systém odměn může vést k chování, které je nejen neetické, ale potenciálně smrtící.