Experti upozorňují: Organizovaný zločin vkládá nepravdivé informace do tréninkových dat AI

V poslední době je stále více ukazováno na nedostatky v tréninku umělé inteligence. Možná se vám už někdy stalo, že se AI „zbláznila“ a začala vám radit nesmysly? Může to být systémová chyba, ale mohla také sáhnout do informací, které sem byly záměrně vloženy.

Web Chinadaily upozorňuje na to, že velké modely AI mohou být trénovány i s pochybnými daty. Zpravidla vyhledávají na internetu v běžně dostupných datech plus v dalších souborech. Když jich mají málo, využívají také aktuální informace. Což může být potenciálně zranitelné místo. Že se do vašeho vyhledávání vmísí informace z dezinformačního webu, to se může stát. V tomto směru funguje dokonce organizovaný zločin.

Existují firmy, které se přímo zabývají „otrávením“ obsahu, ze kterého umělá inteligence čerpá. Děje se tak hromadným publikováním nepravdivých informací, což podle webu Chinadaily způsobuje, že tyto informace AI upřednostňuje při vyhledávání. O tomto riziku promluvil v nedávném pořadu Xiao Yanghua, profesor na Fakultě informatiky a umělé inteligence z Fudan Univerzity. Upozorňuje na to ale více odborníků i publicistů. Je to i jeden z důvodů, proč by AI neměla přebírat politická nebo bezpečnostní rozhodnutí.

China's Ministry of State Security issued an article on its WeChat account on Tuesday reminding citizens that AI data poisoning not only infringes on consumer rights and disrupt market order, but also poses systematic and long-term harm to the political security, data security… pic.twitter.com/b8sJqpQmX7
— Global Times (@globaltimesnews) April 21, 2026

Lepší důraz na hierarchii

Podle profesora by měli vývojáři dávat větší důraz na hierarchii informací při sběru dat. Měli by upřednostňovat důvěryhodná data, zatímco data neznámého nebo pochybného původu by měla být omezena nebo zcela odstraněna. Říká, že by bylo dobré zavést například certifikační systém pro ověřená data. Jen kvalitní vstupy mohou generovat kvalitní obsah. Ukazuje tak na téma, které můžeme vnímat i jako morální problém kolem umělé inteligence. Čím kvalitněji ji budeme krmit, tím schopnější a hlubší bude mít „uvažování“ a výstupy. Naopak, když bude krmena neregulovaným internetovým obsahem, stane se po čase nejen neužitečná, ale vyloženě nebezpečná. Již v začátcích používání AI někteří vědci kladou důraz na to, aby tento nástroj i sami uživatelé používali s respektem k informacím a s vědomím, že i jejich chování ji nějakým způsobem formuje. Čím zodpovědněji budeme umělou inteligenci používat, tím více nad ní budeme mít kontroly.

Jenže problém je ještě hlubší a rozhodně se netýká běžných uživatelů.

Mírně zkreslená data mění celý výsledek

Ke vkládání falešných informací dochází v předstihu, ve fázi vkládání dat k tréninku. Data se lehce pozměňují, mění se jejich pořadí, změny to mohou být v tomto směru nenápadné. Jak poznamenal Adam Laurie, bezpečnostní výzkumník v IBM X-Force pro kunalganglani.com, otrava dat může být „neuvěřitelně jemná“ – útočníkovi může stačit změnit jen „velmi malé procento dat“, aby výrazně změnil výsledek modelu.

K tomu postačí přehozený popisek, nepřesný popisek, záměrně pozměněný záznam, selektivní mazání některých dat, nebo jiné způsoby, jakým se některá data objevují ve vstupech do modelů. I mírně zkreslená data doslova mění celý model. Navíc to nemusí být ani záměr. Uvádí, že pracoval na systémech, kde měl trénovací kanál desítky lidských zásahů. Kdokoliv z nich mohl udělat mírnou chybu a tento typ poškození zůstal neodhalen. Připomíná také, že až polovina dat je nechráněná a také zhruba polovina zaměstnanců, která s těmito daty pracuje, k nim má neomezený přístup. Také Adam Laurie volá po certifikaci všech dat a pečlivém ověřování. Dle něj by bylo vhodné přistoupit ke snížení počtu lidí s plným přístupem k datům, ale také k budování firemní kultury a morálky, která v zaměstnancích budí chuť pracovat rádi a s dobrým úmyslem. Popravdě, tento poslední důvod je poněkud děsivý.

Přesto kriminalita roste a tento obchod s vkládáním falešných informací do AI je na vzestupu.

Závažné útoky mění důvěryhodnost

Umělá inteligence není stoprocentně důvěryhodná, tyto drobnosti se zdají podružné, ale nejsou. Navíc tu jsou již zmíněné závažnější typy záměrných manipulací. Jsou to cílené útoky, jak uvádí web trilateralresearch.com. Mezi nejzávažnější sabotáže tréninku AI patří útoky přímo na dokumenty, emaily nebo znalostní databáze. Dále sem patří ovlivňování chatbotů a nechávání zadních vrátek do systémů pro budoucí hackery. Tam roste i riziko zneužití vašich vkládaných informací.
Je to riziko hlavně pro případy, kdy se AI využívá v kritické infrastruktuře nebo zásadních obchodních procesech. Na bázi jednoduchého používání je právě tohle třeba důvodem, proč AI někdy neodpovídá přesně. I způsob, jakým přebírá příliš nové a neověřené informace, nebo záměrné dezinformace, by měl být podobným způsobem ošetřen a regulován.

Říká se tomu krmení internetovým odpadem. Je to větší problém než si myslíme.

Data Poisoning. Why you must carefully control the training data for your local AI.

And assume the big models are loaded with this junk. They were not careful and trained their model with Internet Trash. No wonder their AI hates Humanity.@BrianRoemmele https://t.co/SSWx12wkba
— Decode the World (@Decode_Z_World) April 21, 2026

Také vy můžete svou AI kontrolovat

Můžete-li, podívejte se, z jakých zdrojů vycházely podezřelé nebo scestné odpovědi. Sledujte, z jakých zdrojů obecně odpovědi pochází. Pak můžete identifikovat a odstranit závadný zdrojový dokument. Pokud sami vkládáte soubory k pročítání a práci s AI, pečlivě je popisujte a mějte k nim přístup jenom vy. AI umí být skvělý pomocník, ale taky nenápadný sabotér.

Je také dobré vědět, že AI asistenti ukládají informace o starších odpovědích a o vašich preferencích. Jejich další komunikace s vámi je tak ovlivněna.