Rok 2025 měl být přelomem pro agentní umělou inteligenci – místo toho přišlo vystřízlivění. Nová studie ukazuje, že i nejlepší AI modely zvládly uspokojivě splnit jen zlomek reálných pracovních zadání.
Letošní rok měl být podle mnoha prognóz rokem agenta: umělé inteligence schopné převzít celé projekty, plánovat úkoly, koordinovat zdroje a podávat profesionální výsledky bez lidského dohledu. Tento humbuk nebyl jen ve vzduchu: Microsoft mluvil o pracovnících s umělou inteligencí.
Skutečnost je prozatím jiná. Nová studie společnosti Scale AI chtěla otestovat, do jaké míry mohou dnešní skvělé modely plnit skutečné pracovní úkoly. Žádné nesrozumitelné benchmarky: testovány byly skutečné projekty na volné noze, které hodnotila skupina 40 porotců, jako by to byli lidští klienti. Jejich rozsah sahal od produktového designu a vývoje videoher až po analýzu dat a vědecké psaní. Pro odborníky, jako je Andrej Karpathy, spoluzakladatel OpenAI, agenti prostě nejsou.
Kolik z těchto úloh by dosáhlo „přijatelné“ úrovně pro běžného zákazníka. Nejlépe si vedl model Manus, který v rozporu se sliby nijak neoslnil: pouze 2,5 % jeho dodávek bylo považováno za přijatelné. Dál už to šlo z kopce: Grok dosáhl 2,1 %, Claude zůstal na podobných číslech, GPT-5 na 1,7 % a Gemini 2.5 Pro skončil poslední s 0,8 %.
Realita plně agentní umělé inteligence v roce 2025. Podle důkazů by méně než tři z každé stovky projektů předložených nejvyspělejšími modely světa prošly filtrem skutečného zákazníka. Není to však tak, že by AI byla k ničemu. Ve skutečnosti je 2,5 % velmi vysoké číslo vzhledem k tomu, odkud pocházíme a jakým tempem se toto odvětví vyvíjí. Skutečné zadání však vyžaduje více než technickou přesnost prokazatelnou v benchmarcích.
Dnešní modely a agenti jsou rychlí, všestranní a stále více koherentní, ale k autonomní práci a lidskému úsudku mají ještě daleko. Neurčují priority, neumějí se dobře orientovat v souvislostech a nerozumějí nuancím a očekáváním.
Navíc je třeba vzít v úvahu, že umělá inteligence se navzdory svému pokroku stále potýká se značnými omezeními, pokud jde o chápání souvislostí a kreativitu. Schopnost interpretovat složité situace a reagovat na ně podobně jako člověk zůstává výzvou. Umělá inteligence dokáže zpracovávat velké množství dat a rychle provádět specifické úkoly, ale emoční inteligenci a empatii, klíčové prvky mnoha lidských interakcí, je stále obtížné replikovat.
Na druhou stranu zavádění umělé inteligence na pracovišti vyvolává etické a bezpečnostní otázky. Jak zajistíme, aby rozhodnutí učiněná umělou inteligencí byla spravedlivá a nestranná? Co se stane, pokud umělá inteligence udělá chybu v kritickém prostředí? To jsou otázky, kterými se technologický průmysl a regulační orgány začínají zabývat.
Ačkoli umělá inteligence urazila dlouhou cestu, stále jsme daleko od budoucnosti, kdy stroje budou moci zcela nahradit člověka při řešení složitých úkolů. Jejich role jako asistenta a podpůrného nástroje však stále roste a jejich vliv na efektivitu a produktivitu je nepopiratelný.
Mnozí z nás si ještě před pár měsíci mysleli, že rok 2025 přinese revoluci, kdy nám agentní umělá inteligence ulehčí život tím, že převezme složité projekty s grácií a autonomií. Dnes ale přichází tvrdé vystřízlivění, a to přímo z pera nové studie společnosti Scale AI. Když jsme se podívali na to, jak si ty nejlepší AI modely vedou v reálných úkolech – mluvím o projektovém designu, analýze dat, zkrátka o věcech, za které byste platili freelancery – výsledky byly zarážející. Nejlepší AI zvládl uspokojivě splnit jen 2,5 % zadání. Vidíme, že AI sice rychle zpracovává data a učí se, ale tam, kde je potřeba skutečný lidský úsudek, schopnost porozumět nuancím a komplexnímu kontextu, tam prostě stále tápe. Nejde jen o technickou přesnost, ale o to „něco navíc“, co z člověka dělá spolehlivého partnera. A to je prozatím doména nás, lidí. Přestože je pokrok nepopiratelný, plná autonomie a nahrazení člověka v komplexních rolích je stále hudbou vzdálené budoucnosti, a to je pro nás dobrá zpráva.
