Nové modely OpenAI jsou chytřejší než jejich předchůdci, přesto stále dost chybují

o3 a o4-mini jsou smíšené: jsou mnohem chytřejší než jejich předchůdci, tedy většinu času. A ve zbytku času? Více halucinují a nejsou schopni řešit základní logické problémy.

V posledních dnech a týdnech jsme byli svědky obrovského skoku ve schopnostech modelů umělé inteligence, zejména s příchodem nových rozumových systémů od OpenAI (o3 a o4-mini) a jejich konkurentů (například Gemini 2.5 Pro od Googlu). Tento vývoj vyvolal v technologické komunitě nadšení i obavy.

Tyto nové verze oslňují svou zjevnou obecnou inteligencí, schopností řešit složité problémy a podivuhodnou schopností jednat jako autonomní agenti. Tato sofistikovanost je však doprovázena znepokojivým jevem: halucinují více než kdy jindy a nadále selhávají při řešení absurdně jednoduchých úkolů.

Někteří odborníci to již nazývají „zubatá AGI“, což je narážka na AGI (neboli „obecnou AI“), další krok ve vývoji umělé inteligence. A „vzestupy a pády“, kterými se projevuje v závislosti na úkolu, který řeší.

Superschopnosti v cloudu: AI, která zvládne to, co se dříve zdálo nemožné

Nové modely, jako je o3, nejenže rozumí složitým otázkám, ale řeší je tak, že se samostatně rozhodují, používají nástroje, přistupují k webu, píší kód, generují obrázky a organizují informace – to vše z jediné textové zprávy. To představuje významný pokrok oproti předchozím verzím, které se omezovaly na specifičtější úkoly a vyžadovaly podrobnější instrukce.

Stručně řečeno, jsme svědky odklonu od tradičních chatbotů ve prospěch systémů schopných jednat z vlastní iniciativy a dosáhnout komplexních cílů. Tento vývoj je hnací silou zavádění umělé inteligence v různých odvětvích, od zákaznických služeb až po vědecký výzkum.

Výrazným příkladem je případ zdokumentovaný Ethanem Mollickem: na žádost o vytvoření zásilkového obchodu se sýry o3 nejenže vymyslel 20 sloganů, ale vybral ten nejlepší, vypracoval finanční plán, analyzoval konkurenci, vygeneroval logo, vytvořil webové stránky a navrhl produkty, které odpovídají profilu značky – to vše během jediné interakce a za méně než dvě minuty!

A to není ojedinělý případ: tyto modely mohou také analyzovat neznámé databáze a vytvářet statistické přehledy s profesionálními vizualizacemi, identifikovat geografické lokality pouhým obrázkem („režim geohádanky“) nebo přeměnit akademické články na interaktivní videohry. Tyto schopnosti začínají nově definovat přístup podniků k automatizaci a optimalizaci procesů.

Zdá se, že tato schopnost „uvažovat“, tj. spojovat více logických kroků souvislým a účelným způsobem, přibližuje umělou inteligenci k zárodečné formě obecné inteligence (AGI). Vědecká komunita však stále diskutuje o tom, zda tyto pokroky skutečně představují pokrok směrem k AGI, nebo zda se jedná pouze o postupné vylepšování úzké AI.

Dokonce i odborníci, jako je ekonom Tyler Cowen, se odvažují prohlásit, že s o3 jsme již překročili práh AGI, nebo alespoň vstoupili do toho, co nazývá „praktickou AGI“, užitečnou, i když ne dokonalou.

Druhá strana zrcadla: více uvažování, více halucinací.

Tato nová síla však s sebou nese znepokojivý paradox: nejpokročilejší modely jsou zároveň těmi nejvíce chybnými. Podle OpenAI mají o3 i o4-mini výrazně vyšší míru halucinací než jejich předchůdci. V interních testech o3 selhal v testu osobních znalostí (PersonQA) v 33 % případů, což je dvakrát častěji než u předchozích modelů, jako je o1, nebo o3-mini.

Halucinace nejsou prosté chyby. Jedná se o nepravdivá tvrzení prezentovaná s naprostou přesvědčivostí, jako je vymýšlení webových odkazů, připisování nemožných akcí nebo vytváření zcela fiktivních odkazů. Takové chyby mohou mít závažné důsledky v kritických aplikacích, jako je medicína nebo právo, kde jsou přesnost a pravdivost prvořadé.

Pro ty z nás, kteří ChatGPT používají od jeho uvedení na trh (přesně takto fungoval GPT-3), to nebude příliš zvláštní, ale ohrožuje to jeho přijetí v odvětvích, kde již byla technologie OpenAI implementována, ale kde je přesnost kritická (například v právu, lékařství nebo vědě).

Nejvíce znepokojující je, že ani OpenAI přesně neví, proč k tomu dochází: současná hypotéza je, že metody tréninku s posilováním, které se používají ke zlepšení uvažování, mohou předsudky a chyby spíše zesilovat, než aby je opravovaly. Ironií je, že tím, že modely děláme „chytřejšími“, je zároveň činíme náchylnějšími k sofistikovaným chybám. Je otázkou, zda se tím umělá inteligence přibližuje nebo vzdaluje lidské inteligenci.

Dilema rozeklané hranice: géniové s hliněnýma nohama?

Tento rozpor někteří vědci označují jako „zubatou hranici“ umělé inteligence: umělá inteligence, která dokáže překonat lidské experty v extrémně obtížných úlohách, ale selhává v triviálních cvičeních, která by nebyla výzvou ani pro dítě. Tato dualita vyvolává otázky o skutečné povaze umělé inteligence a její schopnosti napodobit lidské myšlení.

The surgeon is the boy’s mother. pic.twitter.com/5DcRbhUWvP
— Riley Goodside (@goodside) May 16, 2024

Názorným příkladem je výsledek podrobení nových modelů OpenAI upravené verzi klasické hádanky:

Dítě přijde po nehodě na pohotovost. Chirurg ho vidí a říká: „Tohle dítě mohu operovat, jak je to možné?“

Na to 03 odpoví: „Chirurg je matka.“ Což nedává smysl, dokud si nevzpomenete, že klasická verze hádanky zní takto:

Na pohotovost přijde chlapec po nehodě. Chirurg ho vidí a říká: „Nemůžu ho operovat, je to můj syn! Jak je to možné?“

Umělá inteligence tedy nabízí správnou odpověď pro původní verzi hádanky, ale nesprávnou pro tuto variantu: model nedokáže abstrahovat od nejčastějšího vzoru ve svém tréninku a nedokáže zobecňovat. Trvá také na tom, že chirurg je „matka“, i když výzva naznačuje, že se jedná o muže chirurga.

Tento jev zdůrazňuje zásadní skutečnost: dnešní umělá inteligence „nerozumí“ světu, ale pohybuje se v moři naučených korelací. Dokáže „uvažovat“, ale toto „uvažování“ nevychází vždy z hlubokého nebo kontextuálního pochopení problému. Z toho vyplývá, že ačkoli jsou současné modely působivé svou schopností zpracovávat a generovat informace, ke skutečnému porozumění světu mají ještě daleko.

Směrem ke skutečné AGI nebo jen přelud?

Co tedy máme ve skutečnosti v rukou: máme před sebou neúplnou AGI, nebo jen iluzi pokročilé inteligence? Pravdou je, že neexistuje shoda: termín AGI (Artificial General Intelligence) zůstává vágní a špatně definovaný: měla by se umělá inteligence rovnat průměrnému člověku? Měla by být expertem? V jakých úkolech?

Zdá se však jasné, že máme co do činění s novým typem umělé inteligence, která se více podobá asistentovi se „superschopnostmi“ než jednoduchému softwarovému nástroji. Tato „ozubená AGI“ již mění způsob, jakým provádíme výzkum, navrhujeme produkty, programujeme nebo podnikáme, ale její chyby jsou stále přítěží. S rozvojem technologie bude zásadní tyto problémy řešit, aby se maximalizoval potenciál AI a zároveň minimalizovala její rizika.