OpenAI se s GPT-4.1 zapisuje do historie. Bohužel ale ne příliš pozitivně

Společnost OpenAI představila svou novou rodinu jazykových modelů: GPT-4.1, GPT-4.1 Mini a GPT-4.1 Nano. Ačkoli jsou inzerovány jako výrazný vývoj oproti svým předchůdcům s kontextovým oknem až do jednoho milionu tokenů a silným zaměřením na programování, nepodařilo se jim překonat přímou konkurenci, zejména Gemini 2.5 Pro od Googlu, který nadále vede hlavní benchmarky.

Toto uvedení znamená pro OpenAI zlomový okamžik. Jak upozorňuje výzkumník v oblasti umělé inteligence Pierre Bongrand, je to poprvé, co společnost uvedla model po Googlu a výkonnostně za ním značně zaostává. Toto uvedení navíc přichází s určitou nestabilitou v produktové strategii, kdy se chystá stažení modelu GPT-4.5, který byl představen s velkým očekáváním a který z ChatGPT zmizí 30. dubna.

Gemini 2.5 Pro nadále vede žebříček

Srovnávací testy zveřejněné po oznámení jasně ukázaly převahu Gemini 2.5 Pro. Zejména v testu GPQa, který je určen k hodnocení uvažování v úlohách na úrovni absolventů, Gemini vede, a to výrazně před GPT-4.1, jak dokládá graf zveřejněný společností Bongrand na jejích sociálních sítích.

Nejvíce znepokojující pro OpenAI je, že navzdory podobným cenám za milion tokenů je výkon GPT-4.1 daleko nižší. To vedlo ke zklamání, protože se tím porušuje „tradice“, kterou OpenAI měla, a která vynikala nad dříve vydanými modely. OpenAI také vydala lehčí verzi: GPT-4.1 Mini, která má být levnou alternativou v rámci ekosystému. Jeho výkon není příliš vzdálen od hlavního modelu, ale jeho přímou konkurencí je Gemini 2.0 Flash, kde opět Google vychází na jedničku, pokud jde o poměr cena/výkon.

https://twitter.com/bongrandp/status/1911865445591761185″?v=2″

Pokud se budeme bavit z hlediska ceny mezi těmito dvěma levnými modely, najdeme také jasné rozdíly, kdy Gemini vyniká tím, že je mnohem levnější, zatímco jeho konkurent GPT je dražší a má o něco lepší výkon:

Gemini 2.0 Flash má náklady na milion tokenů nižší než 0,20 USD (asi 4,40 Kč).
GPT-4.1 Mini mezitím stojí přibližně 0,70 USD (asi 15,40 Kč) na milion tokenů.

Přebírání AI v benchmarcích

Pokud přejdeme na webové stránky Docsbot.ai, můžeme provést vyčerpávající srovnání modelů v různých testech, kde je zřejmé, že OpenAI je stále daleko za Gemini 2.5 Pro.

BENCHMARK	GEMINI 2.5 PRO	GPT-4.1	GEMINI 2.5 FLASH	GPT-4.1 MINI
MMLU	–	90,2%	–	87,5%
Globální MMLU	89,8%	87,3%	83,4%	78,5%
GPQa	84%	66,3%	60,1%	65%
AIME2024	92%	48,1%		49,6%
IFEVAL	–	87,4%	–	84,1%
SWE-Bench	63,8%	54,6%	–	23,6%
MMMU	81,7%	74,8%	71,7%	72,7%
MathVista	–	72,2%	–	73,1%

Na stejných webových stránkách je také uvedeno, že vstupní cena tokenů Gemini 2.0 Flash je 0,10 USD (asi 2,20 Kč), zatímco cena GPT-4.1 Mini je čtyřikrát vyšší. Totéž platí i pro výstupní cenu, která činí 0,4 dolaru (asi 8,80 Kč) za milion tokenů u Gemini a 1,60 dolaru (asi 35 Kč) za milion tokenů u GPT-4.1 Mini.

Stále těsnější a těsnější modelové války

Tato nová bitva v aréně umělé inteligence potvrzuje, že konkurence je aktivnější než kdykoli předtím. OpenAI se zlepšila a GPT-4.1 je jedním z jejích dosud nejsilnějších modelů. Při srovnání s ostatními hráči na trhu se však objevují závažné nesrovnalosti v ekonomické efektivitě i technickém výkonu.

To, co bylo kdysi samozřejmostí – OpenAI se s každým novým modelem dostává na první místo v žebříčku – se již nezdá být zaručeno. K tomu se přidává nenápadné stažení modelu GPT-4.5, který mizí, aniž by zanechal znatelnou stopu.

GPT-4.1 Benchmark Performance Compared to Leading Models
byu/mw11n19 insingularity

Mezitím modely jako Claude 3.5 a 3.7 nadále zlepšují svůj výkon a v některých úlohách se dokonce přibližují lidské úrovni, což rovněž vytváří tlak na OpenAI.

Vše nasvědčuje tomu, že OpenAI není z hlediska vydávání modelů v nejlepší kondici. Přestože pokračuje v inovacích, už nevede žebříčky jako kdysi a není schopna se jasně odlišit cenou ani kvalitou. Stažení verze GPT-4.5 a výsledky verze GPT-4.1 otevírají novou etapu, v níž zřejmě udává tempo konkurence v čele se společnostmi Google a Anthropic.