Každou hodinu obdrží přibližně 57 milionů dotazů na Googlu odpověď vygenerovanou umělou inteligencí, která obsahuje nesprávné informace.
Toto číslo, 1,369 miliardy odpovědí denně a 500 miliard ročně, vyplývá z nedávné analýzy zveřejněné deníkem The New York Times, která zpochybňuje spolehlivost AI Overviews, náhledů generovaných umělou inteligencí, které vyhledávač umisťuje nad tradiční organické výsledky.
Za 90procentní úspěšností se skrývají alarmující čísla.
Newyorské noviny odhadují, že nástroj reaguje správně v 90 procentech případů. Jinými slovy, selže v jedné z deseti odpovědí. Tento poměr může znít přijatelně, dokud jej neporovnáte s objemem vyhledávání: podle odhadů novin zpracuje Google ročně kolem pěti bilionů vyhledávání, takže oněch zdánlivých deset procent znamená záplavu nepřesností, kterou lze jen těžko ignorovat.
Prostředí vyhledávače Google se zásadně proměnilo. Nyní je běžné, že odpověď generovaná umělou inteligencí je na prvním místě na stránce s výsledky. Společnosti, které tyto modely vyvíjejí, samy přiznávají, že dělají chyby, ale pohodlí již zpracovaných informací oslovuje miliony uživatelů.
Jak se měřila přesnost
Deník New York Times spolupracoval se společností Oumi, která se specializuje na vývoj modelů umělé inteligence. Hodnocení bylo založeno na testu SimpleQA, který vytvořila společnost OpenAI v roce 2024 a jenž se stal měřítkem pro měření faktické spolehlivosti generativních systémů, jako je Gemini, umělá inteligence, která pohání AI Overviews. SimpleQA se skládá z více než 4 000 otázek, jejichž odpovědi jsou ověřitelné a mohou být položeny přímo modelu.
Společnost Oumi začala tento test používat v loňském roce, kdy byla nejpokročilejší verzí Gemini 2.5 společnosti Google. V té době byla míra úspěšnosti 85 procent. Po upgradu vyhledávače na verzi Gemini 3 byl test zopakován a přesnost se zvýšila na 91 procent.
Chyby ilustrující problém
Analýza obsahuje konkrétní případy, které upozorňují na omezení nástroje. Na otázku, kdy se z bývalého domu Boba Marleyho stalo muzeum, uvedla AI Overviews jako zdroj tři webové stránky: dvě z nich datum ani nezmínily. Třetí, Wikipedia, nabízela dva protichůdné roky a systém vybral právě ten nesprávný.
Další pozoruhodný příklad se týká violoncellisty Yo Yo Ma. Zadaná otázka se ptala na datum jeho uvedení do Síně slávy klasické hudby. Ačkoli AI Overviews správně odkázal na webové stránky organizace, kde se datum objevilo, uvedl, že žádná taková síň slávy neexistuje.
Metodika otázek Google
Zástupci vyhledávače závěry studie nesdílejí. Mluvčí společnosti Google Ned Adriance novinám řekl, že SimpleQA obsahuje nesprávné informace, a proto zkresluje výsledky. Podle Adriance společnost používá variantu nazvanou SimpleQA Verified, která pracuje s menším souborem otázek, jež prochází přísnější kontrolou. „Tato studie je nevěrohodná. Neodráží to, co lidé na Googlu skutečně vyhledávají,“ řekl.
Společnost Google také upřesnila, že AI Overviews nespoléhá na jediný model AI, ale používá „správný“ model v závislosti na typu dotazu. Stále spuštěný Gemini 3.1 Pro by sice poskytoval přesnější odpovědi, ale bylo by to příliš pomalé a nákladné. Aby se výsledky načítaly rychle, spoléhá se náhled na modely Gemini Flash, které jsou rychlejší, ale obětují přesnost, a vše nasvědčuje tomu, že tomu tak je u většiny vyhledávání. Spolehlivost přehledů AI nakonec do značné míry závisí na náhodě.
