Po letech zaostávání v oblasti AI se Google se svou Gemini rozjel na plné obrátky

Android a Chrome dokázaly, že když to Google myslí vážně, dokáže se v rekordně krátkém čase dostat ze zaostalého na vedoucí postavení. A právě tento impuls nyní uplatňuje v oblasti umělé inteligence.

Po léta byl Google „spícím obrem“ v oblasti umělé inteligence. Přestože má na kontě některé z nejvlivnějších průlomových objevů v oboru – od původního výzkumu Transformerů až po generativní umělou inteligenci, rozhodla se být opatrná: její inovace byly odsunuty do laboratoře, zatímco ostatní se ujali vedení v závodě o dominanci generativní umělé inteligence.

Společnost Google však byla průkopníkem ve vývoji technologií AI, což se projevilo vytvořením open source softwarové knihovny TensorFlow, která usnadnila vývoj modelů hlubokého učení po celém světě. Přesto jeho konzervativní přístup k uvádění komerčních produktů AI umožnil jiným společnostem, jako je OpenAI, aby upoutaly pozornost veřejnosti inovativními produkty.

Tato éra je však u konce. Společnost Google totiž aktivovala svou mašinérii na plný výkon a postupuje závratným tempem.

Od paralýzy k červenému kódu

Bod zlomu byl jasný: listopad 2022, kdy byl spuštěn ChatGPT. Lavina uživatelů a fascinace médií zaskočila společnost Google, která se přestože již měla LaMDA – technicky pokročilý konverzační model – zdráhala jej spustit z obavy, že to ovlivní její vyhledávací (a reklamní) byznys.

ChatGPT dokázal, že pro konverzační aplikace s umělou inteligencí existuje obrovský trh, a jeho úspěch donutil společnost Google přehodnotit svou strategii. Společnost si uvědomila, že si již nemůže dovolit zaostávat v oblasti, která je pro budoucnost technologií tak zásadní.

Tato reakce strategické zdrženlivosti ji nakonec jako značku přišla draho: když Google konečně zareagoval a pokusil se dohnat ztrátu, učinil tak s Bardem… ale brzy se ukázalo, že uvedení na trh bylo uspěchané a že produkt zklamal. „Červený kód“, který vyhlásil Sundar Pichai na konci roku 2022, znamenal radikální obrat: celá společnost se začala restrukturalizovat, aby se zaměřila na umělou inteligenci.

„Červený kód“ byl víc než jen budíček; šlo o strategický posun, který společnost Google přiměl k integraci AI do všech jejích produktů a služeb a zajistil, aby každý aspekt jejího digitálního ekosystému byl připraven konkurovat ve světě, kterému stále více dominuje umělá inteligence.

Éra Gemini: Technická síla, cestovní rychlost

A od konce roku 2024 je změna hmatatelná: ekosystém umělé inteligence společnosti Google se nejen diverzifikoval, ale také se posunul o několik stupňů výše, co se týče kvality. S verzí Gemini 2.5 Pro společnost splnila (a překonala) nejnáročnější měřítka v oboru. Tato verze nejenže konkuruje GPT-4, ale díky integraci s vlastními čipy (TPU v7 „Ironwood“) ji překonává rychlostí, náklady i kontextovou kapacitou.

Uvedení TPU v7 „Ironwood“ je významným krokem vpřed. Tyto čipy jsou speciálně navrženy pro optimalizaci výkonu modelů umělé inteligence, což společnosti Google umožňuje poskytovat rychlejší a efektivnější služby. Možnost přizpůsobení hardwaru navíc poskytuje společnosti Google jedinečnou konkurenční výhodu, protože jí umožňuje přizpůsobit své technologie konkrétním potřebám modelů AI.

Všudypřítomnost systému Gemini

Verze Gemini Flash, určená pro mobilní zařízení a prohlížeče, umožňuje téměř okamžitou odezvu a je nyní k dispozici všem uživatelům systémů Android a iOS a může fungovat i při aktivním fotoaparátu a displeji mobilního telefonu a vizuálně interpretovat prostředí uživatele.

Schopnost Gemini Flash komunikovat s vizuálním prostředím uživatele představuje významný pokrok ve způsobu, jakým mobilní zařízení mohou chápat své okolí a reagovat na něj. To otevírá dveře inovativním aplikacím v oblastech, jako je rozšířená realita a vizuální asistence pro osoby se zdravotním postižením.

A nejde jen o rychlost. Umělá inteligence společnosti Google má nyní svůj vlastní hlas. A to doslova: díky pokrokům v systému Chirp 3 mohou modely jako Gemini vést v reálném čase konverzaci s realistickým a výrazným hlasem. Gemini se tak stává skutečným virtuálním asistentem, kterého lze vložit do mobilních zařízení i do prohlížečů Chrome, Gmail, Dokumenty, Kalendář a dalších.

Schopnost Chirpu 3 generovat realistické a expresivní hlasy je důležitým krokem k vytvoření virtuálních asistentů, kteří jsou nejen funkční, ale také příjemní na používání. To by mohlo změnit způsob, jakým komunikujeme s technologiemi, a učinit interakci s digitálními zařízeními přirozenější a lidštější.

Kreativní arzenál

Společnost Google se nespokojí s pouhým vylepšením svého modelu generování textu. Jeho ofenziva se rozšiřuje i na vizuální, zvukové a narativní prvky:

Image 4 nabízí fotorealistické vizuální výsledky s dokonale vykresleným textem, zvýšenou rychlostí a rozlišením až 2K, což je ideální pro prezentace a design.
Veo 3, jeho generativní model videa, je milníkem: je první s nativním generováním zvuku, včetně dialogů, hudby a ambientních efektů. Díky realistické fyzice a koherentnímu vizuálnímu vyprávění příběhu představuje vážnou hrozbu pro Soru, ekvivalentní model společnosti OpenAI.
Lyria 2 mezitím umožňuje vytvářet interaktivní hudbu v reálném čase s dynamickým ovládáním rytmu, harmonie a stylu.

Tyto modely jsou integrovány do Flow, filmového nástroje poháněného umělou inteligencí, který umožňuje vytvářet celé filmy z textu. Ambice společnosti Google je jasná: generativní tvorba by měla být dostupná komukoli, nejen programátorům.

Integrace těchto modelů do aplikace Flow představuje změnu paradigmatu v kreativní tvorbě a demokratizuje přístup k pokročilým nástrojům pro tvorbu obsahu. To by mohlo mít významný dopad na odvětví, jako je film, hudba a grafický design, a umožnit tvůrcům všech úrovní zkoumat nové formy vyjádření.

Jedním z nejinovativnějších produktů této nové éry umělé inteligence ve společnosti Google je NotebookLM, nástroj, který vysvětluje a shrnuje jakýkoli dokument tím, že jej promění v podcast namluvený hyperrealistickými syntetickými hlasy. Kombinuje porozumění textu, syntézu hlasu a automatické úpravy a pochvalně se o něm vyjádřily i takové osobnosti OpenAI, jako je Andrej Karpathy.

NotebookLM nejen usnadňuje přístup k informacím, ale také mění způsob, jakým konzumujeme psaný obsah, a činí informace přístupnějšími a poutavějšími pro širší publikum.

Comment
byu/FlashVirus from discussion
insingularity

Stručně řečeno: to vše se děje v rámci ekosystému, kde je Gemini již všudypřítomný, rozšířený v systémech Android, Chrome, Gmail, Mapy, Dokumenty, Prezentace… Myšlenka společnosti Google není taková, že by umělá inteligence byla samostatným produktem, ale že je přítomna v každém digitálním gestu uživatele.

Tato hluboká integrace AI do ekosystému společnosti Google nejen zlepšuje funkčnost jejích produktů, ale také zajišťuje, že uživatelé mají konzistentní a obohacenou zkušenost ve všech svých zařízeních a aplikacích.

Android a Chrome: Jak vypadá „cestovní rychlost“ společnosti Google

Abychom pochopili, co se nyní děje s Gemini a generativní AI, stačí se podívat do minulosti. Google již předvedl, co se stane, když aktivuje svůj nejambicióznější režim vývoje a nasazení: dva jasné příklady jsou Android a Chrome.

Android: Od nováčka k dominantnímu postavení za čtyři roky

Když se Android v roce 2008 objevil, byl to nevyzrálý a nevyladěný operační systém. Tempo mobilních inovací udával iPhone a mnozí považovali Android za opožděný pokus následovat Apple. Google však měl víc než jen odpověď: měl strategii pro budování ekosystému a především úžasnou rychlost iterace.

Rychlý vývoj systému Android byl poháněn jeho modelem otevřeného zdrojového kódu, který umožňoval výrobcům zařízení a vývojářům aplikací přispívat k růstu operačního systému. To nejen urychlilo jeho vývoj, ale také podpořilo živou komunitu, která byla motorem neustálých inovací.

Mezi lety 2008 a 2012 se systém Android změnil ze začínajícího projektu na nejpoužívanější mobilní operační systém na světě. Byl neustále aktualizován, absorboval nejlepší nápady z trhu, nezadržitelným tempem uváděl na trh nové funkce a získával strategické spojence, jako jsou společnosti Samsung, HTC a LG.

Úspěch systému Android byl dán nejen jeho rychlým vývojem, ale také schopností přizpůsobit se potřebám uživatelů a výrobců. Tato flexibilita umožnila systému Android stát se platformou pro širokou škálu zařízení, od chytrých telefonů po tablety a chytré hodinky.

Klíčové: Google nezůstal stát na místě. Poučil se ze svých chyb, rychle vylepšil rozhraní, optimalizoval výkon a rozšířil své možnosti.

Případ systému Android ukazuje, že když Google přestane experimentovat a začne rozhodně realizovat, produkty se vyvíjejí skokově. Stejná logika se dnes uplatňuje i v případě Gemini: za necelý rok se z mlhavého příslibu stal funkční asistent v miliardách zařízení.

Příběh systému Android je důkazem síly neustálých inovací a přizpůsobivosti a slouží jako vzor pro vývoj Gemini a dalších iniciativ společnosti Google v oblasti umělé inteligence.

Chrome: Od lehké alternativy k faktickému standardu

Dalším paradigmatickým případem je Chrome, který byl uveden na trh v roce 2008 v době, kdy mu dominovaly Internet Explorer a Mozilla Firefox. Ve svých počátcích byl Chrome minimalistickým prohlížečem, který se zaměřoval na rychlost a jednoduchost. Brzy se však stal širokou platformou s ústřední rolí ve strategii společnosti.

Chrome způsobil revoluci na trhu prohlížečů tím, že zaváděl časté aktualizace a neustálé vylepšování, což zajistilo, že byl vždy na špici webových technologií. Jeho zaměření na rychlost a bezpečnost také přilákalo miliony uživatelů, kteří hledali plynulejší a bezpečnější prohlížení.

Společnost Google aktualizovala Chrome každých šest týdnů (v té době to byla revoluce) a integrovala do něj technologie, jako jsou WebGL, V8, rozšíření, cloudová synchronizace a vývojářské nástroje. Během několika let získal nejen podíl na trhu, ale také změnil standardy vývoje webových stránek. Dnes je většina webových aplikací navržena s ohledem na kompatibilitu s prohlížečem Chrome.

Schopnost prohlížeče Chrome stanovit nové standardy ve vývoji webových aplikací měla trvalý dopad na toto odvětví a zajistila, že webové aplikace jsou rychlejší, bezpečnější a přístupnější všem uživatelům.

Stejný přístup je hnací silou implementace Gemini v produktech, jako je Gmail, Google Docs, Chrome a samotný Android: to, co začalo jako pouhá obranná reakce na úspěch ChatGPT, mění spotřebitelský software společnosti Google od základu.

Integrace Gemini do ekosystému společnosti Google nejen zlepšuje funkčnost jejích produktů, ale také zajišťuje, že uživatelé mají konzistentní a bohaté zkušenosti ve všech svých zařízeních a aplikacích.

Svaly, které přesahují rámec softwaru

Zatímco OpenAI se spoléhá na Microsoft Azure a Meta od Nvidie, Google ovládá celý svůj hardwarový stack. Jeho vlastní čipy (TPU), infrastruktura Google Cloud a instalovaná základna více než 2 miliard uživatelů v produktech, jako jsou YouTube, Mapy, Android a Gmail, mu dávají strategickou výhodu, které se žádný jiný hráč v oboru nemůže rovnat.

Schopnost společnosti Google ovládat hardware i software jí umožňuje optimalizovat každý aspekt jejích služeb umělé inteligence a zajistit jejich rychlost, efektivitu a vysokou míru integrace. Tato strategická výhoda je klíčová na trhu, kde rychlost a efektivita rozhodují o úspěchu.

A aby toho nebylo málo, vstoupila také do války o otevřený zdrojový kód, který byl donedávna výhradní doménou společnosti Meta. S řadou Gemma nabízí Google vývojářům bezplatné a výkonné modely a reaguje tak na vzestup projektů, jako jsou LLaMA nebo Mistral.

Vstup společnosti Google do open source arény s řadou Gemma nejen rozšiřuje možnosti pro vývojáře, ale také podporuje inovace a spolupráci v celém odvětví umělé inteligence.

Nejnovější (velké) výzvy

Přesto má společnost Google stále ještě jeden účet k vyřízení: vnímání veřejnosti. Zatímco OpenAI promění každou ukázku ve virální podívanou, Google uvádí na trh velkolepé průlomy, které zůstávají bez povšimnutí. V oblasti budování značky hraje nadále defenzivní hru: pro mnohé je „AI“ stále synonymem pro ChatGPT, přestože Gemini dosahuje lepších výsledků téměř ve všech ukazatelích.

Vnímání veřejnosti je pro Google velkou výzvou, protože viditelnost a rozpoznatelnost značky jsou klíčové pro přilákání nových uživatelů a udržení loajality těch stávajících. Google bude muset najít způsob, jak efektivně komunikovat své pokroky v oblasti umělé inteligence, aby toto vnímání změnil.

To je poslední velká překážka: získat si mysl a srdce uživatelů. Nestačí být technicky vynikající, je třeba být také kulturně relevantní.

Aby toho Google dosáhl, bude muset nejen zdokonalovat své produkty, ale také vytvářet zážitky, které budou s uživateli rezonovat na emocionální a kulturní úrovni a zajistí, aby jeho technologie byla nejen užitečná, ale také inspirující.

Google čelí antimonopolním vyšetřováním v Evropě a USA, zejména kvůli své dominanci v oblasti vyhledávání a reklamy. Někteří analytici naznačují, že může být dokonce nucen zbavit se klíčových aktiv, jako je například Chrome. Expanze Gemini v těchto produktech by se mohla stát zbraní nebo problémem v závislosti na tom, jak se bude vyvíjet regulační politika.

Tlak regulačních orgánů je pro společnost Google neustálou výzvou a její schopnost orientovat se v tomto složitém prostředí bude mít zásadní význam pro její budoucí úspěch. Společnost bude muset úzce spolupracovat s regulačními orgány, aby zajistila, že její obchodní praktiky budou spravedlivé a transparentní.