OpenAI může tiše závidět: Videogenerátor od Googlu nastavuje nové hranice AI

Nástroj Veo 3 přichází s nativní integrací zvuku.

Google I/O 2025 se nesl téměř výhradně ve znamení umělé inteligence a významných pokroků, kterých společnost dosahuje. Kromě vylepšení modelů Gemini a představení nového způsobu vyhledávání obsahu ve svém vyhledávači Google překvapil uvedením Veo 3, svého nového nástroje pro generování videa.

Veo 3 představuje obrovský skok v oblasti generování videí pomocí umělé inteligence a nechává OpenAI a její model Sora v ohrožené pozici. Už se nejedná o krátké klipy s vizuálními artefakty. Nyní se generují komplexní scény s plynulými pohyby, vynikající vizuální soudržností a realističností, která nás občas nutí pochybovat, zda bylo video nahráno ve skutečnosti, či nikoliv.

Dosud sdílené výtvory ukazují hyperrealistické krajiny s přirozeným stylem, scény s několika postavami, které na sebe vzájemně působí, a působivou úroveň detailů. Co je však opravdu výrazným rozdílem, je nativní integrace vysoce kvalitního zvuku. Zatímco Sora od OpenAI se stále soustředí pouze na vizuální stránku, Google šel ještě o krok dál a umožňuje generovat zvukové stopy a dokonce i dialogy mezi postavami, které dokonale ladí s prohlíženými obrázky.

Sociální sítě zaplavily příklady, které tento realismus ukazují. Uživatel @fofrAI na X zveřejnil několik úžasných videí. V jednom z nich generuje scénu komika vystupujícího v malém sále. Výsledek je nejen vizuálně přesvědčivý, ale zahrnuje i samotný vtip vyprávěný syntetickým hlasem, takže generuje scénu, která by klidně mohla vypadat jako nahraná ve skutečnosti. V jiné publikaci zkombinoval generování videa, textu na obrazovce a zvuku ve výsledku, ze kterého spadne brada.

> A man is running through a beautiful summer park at dawn, he is out of breath, he slows and stops, looks at the camera and says, while panting, "Run AI with an API. Use Replicate", then he carries on running. Then "Replicate" text fades into view at the end

Seems like the… https://t.co/ceQWQKO4XK pic.twitter.com/6kKBVWRk0L
— fofr (@fofrAI) May 20, 2025

Úroveň dokonalosti, které Veo 3 dosáhl, vyvolala debatu: do jaké míry budeme schopni rozlišit video generované umělou inteligencí od videa zaznamenaného kamerou? Jedním z příkladů, které se staly virálními, je video koně, který vstoupí do baru a požádá číšníka o trochu sena. Scéna je sice absurdní, ale překvapivě realistická.

Odtud už se meze fantazii nekladou. Mnoho uživatelů již používá Veo 3 a Flow – další nástroj představený na I/O – ke kombinování vygenerovaných klipů a vytváření malých filmových děl. A to vše v pozoruhodné kvalitě a za velmi nízkou cenu.

Sora: Promarněná příležitost pro OpenAI

Společnost OpenAI mezitím zaznamenala, že význam jejího kdysi opěvovaného modelu Sora slábne. Ačkoli i nadále nabízí pozoruhodné vizuální výsledky, absence integrace zvuku – alespoň nativně – znamenala jasnou nevýhodu ve srovnání s návrhem společnosti Google. To, že Google jako první dosáhl umělé inteligence videa s integrovaným zvukem, je bezpochyby strategický skok vpřed. I když zatím pouze pro Spojené státy a ve svém modelu Ultra.

Až dosud se zdálo, že Google v mnoha klíčových aspektech vývoje AI zaostává. S Bardem oproti ChatGPT přišel o několik měsíců později a funkce přidával poněkud opatrněji. S aplikací Veo 3 se však snažil změnit názor: už není jen konkurentem, který drží krok, ale tím, kdo udává tempo.

Tento vývoj představuje novou kapitolu ve zběsilém závodě o vedoucí postavení v oblasti umělé inteligence. Společnosti jako Google, OpenAI, Microsoft a Anthropic spolu každý den soupeří o uvedení převratnějších a užitečnějších modelů. A přestože je v oblasti generativní umělé inteligence videa stále co zkoumat, to, co společnost Google předvedla s modelem Veo 3, nás přibližuje k budoucnosti, kdy bude stále obtížnější rozlišit hranici mezi skutečným a syntetickým. A učinil tak rychlostí, kterou jsme, upřímně řečeno, tak brzy nečekali.

With Veo 3 and Flow out in the world, here's a few examples of videos I've created with Veo 3.

The first video is an example of the incredible voice/audio capabilities. The second one is a test of doing a longer form video (edited in Premiere).

Generated with Veo. pic.twitter.com/ZfBX8p5SBI
— Martin Nebelong (@MartinNebelong) May 20, 2025

Dopad Veo 3 na zábavní průmysl

Uvedení Veo 3 na trh vyvolalo nadšení nejen mezi běžnými uživateli, ale upoutalo také pozornost zábavního průmyslu. Filmoví a televizní producenti zkoumají, jak by tato technologie mohla změnit tvorbu obsahu, snížit náklady a zkrátit dobu výroby. Schopnost generovat realistické scény bez nutnosti fyzických kulis by mohla způsobit revoluci ve způsobu tvorby filmů a seriálů a umožnit větší kreativní experimentování.

Integrace vysoce kvalitního zvuku navíc otevírá nové možnosti pro tvorbu interaktivního obsahu, jako jsou videohry a zážitky ve virtuální realitě. Schopnost generovat dialogy a zvukové efekty v reálném čase by mohla vést k nové éře pohlcujícího vyprávění, kdy se hráči a diváci budou cítit součástí příběhu.

Ve vzdělávání by Veo 3 mohl být využit k vytváření poutavějších simulací a výukových zážitků. Pedagogové by mohli vytvářet personalizovaný vizuální a zvukový obsah pro své studenty, čímž by se výuka stala dynamičtější a přístupnější.

Veo 3 zkrátka představuje nejen působivý technologický průlom, ale má také potenciál proměnit řadu odvětví, od zábavy po vzdělávání, a otevřít tak svět možností, které teprve začínáme objevovat.