OpenAI může tiše závidět: Videogenerátor od Googlu nastavuje nové hranice AI

OpenAI může tiše závidět: Videogenerátor od Googlu nastavuje nové hranice AI

Zdroj obrázku: Robert Way / Shutterstock

Nástroj Veo 3 přichází s nativní integrací zvuku.


Google I/O 2025 se nesl téměř výhradně ve znamení umělé inteligence a významných pokroků, kterých společnost dosahuje. Kromě vylepšení modelů Gemini a představení nového způsobu vyhledávání obsahu ve svém vyhledávači Google překvapil uvedením Veo 3, svého nového nástroje pro generování videa.

Veo 3 představuje obrovský skok v oblasti generování videí pomocí umělé inteligence a nechává OpenAI a její model Sora v ohrožené pozici. Už se nejedná o krátké klipy s vizuálními artefakty. Nyní se generují komplexní scény s plynulými pohyby, vynikající vizuální soudržností a realističností, která nás občas nutí pochybovat, zda bylo video nahráno ve skutečnosti, či nikoliv.

Dosud sdílené výtvory ukazují hyperrealistické krajiny s přirozeným stylem, scény s několika postavami, které na sebe vzájemně působí, a působivou úroveň detailů. Co je však opravdu výrazným rozdílem, je nativní integrace vysoce kvalitního zvuku. Zatímco Sora od OpenAI se stále soustředí pouze na vizuální stránku, Google šel ještě o krok dál a umožňuje generovat zvukové stopy a dokonce i dialogy mezi postavami, které dokonale ladí s prohlíženými obrázky.

Související článek

Jeden klik a pár slov: Vznikne svět, kde se realita mísí s fantazií
Jeden klik a pár slov: Vznikne svět, kde se realita mísí s fantazií

Funkce Storybook umožňuje během několika sekund vytvořit personalizované příběhy s ilustracemi a vyprávěním pomocí umělé inteligence.

Sociální sítě zaplavily příklady, které tento realismus ukazují. Uživatel @fofrAI na X zveřejnil několik úžasných videí. V jednom z nich generuje scénu komika vystupujícího v malém sále. Výsledek je nejen vizuálně přesvědčivý, ale zahrnuje i samotný vtip vyprávěný syntetickým hlasem, takže generuje scénu, která by klidně mohla vypadat jako nahraná ve skutečnosti. V jiné publikaci zkombinoval generování videa, textu na obrazovce a zvuku ve výsledku, ze kterého spadne brada.

Úroveň dokonalosti, které Veo 3 dosáhl, vyvolala debatu: do jaké míry budeme schopni rozlišit video generované umělou inteligencí od videa zaznamenaného kamerou? Jedním z příkladů, které se staly virálními, je video koně, který vstoupí do baru a požádá číšníka o trochu sena. Scéna je sice absurdní, ale překvapivě realistická.

Odtud už se meze fantazii nekladou. Mnoho uživatelů již používá Veo 3 a Flow – další nástroj představený na I/O – ke kombinování vygenerovaných klipů a vytváření malých filmových děl. A to vše v pozoruhodné kvalitě a za velmi nízkou cenu.

Sora: Promarněná příležitost pro OpenAI

Společnost OpenAI mezitím zaznamenala, že význam jejího kdysi opěvovaného modelu Sora slábne. Ačkoli i nadále nabízí pozoruhodné vizuální výsledky, absence integrace zvuku – alespoň nativně – znamenala jasnou nevýhodu ve srovnání s návrhem společnosti Google. To, že Google jako první dosáhl umělé inteligence videa s integrovaným zvukem, je bezpochyby strategický skok vpřed. I když zatím pouze pro Spojené státy a ve svém modelu Ultra.

Až dosud se zdálo, že Google v mnoha klíčových aspektech vývoje AI zaostává. S Bardem oproti ChatGPT přišel o několik měsíců později a funkce přidával poněkud opatrněji. S aplikací Veo 3 se však snažil změnit názor: už není jen konkurentem, který drží krok, ale tím, kdo udává tempo.

Tento vývoj představuje novou kapitolu ve zběsilém závodě o vedoucí postavení v oblasti umělé inteligence. Společnosti jako Google, OpenAI, Microsoft a Anthropic spolu každý den soupeří o uvedení převratnějších a užitečnějších modelů. A přestože je v oblasti generativní umělé inteligence videa stále co zkoumat, to, co společnost Google předvedla s modelem Veo 3, nás přibližuje k budoucnosti, kdy bude stále obtížnější rozlišit hranici mezi skutečným a syntetickým. A učinil tak rychlostí, kterou jsme, upřímně řečeno, tak brzy nečekali.

Dopad Veo 3 na zábavní průmysl

Uvedení Veo 3 na trh vyvolalo nadšení nejen mezi běžnými uživateli, ale upoutalo také pozornost zábavního průmyslu. Filmoví a televizní producenti zkoumají, jak by tato technologie mohla změnit tvorbu obsahu, snížit náklady a zkrátit dobu výroby. Schopnost generovat realistické scény bez nutnosti fyzických kulis by mohla způsobit revoluci ve způsobu tvorby filmů a seriálů a umožnit větší kreativní experimentování.

Integrace vysoce kvalitního zvuku navíc otevírá nové možnosti pro tvorbu interaktivního obsahu, jako jsou videohry a zážitky ve virtuální realitě. Schopnost generovat dialogy a zvukové efekty v reálném čase by mohla vést k nové éře pohlcujícího vyprávění, kdy se hráči a diváci budou cítit součástí příběhu.

Ve vzdělávání by Veo 3 mohl být využit k vytváření poutavějších simulací a výukových zážitků. Pedagogové by mohli vytvářet personalizovaný vizuální a zvukový obsah pro své studenty, čímž by se výuka stala dynamičtější a přístupnější.

Veo 3 zkrátka představuje nejen působivý technologický průlom, ale má také potenciál proměnit řadu odvětví, od zábavy po vzdělávání, a otevřít tak svět možností, které teprve začínáme objevovat.

Zdroje článku

x.com, cnbc.com, zdnet.com
#