Sora AI k nám zatím nedorazila, zaujmout Čechy tak zkouší konkurence

  • 15. 12. 2024
  • Zdroj obrázku: Google DeepMind / Pexels
Sora AI k nám zatím nedorazila, zaujmout Čechy tak zkouší konkurence

Oči všech se stále upírají na OpenAI, ale Google ukazuje větší ambice.


V posledních dnech nabídli OpenAI i Google novinky o svých hlavních AI: ChatGPT (a Sora) na jedné straně a Gemini na straně druhé. Zatímco společnost vedená Samem Altmanem drží v závodě o umělou inteligenci prvenství, Google je povinen být ambicióznější a překonat laťku nastavenou svým rivalem. A vše nasvědčuje tomu, že tentokrát zaútočí Google, kterému se díky uvedení Gemini 2.0 Flash podaří označit milník ve vývoji multimodální AI (kombinace textu, obrazu, videa a zvuku v reálném čase) a nově definovat způsob, jakým komunikujeme s technologiemi. Přitom samozřejmě také zintenzivňuje konkurenční boj mezi oborovými giganty.

Gemini 2.0 Flash: multimodální revoluce v reálném čase

Uvedení Gemini 2.0 Flash představuje změnu paradigmatu v oblasti umělé inteligence. Uživatelé nyní mohou v reálném čase komunikovat s videem pořízeným z mobilního telefonu, což jsme dříve viděli pouze v ukázkách. Prostřednictvím služby Google AI Studio si tuto technologii, která slibuje revoluční využití ve vzdělávání, tvorbě obsahu a dalších oblastech, může vyzkoušet každý.

Související článek

WhatsApp přesvědčuje uživatele, aby komunikovali s AI chatboty
WhatsApp přesvědčuje uživatele, aby komunikovali s AI chatboty

Byla představena budoucí verze aplikace WhatsApp, ve které se aplikace bude snažit přimět uživatele, aby začali komunikovat s umělou inteligencí v každodenním životě. Budete tak mít k dispozici více informací.

Co Gemini 2.0 nabízí a co je na něm tak zvláštního?

Začněme odpovědí na závěr: jeho systém analýzy videa v reálném čase je zdarma, je k dispozici na počítači a lze jej používat v EU, zatímco konkurenční funkce ChatGPT nic z toho neumí. Gemini míří vysoko, ale pomůže vám s nejrůznějšími úkoly. Co tedy Gemini 2.0 nabídne svým uživatelům?

  1. Multimodální interakce: Gemini 2.0 umožňuje uživatelům komunikovat s umělou inteligencí prostřednictvím fotoaparátu zařízení, sdílení obrazovky a dokonce i hlasových příkazů. Umělá inteligence dokáže současně interpretovat vizuální i textový kontext – od analýzy prezentací PowerPoint až po návrhy na vylepšení e-mailů.
  2. Rychlost: Přestože je verze Flash nejzákladnější, její výkon je již nyní působivý. Nabízí rychlost a pokročilé funkce, jako je identifikace pastí v prezentacích nebo poskytování kreativních alternativ v reálném čase.
  3. Zdarma a dostupný: Na rozdíl od konkurenčních prémiových nástrojů je Gemini 2.0 k dispozici zdarma v Google AI Studio. Tím se demokratizuje přístup k pokročilým technologiím, které byly dříve omezeny na ty, kteří si mohli dovolit zaplatit vysoké náklady.

Díky rychlosti a nízkým provozním nákladům je Gemini 2.0 Flash přístupný jak jednotlivým vývojářům, tak podnikům: jeho živé rozhraní API umožňuje snadnou integraci s podnikovými aplikacemi, což jej staví do pozice klíčového zdroje pro odvětví, která chtějí zefektivnit pracovní postupy a snížit náklady. Uvedení Gemini 2.0 Flash staví společnost Google do pozice momentálního lídra v závodě o multimodální umělou inteligenci.

ChatGPT versus Gemini

Spuštění Gemini 2.0 Flash se neděje ve vzduchoprázdnu. Jeho přímý konkurent také učinil významný pokrok na multimodálním poli, když uvedl svůj „pokročilý hlasový režim“ s viděním v reálném čase, který umožňuje analýzu videa a sdílení obrazovky s jeho ChatGPT.

Zprávy týkající se „pokročilého hlasového režimu“ společnosti OpenAI vypovídají o intuitivním a praktickém produktu zaměřeném na každodenní interakci a mobilní použití. Vítězem se však prozatím stává společnost Google, neboť se zdá, že Gemini 2.0 Flash vede z hlediska funkčnosti a dlouhodobého potenciálu, protože nabízí podobné možnosti analýzy videa jako jeho konkurent OpenAI, ale s větší funkční hloubkou; Gemini dokáže nejen identifikovat objekty a popisovat scénáře, ale také generovat obrázky, spouštět kód a provádět složitější akce na základě toho, co „vidí“.

Proto již kolují videa Gemini 2.0 Flash, která tvůrce obsahu vedou při používání složitého softwaru, jako je Adobe Premiere, a ukazují podrobné kroky pro provádění úprav i pro začínající uživatele:

OpenAI zkrátka nabízí jednodušší prostředí pro běžné uživatele (přátelské a přístupné běžnému uživateli, s rozhraním pouze pro mobilní zařízení, které se podobá tradičnímu videohovoru), zatímco Google se specializovanějšími nástroji cílí na vývojáře a podniky.

Zdroje článku: blog.google

#