Gemini AI prostřednictvím mobilních telefonů vidí a vnímá svět okolo sebe

Gemini AI prostřednictvím mobilních telefonů vidí a vnímá svět okolo sebe

Zdroj obrázku: Primakov / Depositphotos

Gemini přidává do svého API nativní zvuk a možnost vidět skrze mobilní kameru.


Google I/O 2025 jasně ukázal jednu věc: Gemini je středobodem celé strategie umělé inteligence společnosti Google. Společnost zdvojnásobila svůj závazek vůči této technologii představením důležitých nových funkcí, včetně nového plánu předplatného s názvem Gemini AI Ultra za cenu 249,99 USD (5.500 Kč) měsíčně, který překonal všechny tržní mantinely.

Kromě cenové kontroverze však akce přinesla i nové funkce a možnosti, jejichž cílem je učinit Gemini AI výkonnější, užitečnější a integrovanější než kdykoli předtím. Kromě toho Google oznámil příchod Gemini 2.5 Flash všem uživatelům, poté, co byl v předběžném náhledu je efektivnější model tím, že snižuje náklady na token.

Gemini 2.5: Jak se zlepšil model společnosti Google

Nativní zvuk. Dosud bylo možné s Gemini mluvit hlasem, ale odpovědi byly poskytovány pouze písemně. To se mění s integrací nativního zvuku, který umožňuje konverzaci s umělou inteligencí v reálném čase. V podstatě jde o to, aby interakce byla přirozená, rychlá a zcela verbální, jako by šlo o tradičního inteligentního asistenta… ale mnohem pokročilejšího.

Související článek

Jeden klik a pár slov: Vznikne svět, kde se realita mísí s fantazií
Jeden klik a pár slov: Vznikne svět, kde se realita mísí s fantazií

Funkce Storybook umožňuje během několika sekund vytvořit personalizované příběhy s ilustracemi a vyprávěním pomocí umělé inteligence.

Gemini Live. Nová funkce Gemini Live, která je k dispozici v systémech Android a iOS, umožní sdílet obrazovku zařízení nebo aktivovat kameru, aby AI mohla interpretovat, co vidí. To otevírá svět možností, od pomoci zrakově postiženým lidem porozumět svému okolí až po poskytování kontextových informací o objektech nebo místech v reálném čase.

Překvapivě bude tato funkce zdarma, bez nutnosti tarifu Ultra. Bude se také integrovat s dalšími nástroji v ekosystému Google, jako je například Kalendář Google, aby bylo možné okamžitě generovat události, připomenutí nebo úkoly na základě toho, co Gemini zjistí.

Tvorba vizuálních aktiv pomocí Image 4 a videa pomocí Veo 3. Funkce, která bude prozatím vyhrazena pouze pro uživatele Google AI Ultra ve Spojených státech. Image 4 je nový model generování obrázků, který slibuje vysoce kvalitní výstup a rychlé vykreslování podnětů. To by mohlo způsobit revoluci ve způsobu, jakým tvůrci obsahu generují obrázky pro své projekty a výrazně zkrátit dobu výroby.

Veo 3 je mezitím nový model generování videa, který podle společnosti Google jako první nativně podporuje hlasové efekty nebo dokonce vytváření skutečného podcastu. Pro tento model je však nutné být ve Spojených státech a mít také předplatné Google AI Ultra. Tento průlom by mohl změnit zábavní a vzdělávací průmysl a usnadnit tvorbu vysoce kvalitního multimediálního obsahu.

Deep Research je obohacen o vlastní dokumenty. Nástroj Deep Research společnosti Gemini nyní umožňuje nahrávat soubory PDF a obrázky, takže AI může pracovat přímo s našimi dokumenty. To umožní přesnější a personalizovanější výzkum s využitím vlastních materiálů jako základu pro analýzu. Představte si, že můžete bez námahy analyzovat velké objemy dat nebo provádět podrobná srovnání.

Gemini v prohlížeči Chrome. Od zítřka budou moci uživatelé tarifu Ultra v USA používat Gemini přímo v prohlížeči Google Chrome. Jedná se o další krok k plné integraci umělé inteligence, která umožní analyzovat obsah navštívených webových stránek a provádět úkoly přímo z prohlížeče, jako je inteligentní vyhledávání, shrnutí nebo navrhované akce. Schopnost Gemini porozumět informacím a zpracovávat je v reálném čase by mohla změnit způsob, jakým procházíme internet.

Gemini se šíří napříč ekosystémem Google

Z vylepšení těží zejména Gmail. Gemini bude nyní schopen analyzovat celou historii konverzace a generovat personalizované a kontextové odpovědi a nabídne také funkce, jako je inteligentní mazání nerelevantních e-mailů, rychlé plánování schůzek nebo potvrzení schůzky bez opuštění e-mailového vlákna. Tato integrace by mohla výrazně zvýšit produktivitu uživatelů díky automatizaci rutinních úkolů.

Gemini se také hlouběji integruje do Dokumentů a zejména do Prezentací, kde je přidán nástroj Google Vids. Díky němu lze jakoukoli prezentaci proměnit v poutavé video, automaticky generovat scénáře, hlasové komentáře, animace a dokonce upravovat méně dynamické části již nahraného videa, aby byla komunikace efektivnější. Tato funkce by mohla být užitečná zejména pro pedagogy a odborníky, kteří chtějí vytvářet vizuálně poutavý obsah, aniž by investovali příliš mnoho času.

Tento vývoj ukazuje, že společnost Google nechce zůstat pozadu v závodě o vedoucí postavení v oblasti generativní umělé inteligence. Gemini nyní nejen konkuruje ChatGPT nebo Claudovi v generování textů, ale snaží se být také průřezovým inteligentním asistentem, který žije v mobilu, v prohlížeči, ve schránce a dokonce i ve vašich prezentacích. To vše s obchodním modelem, který si troufá škálovat cenu až na 250 dolarů měsíčně.

Zdroje článku

zdnet.com
#