Řekněte sbohem mumlání: Google má novou AI apku, která z vás udělá řečníka

Řekněte sbohem mumlání: Google má novou AI apku, která z vás udělá řečníka

Zdroj obrázku: Photo by BoliviaInteligente on Unsplash

Diktovat text do mobilu a získat čistý výsledek bez typického váhání nebo téměř nesrozumitelných vět, to slibuje nová bezplatná aplikace, kterou Google právě vydal v App Store.


Jmenuje se Google AI Edge Eloquent a jejím hlavním lákadlem je, že automaticky odfiltruje bláboly jako „eh“, „mmm“ a automatické opravy uprostřed věty, a promění tak spontánní řeč v profesionálně vypadající text. Sama společnost Google jej představuje jako nástroj, který má odstranit rozdíl mezi tím, jak skutečně mluvíme, a textem, který bychom chtěli publikovat.

Místní nebo cloudové zpracování: je to na vás

Od ostatních asistentů text-to-speech se Eloquent liší tím, že nabízí dva režimy práce. Prioritní režim stahuje automatický model rozpoznávání řeči z rodiny Gemma přímo do telefonu, takže veškeré zpracování probíhá bez připojení k internetu. Naproti tomu režim „Cloud“ odesílá zvuk do modelů Gemini umístěných na serverech společnosti Google, které slouží k ladění textu. V praxi je lokální zpracování rychlé a zachovává soukromí zvuku, zatímco možnost „cloud“ může u složitých vět poskytnout o něco vybroušenější finální podobu.

Co přesně jsou modely Gemma?

Gemma je rodina generativních modelů umělé inteligence vytvořená společností Google, která má stejný technologický základ jako Gemini, ale jsou navrženy tak, aby je vývojáři a firmy mohli spouštět, ladit a nasazovat nezávisle. Odborníci společnosti je označují za otevřené modely, jejichž parametry lze stahovat a upravovat – v oblasti AI známé jako open weights – i pro komerční účely, a to za podmínek stanovených společností Google.

Související článek

Sovětská zbraň zkázy znovu ožívá. Čína tajně vyvíjí neviditelné monstrum
Sovětská zbraň zkázy znovu ožívá. Čína tajně vyvíjí neviditelné monstrum

Peking sází na hybridní, nízkonákladové a těžko sledovatelné platformy, aby mohl ovládnout moře západního Pacifiku.

Díky této flexibilitě lze Gemmu používat k různým úkolům: shrnutí obsahu, odpovídání na otázky, argumentaci, generování textu nebo, jako v případě Eloquentu, přepisování a čištění diktátů. Tyto modely navíc mohou běžet jak v cloudu, tak na lokálních počítačích, včetně mobilních telefonů, notebooků a dalších zařízení v závislosti na variantě.

Další funkce: shrnutí, tón a personalizovaný slovník

Kromě přepisu umožňuje aplikace Eloquent shrnout nahrávku do klíčových bodů nebo změnit tón výsledného textu tak, aby byl formálnější, kratší nebo delší. Aplikace také uchovává historii, kde můžete konzultovat rychlost ve slovech za minutu a celkový počet pro každou relaci. Další užitečnou funkcí je kontextový slovník: uživatel může ručně přidávat odborný žargon nebo importovat názvy a klíčová slova přímo ze svého účtu Gmail.

Galerie AI Edge: laboratoř pro testování modelů Gemma

Eloquent není jedinou aplikací z této rodiny. V obchodě App Store je k dispozici také AI Edge Gallery, testovací prostředí, které umožňuje kompletní spuštění různých verzí modelu Gemma, včetně nejnovějších verzí Gemma 3n a Gemma 4. Funkce AI Chat & Thinking v reálném čase ukazují, jak model uvažuje krok za krokem, zatímco laboratoř podnětů a nástroje pro benchmarking usnadňují porovnání výkonu různých modelů s otevřenou váhou na hardwaru uživatele.

Gemma 4 byla nedávno uvedena na trh jako rodina otevřených modelů, jejímž cílem je přinést pokročilé schopnosti uvažování na místní stroje. Zahrnuje varianty E2B a E4B určené pro mobilní telefony spolu s většími verzemi 26B a 31B určenými pro stolní počítače. Všechny tyto modely podporují kontextové okno, tj. množství textu, které může model brát v úvahu najednou, o velikosti 128 K tokenů, které se u větších variant zvyšuje až na 256 K.

Kde a na jakých platformách je lze použít?

Aplikace Google AI Edge Eloquent i AI Edge Gallery jsou prozatím k dispozici výhradně na platformě iOS. Google však uvádí, že vyhodnocuje další platformy, včetně verze pro stolní počítače„. Pokud jde o geografické pokrytí, uživatelé ve Velké Británii, Švýcarsku a Evropském hospodářském prostoru k nim zatím nemají přístup kvůli nutnosti schválení regulačními orgány. Společnost uvádí, že aktivně pracuje na získání potřebných schválení a brzkém rozšíření do těchto oblastí„.

Zdroje článku

#