(JP)Apple přiznal problém se Siri. Tohle je trik, kterým ji chce zrychlit

(JP)Apple přiznal problém se Siri. Tohle je trik, kterým ji chce zrychlit

Zdroj obrázku: grinvalds / Depositphotos

Apple představil novou techniku generování řeči, která by mohla výrazně zlepšit rychlost a přirozenost odpovědí Siri. Místo náročného zpracování každého zvuku zvlášť zavádí tzv. skupiny akustické podobnosti, které umožňují efektivnější a plynulejší mluvu i na méně výkonných zařízeních.


Apple sice přijal berličku Google Gemini, aby kompenzoval své vlastní nedostatky v oblasti umělé inteligence, ale to nezabránilo výzkumníkům cupertinského giganta zkoumat nové způsoby, jak Siri znatelně vylepšit.

Jedna z nových výzkumných prací výzkumných pracovníků společnosti Apple si nyní klade za cíl odblokovat rychlejší a přirozeněji znějící odpovědi Siri – nikoliv pouhým zvětšením modelů, ale přehodnocením způsobu, jakým je řeč pod kapotou generována.

Výzkumníci společnosti Apple přišli na schůdnou cestu k rychlejším reakcím Siri

Abychom pochopili, o co společnosti Apple jde, je dobré vědět, jak dnes funguje většina moderních hlasových systémů s umělou inteligencí.

Související článek

WhatsApp má vážnou bezpečnostní díru. Stačí se připojit do špatné skupiny
WhatsApp má vážnou bezpečnostní díru. Stačí se připojit do špatné skupiny

Bezpečnostní tým Google Project Zero zveřejnil podrobnosti o vážné zranitelnosti v aplikaci WhatsApp pro Android, kterou Meta ani po 90 dnech od nahlášení neopravila. Chyba umožňuje útočníkovi zaslat škodlivý soubor, který se automaticky stáhne do zařízení oběti bez jejího vědomí – stačí výchozí nastavení aplikace. Výzkumníci doporučují okamžitě vypnout automatické stahování médií.

Modely AI, které generují řeč, obvykle „nemluví“ celými slovy nebo písmeny. Místo toho pracují s tokeny – drobnými úryvky zvuku, které trvají jen několik milisekund. Tyto tokeny si můžete představit jako zvukový ekvivalent dílků puzzle. Model vybírá a skládá tyto dílky jeden po druhém a vytváří z nich celá slova a věty.

Většina současných systémů používá metodu zvanou autoregrese. Zjednodušeně řečeno, model generuje jeden token po druhém a každý nový token závisí na všech tokenech, které mu předcházely. Tento postup krok za krokem je výkonný a flexibilní, ale má dvě velké nevýhody:

  • Zpoždění (latence): Protože model musí rozhodovat o každém tokenu postupně, může to znamenat znatelnou pauzu mezi okamžikem, kdy se Siri na něco zeptáte, a okamžikem, kdy začne odpovídat.
  • Občasná zvláštní výslovnost: Model je omezen specifickou sadou řečových tokenů, na kterých byl vycvičen. Pokud tyto tokeny neodpovídají dokonale zvuku, který chce vydávat, dochází někdy k mírně robotické nebo „rozhozené“ výslovnosti.

V nové studii zveřejněné na webu Apple Machine Learning Research navrhují výzkumníci společnosti Apple jiný způsob uspořádání a výběru těchto řečových tokenů. Místo toho, aby každý token považovali za zcela samostatnou možnost, zavádějí něco, co nazývají Acoustic Similarity Groups (ASG).

Co jsou skupiny akustické podobnosti (ASG)

Skupiny ASG jsou v podstatě shluky řečových tokenů, které z pohledu lidského posluchače znějí velmi podobně. Místo toho, aby model prohledával desítky tisíc jednotlivých tokenů pokaždé, když chce vybrat další zvuk, systém nejprve zúží hledání na mnohem menší skupinu „zvukově podobných“ tokenů.

Zde je základní myšlenka, zjednodušeně řečeno:

  1. Systém seskupuje tokeny do skupin ASG na základě toho, jak podobně znějí akusticky (například všechny varianty zvuku „ah“ mohou žít v překrývajících se skupinách).
  2. Při generování řeči model nevybírá okamžitě ze všech tokenů. Místo toho:
    • Nejprve vybere nejslibnější skupinu tokenů pomocí pravděpodobnostního vyhledávání a poté
    • Provede podrobnější výběr v rámci této skupiny pomocí autoregrese.
  3. Protože model v každém kroku prohledává menší, relevantnější prostor, může ke „správnému“ tokenu dospět rychleji a s menším počtem výpočetních kroků.

V praxi se skupiny ASG překrývají – token může patřit do více než jedné skupiny – což dává systému flexibilitu a pomáhá vyhnout se pevným hranicím, které by jinak mohly poškodit přirozenost. Výzkumníci společnosti Apple to popisují jako druh hrubého vyhledávání: nejprve vybereme správnou oblast zvukového prostoru a pak vybereme přesný token.

Proč by díky tomu mohla být Siri rychlejší a přirozenější

Dokument společnosti Apple se zaměřuje na neuronové jazykové modely zvukových kodeků – tedy na modely, které pohánějí moderní systémy převodu textu na řeč a některé generativní zvukové nástroje. Tyto modely pracují s komprimovanými reprezentacemi zvuku (tokeny) spíše než se surovými průběhy, což je činí efektivnějšími, ale také závislejšími na inteligentním výběru tokenů.

Společnost Apple tvrdí, že reorganizace prostoru tokenů do ASG a jejich inteligentnější prohledávání může přinést několik výhod:

  • Nižší latence: Protože model nemusí v každém kroku zvažovat všechny možné tokeny, může řeč generovat rychleji. To znamená kratší pauzy, než Siri začne mluvit, a potenciálně rychlejší dokončení delších odpovědí.
  • Přirozenější prozodie a výslovnost: Prozodie se týká rytmu, důrazu a intonace řeči – v podstatě toho, co dělá hlas lidským a ne robotickým. Seskupování tokenů podle toho, jak skutečně znějí, umožňuje modelu snadněji vybírat tokeny, které odpovídají požadovanému tónu a plynulosti řeči, místo aby odpovídaly pouze hrubému akustickému vzoru. To může omezit „plochý“ nebo mírně trhaný přednes, který měly někdy starší hlasy Siri.
  • Lepší odolnost vůči šumu a výkyvům: Vzhledem k tomu, že ASG jsou založeny na vjemové podobnosti, systém se dokáže lépe vypořádat s drobnými nesrovnalostmi nebo nejistotami. Pokud si model není jistý přesným tokenem, může přesto vybrat něco ze stejné skupiny, co zní dostatečně blízko, aby to bylo přirozené.

Výzkumníci společnosti Apple ve svých experimentech uvádějí, že tento hrubý přístup může zlepšit kompromis mezi rychlostí a kvalitou ve srovnání se standardním dekódováním token po tokenu. Jinými slovy, při stejné úrovni kvality řeči lze získat rychlejší reakce – nebo při stejné latenci získat přirozeněji znějící řeč.

Jak to zapadá do širšího kontextu umělé inteligence

Práce společnosti Apple v této oblasti neexistuje ve vzduchoprázdnu. Odvětví rychle směřuje ke konverzační AI v reálném čase, kdy uživatelé očekávají, že asistenti budou reagovat téměř okamžitě a řečí podobnou lidské. Google, OpenAI a další zkoumají podobné nápady na zrychlení generování řeči, jako např.:

  • Neautoregresivní nebo semi-autoregresivní dekódování, kdy se paralelně generuje více tokenů, aby se snížilo zpoždění.
  • Spekulativní dekódování, kdy menší „návrh“ modelu navrhuje tokeny a větší model je rychle ověřuje nebo opravuje.
  • Neuronové zvukové kodeky, jako jsou EnCodec, SoundStream a vlastní kodeky společnosti Apple, které komprimují zvuk do diskrétních tokenů, jež lze modelovat pomocí jazykových modelů.

Přístup ASG společnosti Apple zapadá do tohoto širšího úsilí tím, že útočí na velmi specifické úzké místo: jak inteligentněji prohledávat prostor tokenů, aby se neztrácel čas zvažováním nepravděpodobných nebo nadbytečných možností. Jedná se o relativně chirurgickou změnu, která může být umístěna nad stávajícími řečovými systémy založenými na kodeku, což ji činí atraktivní pro integraci do produktů, jako je Siri.

Co by to mohlo znamenat pro budoucí verze Siri

Společnost Apple veřejně zdůrazňuje svou strategii „Apple Intelligence“, která kombinuje modely v zařízení s cloudovým zpracováním a prozatím i určitou závislost na systémech třetích stran, jako je například Gemini od společnosti Google, pro určité úkoly. Výzkumy, jako je tento, však ukazují na dlouhodobější cíl: snížit závislost na externích modelech a vytvořit plně řízený stack umělé inteligence společnosti Apple, od křemíku v čipech až po modely, které na nich běží.

Pokud se techniky jako ASG dostanou do dodávaných produktů, uživatelé by se mohli dočkat několika praktických zlepšení:

  • Svižnější interakce: Siri by mohla po ukončení hovoru začít rychleji odpovídat, zejména na zařízeních s omezeným výpočetním výkonem, jako jsou starší iPhony, Apple Watch nebo HomePod mini.
  • Konzistentnější kvalita hlasu napříč zařízeními: Efektivní dekódování znamená, že Apple může v zařízení provozovat kvalitnější modely, aniž by vyčerpal limity baterie nebo tepelné limity, což pomůže Siri znít přirozeněji i na menším hardwaru.
  • Lepší vícejazyčná řeč a řeč s diakritikou: Seskupování tokenů podle akustické podobnosti, a ne jen podle označení konkrétního jazyka, by mohlo Siri pomoci lépe zvládat různé přízvuky a jazyky, protože podobné zvuky lze sdílet nebo znovu používat v různých jazycích.

Samozřejmě se stále jedná o výzkum. Dokument společnosti Apple neslibuje konkrétní časový plán vydání a ne každý laboratorní výsledek se dostane do spotřebitelského produktu. V minulosti však společnost Apple často využívala své publikace o výzkumu strojového učení k tomu, aby naznačila, jaká vylepšení plánuje pro budoucí verze operačního systému a generace hardwaru.

Ne revoluční, ale strategicky důležité

Ačkoli se nejedná o převratnou novinku, která by se dostala do titulků, dokument ukazuje, že se Apple nadále zaměřuje na zlepšování svých vlastních schopností v oblasti umělé inteligence a strojového učení na poměrně hluboké technické úrovni. Namísto pouhého trénování stále větších modelů v cloudu se Apple zjevně zajímá o to, aby byly modely efektivnější, pohotovější a vhodnější pro použití v zařízeních – tedy v oblastech, kde může využít své těsné integrace hardwaru, softwaru a služeb.

V tomto smyslu je práce na skupinách akustické podobnosti méně o okázalých ukázkách a více o infrastruktuře pro lepší každodenní zážitky: kratší trapné pauzy, méně robotického přeřeknutí a hlasový asistent, který působí spíše jako přirozený konverzační partner než jako skriptované rozhraní.

V kombinaci s širšími snahami společnosti Apple v oblasti umělé inteligence – od jazykových modelů v zařízeních až po personalizovanou práci s kontextem a učení zachovávající soukromí – jde o další malý, ale výmluvný krok na cestě k celkovému cíli společnosti: nakonec přijmout ucelené řešení umělé inteligence na míru pro svá zařízení a zbavit se berliček třetích stran, jako jsou modely Gemini společnosti Google.

Zdroje článku

appleinsider.com
#