Sledujete YouTube roky špatně. Google to teď potichu mění

Sledujete YouTube roky špatně. Google to teď potichu mění

Zdroj obrázku: FotoField / Shutterstock.com

YouTube spouští automatický dabing s umělou inteligencí pro všechny uživatele a rozšiřuje podporu na 27 jazyků. Díky přirozenějším hlasům, expresivním titulkům a chystané synchronizaci rtů se otevírá nová éra globálního videoobsahu bez jazykových bariér.


YouTube zavedl automatický dabing s umělou inteligencí v roce 2024. Nejprve byl zaveden pro omezenou skupinu tvůrců obsahu, poté se rozšířil na několik milionů dalších. Uživatelé získali možnost konzumovat obsah ve svém jazyce, i když je originální jazyk jiný, a nemuseli se nespoléhat na titulky. Společnost Google nyní oznámila, že rozšiřuje automatický dabing na všechny uživatele a zvyšuje počet jazyků na 27 a přidává několik funkcí k jeho vylepšení.

Tento krok zapadá do strategie společnosti Google, jejímž cílem je učinit z YouTube stále globálnější platformu, která je méně jazykově omezena. Podle samotné společnosti pochází více než 70 % času stráveného sledováním YouTube z oblastí mimo USA a stále větší část tohoto publika konzumuje videa v jiných jazycích než ve svém rodném díky strojovému překladu a dabingu s umělou inteligencí.

Automatický dabing s umělou inteligencí pomáhá tvůrcům oslovit širší publikum, ale ti, kterým tato možnost nevyhovuje, mohou stále poskytovat vlastní dabing nebo tuto funkci zcela vypnout. V každém případě bude pro naprostou většinu uživatelů snazší konzumovat obsah v jazyce, který si zvolí.

Související článek

Ukážete podpaží a algoritmus šílí. Funguje to líp, než si myslíte
Ukážete podpaží a algoritmus šílí. Funguje to líp, než si myslíte

i když se netrénovanému oku může zdát, že se nic nestalo, co by ho vyprovokovalo.

Pro lepší pochopení dopadu si stačí představit technologický kanál, který publikuje v angličtině: díky automatickému dabingu lze stejné video slyšet ve španělštině, portugalštině nebo hindštině, aniž by tvůrce musel nahrávat více verzí. To otevírá dveře menším kanálům, které nemají prostředky na profesionální dabingová studia, aby mohly soutěžit o mezinárodní publikum.

Jak aktivovat automatický dabing a vybrat preferované jazyky

K výběru jazyka se dostanete tak, že při přehrávání videa kliknete na ikonu kolečka (Nastavení) a vyberete možnost Zvuková stopa“. Tím se vedle původního zvuku zobrazí stopy automaticky generované umělou inteligencí v různých jazycích, které jsou pro dané video k dispozici.

Pokud však chcete, můžete si nastavit ten, který chcete ve výchozím nastavení. Nová možnost Preferované jazyky“ umožňuje zvolit, ve kterých jazycích chcete videa zobrazovat. V počítači přejděte na ikonu svého profilu > Nastavení > Přehrávání a výkon. V části Jazyk“ klikněte na možnost „Přidat nebo změnit jazyky“ a zaškrtněte své možnosti, protože YouTube vás neomezuje pouze na jeden.

Toto nastavení je nyní k dispozici v systému Android, iOS i ve webové verzi. Pokud je video již k dispozici v některém z preferovaných jazyků, nepoužije se dabing s umělou inteligencí a upřednostní se originální zvuk. To znamená, že pokud tvůrce ručně nahrál španělskou zvukovou stopu, YouTube ji použije před strojově generovanou verzí.

V mobilních zařízeních je přístup podobný: během přehrávání klepněte na obrazovku, klikněte na ikonu kolečka nebo na nabídku se třemi tečkami a vyberte Zvuková stopa“. Pokud je u videa k dispozici automatický dabing v některém z preferovaných jazyků, bude jako takový zřetelně označen.

Jaké jazyky automatický dabing zahrnuje a jak funguje interně

YouTube rozšířil systém na 27 jazyků. Seznam se může časem měnit, ale zahrnuje mimo jiné angličtinu, španělštinu, francouzštinu, němčinu, portugalštinu, italštinu, hindštinu, indonéštinu, japonštinu a korejštinu. Záměrem je pokrýt jak nejrozšířenější jazyky na světě, tak jazyky s velmi aktivními komunitami na platformě.

Zjednodušený technický postup je následující:

  • Nejprve umělá inteligence přepisuje původní zvuk z videa (převádí jej z řeči na text).
  • Poté tento text přeloží do cílového jazyka pomocí modelů strojového překladu vyškolených na velkém množství dat.
  • Nakonec vygeneruje novou zvukovou stopu se syntetickým hlasem, který čte přeložený text a snaží se dodržet rytmus a intonaci originálu.

To vše se děje na serverech společnosti Google, aniž by tvůrce musel nahrávat další soubory. Pro uživatele je výsledek prezentován jako další zvuková stopa, stejně jako kdyby šlo o profesionální dabing, i když s omezeními umělé inteligence.

„Expresivní řeč“: přirozenější a jemnější hlasy umělé inteligence

YouTube ve svém blogovém příspěvku vysvětlujícím nové funkce uvádí, že v prosinci loňského roku sledovalo více než šest milionů uživatelů každý den alespoň 10 minut obsahu dabovaného umělou inteligencí. Použití umělé inteligence k dabování videí však také znamená, že se může stát, že stroj nebude schopen zachytit tón nebo emoce, které projevil tvůrce videa.

Aby se tyto nuance vyřešily, zavádí se nyní služba Expressive Speech na všech kanálech YouTube v osmi jazycích: angličtině, hindštině, francouzštině, němčině, indonéštině, italštině, portugalštině a španělštině. Funkce již byla předvedena v roce 2024 během akce Made by YouTube.

Co přesně se s Expressive Speech mění? Místo plochého, robotického hlasu se systém snaží reprodukovat:

  • Výškové změny (stoupání a klesání hlasu pro zdůraznění myšlenek).
  • Rytmus blížící se přirozené řeči (pauzy, zrychlení, ticho).
  • Určité základní emoce (překvapení, nadšení, vážnost) podle kontextu původního textu.

Pro diváka to znamená, že dabing zní méně „strojově“ a více se podobá lidské řeči. Pro tvůrce to znamená, že při přechodu z jednoho jazyka do druhého je lépe zachován jejich komunikační styl (např. humornější nebo vážnější tón).

„Expresivní titulky“: Titulky s více souvislostmi

Tato funkce připomíná „Expresivní titulky“, které kompenzují nedostatek jazykových a zvukových nuancí tím, že titulkům dodávají důraz, tón a osobitost.

V praxi mohou expresivní titulky zahrnovat dodatečné informace, jako je například označení, že někdo šeptá, křičí nebo se směje, nebo zvýraznění klíčových slov, které divákovi pomohou lépe pochopit záměr sdělení. To je užitečné zejména pro osoby se sluchovým postižením nebo pro ty, kteří sledují videa bez zvuku.

Kombinace automatického dabingu a expresivních titulků zpřístupňuje stejné video jak těm, kteří raději poslouchají, tak těm, kteří potřebují nebo se rozhodnou číst.

„Synchronizace rtů“, pro přirozenější synchronizaci

Platforma testuje také další novou funkci nazvanou „Lip Sync“, která jemně přizpůsobuje „pohyby rtů mluvčího přeloženému zvuku, takže dabované video působí stejně plynule jako sledování originálu,“ vysvětluje YouTube.

Funkce, která je prozatím zaváděna v omezené míře, využívá modely počítačového vidění k analýze pohybů úst tvůrce a jejich lepšímu sladění s novou zvukovou stopou. Nejedná se o radikální změnu obličeje, ale o drobné úpravy, které snižují pocit nesouladu mezi tím, co je slyšet, a tím, co je vidět.

Cílem je poskytnout divákovi zážitek, který se více podobá sledování videa nahraného přímo ve svém jazyce, což je důležité zejména u formátů, kde tvář tvůrce zabírá velkou část obrazovky, jako jsou vlogy, výukové programy nebo živé střihy.

„Automatické inteligentní filtrování“: Kdy video nedabovat

Kromě toho má YouTube pro tvůrce k dispozici funkci automatického inteligentního filtrování“, která umožňuje určit, kdy by video nemělo být dabováno, aby byl zachován původní obsah, například když někdo nahraje hudební videa nebo vlogy bez vokálů.

Systém analyzuje typ obsahu a může navrhnout nedabování v případech, jako je např:

  • Hudební videa, kde je hlas součástí původního díla.
  • Obsah s malým množstvím dialogů nebo bez nich (časosběrné záběry, krajiny, gameplaye bez komentáře).
  • Klipy, kde je jazyk podstatnou součástí vtipu nebo kulturního kontextu.

Konečné rozhodnutí je přesto na tvůrci, který může automatický dabing na úrovni kanálu nebo videa vypnout v aplikaci YouTube Studio. Tím získá určitou kontrolu, abyste se vyhnuli podivným výsledkům nebo chybné interpretaci v citlivém obsahu.

Výhody a omezení dabingu s umělou inteligencí

Masové nasazení automatického dabingu má několik jasných výhod:

  • Větší dosah pro tvůrce: jediné video může oslovit diváky, kteří mluví jinými jazyky, bez dalších výrobních nákladů.
  • Větší dostupnost pro uživatele: lidé, kteří neovládají původní jazyk, mohou sledovat obsah, aniž by byli odkázáni na neustálé čtení titulků.
  • Objevování obsahu: YouTube může snadněji doporučovat videa z jiných zemí, pokud ví, že jim uživatel bude díky dabingu rozumět.

Existují však také důležitá omezení:

  • Kulturní nuance: vtipy, místní narážky nebo slovní hříčky se mohou při automatickém překladu ztratit nebo znít divně.
  • Chyby v překladu: přestože se modely hodně zlepšily, stále se dopouštějí chyb, zejména u slangu, odborných výrazů nebo vlastních jmen.
  • Obecné hlasy: prozatím zní většina hlasů umělé inteligence podobně, což může ve srovnání s profesionálním lidským dabingem ubírat na osobitosti kanálu.

YouTube proto trvá na tom, že automatický dabing je volitelný a doplňkový nástroj, nikoli povinná náhrada práce překladatelů a hlasových herců. Tvůrci, kteří si to přejí, si mohou i nadále objednat profesionální dabing a nahrát ho jako další zvukové stopy.

Ochrana soukromí, autorská práva a odpovědné používání

Použití umělé inteligence na hlas tvůrců vyvolává také obavy o soukromí a práva. YouTube tvrdí, že systém se vztahuje pouze na obsah, který na platformu nahrávají sami tvůrci, a že dabing je generován pro přehrávání v rámci YouTube, nikoliv pro vytváření hlasových modelů, které by bylo možné znovu použít mimo tento kontext.

Automatický dabing navíc neznamená, že by kdokoli mohl naklonovat hlas jiného tvůrce: generuje se obecný syntetický hlas, nikoli přesná kopie původního hlasu. Přesto zůstává otevřená debata o tom, jak blízko se tyto technologie mohou přiblížit klonování hlasu a jaké využití bude v budoucnu povoleno.

Souběžně s tím experimentují s automatickým překladem a dabingem i další platformy, jako je TikTok, Meta (Facebook a Instagram) nebo Twitch, což ukazuje na jasný trend: jazyk už nebude tak velkou překážkou pro konzumaci videí na internetu, ale vynutí si revizi pravidel a postupů týkajících se transparentnosti, souhlasu a využívání umělé inteligence.

Co mohou uživatelé očekávat v nadcházejících měsících

Díky globálnímu zavádění se v následujících měsících pravděpodobně dočkáme:

  • Více videí s možností přepínat jazyky zvuku přímo z přehrávače.
  • Postupné zlepšování přirozenosti hlasů a kvality překladů.
  • Přidávání nových jazyků do systému, zejména v regionech, kde YouTube rychle roste.
  • Více ovládacích prvků pro tvůrce, kteří se mohou rozhodnout, v jakých jazycích chtějí, aby byl jejich obsah nabízen.

Pro uživatele je rada jednoduchá: vyzkoušejte funkci, nastavte Preferované jazyky“, a pokud výsledek není u konkrétního videa přesvědčivý, vraťte se k původnímu zvuku nebo titulkům. Dabing s umělou inteligencí se stále vyvíjí, ale již nyní začíná měnit způsob, jakým objevujeme a konzumujeme videa z celého světa.

Zdroje článku

blog.youtube, Autorský text
#