OpenAI chystá nástroj, který složí hudbu za vás. A možná i líp

OpenAI vyvíjí nový model umělé inteligence, který promění text nebo zvukové podněty v hotové hudební skladby. Po videogenerátoru Sora se tak společnost chystá vstoupit i na pole AI hudby – s ambicí změnit způsob, jakým tvoříme i vnímáme hudbu.

Poté, co společnost OpenAI způsobila revoluci v generování videa pomocí aplikace Sora, chystá svůj další velký krok: vytvoření umělé inteligence schopné generovat hudbu. Podle několika amerických médií dnes společnost Sama Altmana vyvíjí model umělé inteligence, který dokáže vytvářet hudební skladby z textu nebo jiných zvukových podnětů, čímž by se dostala do přímé konkurence specializovaných startupů, jako je Suno nebo Udio.

Od textu ke zvuku: Nová tvůrčí hranice OpenAI

Projekt, který je zatím v experimentální fázi, má jasný cíl: umožnit každému uživateli popsat slovy hudební nápad a získat kompletní zvukovou stopu. Podle publikace spolupracuje OpenAI se studenty prestižní Juilliardovy konzervatoře, kteří pomáhají anotovat partitury a připravují materiál, jenž bude sloužit jako výukový základ pro tento model.

Systém by mohl například generovat kytarový doprovod pro lidský hlas nebo dokonce automaticky vytvářet zvukové stopy pro videa a reklamy. Cílem není jen vytvářet náhodné melodie, ale dosáhnout hudební soudržnosti, realistické instrumentace a rozpoznatelných stylů.

Tento druh technologie slibuje nejen revoluci v hudebním průmyslu, ale mohl by mít významný dopad i na další obory, například na hudební vzdělávání, kde by studenti mohli pomocí těchto nástrojů experimentovat s různými styly a žánry bez nutnosti pokročilých znalostí hudební teorie.

Návrat k hudebním kořenům

Ačkoli se tento nový přístup může zdát nevídaný, OpenAI už má v hudební generaci svou historii. V roce 2020 představila Jukebox, model schopný vytvářet skladby se syntetickými vokály ve stylu skutečných umělců.

Tato technologie však zůstala v oblasti čistě experimentální: složitá, drahá a bez okamžitého komerčního využití. Nyní se zdá, že díky rozmachu společnosti Sora a pokroku v multimodálních modelech je společnost připravena se k tomuto cíli vrátit.

Pokrok v technologii generativní umělé inteligence je v posledních letech pozoruhodný a modely nyní dokážou nejen generovat hudbu, ale také hlouběji analyzovat a chápat hudební strukturu. To by mohlo společnosti OpenAI umožnit vytvořit produkt, který bude schopen nejen generovat hudbu, ale také poskytovat podrobnou analýzu stávajících skladeb a pomáhat hudebníkům a producentům zlepšovat jejich díla.

To, co začalo jako experiment s Jukeboxem, má nyní za cíl stát se produktem s masovým komerčním potenciálem. Pokud je nedávná historie vodítkem, model se pravděpodobně dočká veřejného uvedení v roce 2026, a to buď integrovaný do ekosystému ChatGPT, nebo pod novou hudební značkou.

Konkurence v oblasti hudby generované umělou inteligencí je silná, své vlastní modely vyvíjejí i společnosti jako Google. Odborné znalosti společnosti OpenAI v oblasti vývoje pokročilých jazykových modelů by jí však mohly poskytnout značnou výhodu při vytváření produktu, který nejen generuje hudbu, ale dokáže také porozumět tvůrčím potřebám uživatelů a reagovat na ně.