Jedno z jeho možných využití je k oživení klasických her.
Společnost Microsoft právě představila svůj první model světa a lidské akce (WHAM), nyní známý jako Muse. Tento generativní model umělé inteligence je navržen tak, aby na základě počátečního krátkého zadání vytvořil grafiku videohry, akce ovladače nebo obojí a jeho využití v herním světě je slibné.
Tato inovace, na níž spolupracují týmy Microsoft Research Game Intelligence a Teachable AI Experiences ve spolupráci se studiem Xbox Games Studios společnosti Ninja Theory, slibuje, že změní způsob, jakým jsou hry navrhovány a jakým je hráč prožívá.
Jak to funguje
Způsob, jakým Muse funguje, je založen na režimu modelu světa, kdy model předpovídá vývoj hry z počáteční sekvence pouhé jedné sekundy lidského hraní, tj. 10 snímků. Z tohoto krátkého úvodu Muse generuje grafiku i odpovídající akce ovladače, které se řídí vnitřní logikou hry.
Tým společnosti Microsoft stál před výzvou zlepšit schopnost svého modelu umělé inteligence (AI) rychle zpracovávat velké množství dat. K jeho tréninku použili výkonné výpočetní jednotky (GPU), přičemž začali se starší technologií (V100) a poté přešli na výkonnější technologii (H100), což jim umožnilo pracovat s větším množstvím dat rychlejším tempem a v důsledku toho získat kvalitnější obraz.
Kromě toho se museli rozhodnout, jak porozumět a zpracovat akce ovládacích prvků videohry a generované obrazy. Zpočátku nebyly obrázky, které vytvořili, příliš podrobné (pouze 128×128 pixelů), ale postupem času se jim podařilo zlepšit kvalitu požadovaných obrázků na vyšší rozlišení 300×180 pixelů, které umožňuje přehlednější vizualizaci herních sekvencí generovaných umělou inteligencí.
Umělá inteligence potřebuje hodně dat
Muse je trénována na základě skutečných herních dat. Konkrétně v Bleeding Edge, multiplayerové videohře společnosti Ninja Theory vydané v roce 2020, bylo použito více než 1 miliarda obrázků a příkazových akcí získaných ze sedmi let nepřetržitého hraní. Tento rozsáhlý soubor dat umožnil aplikaci Muse naučit se dynamiku a strukturu virtuálního světa, což vedlo ke generování herních sekvencí, které jsou konzistentní a realistické po dobu až dvou minut.
Konzistence, rozmanitost a vytrvalost
Pomocí tohoto nástroje mohou uživatelé nahrát vizuální podnět, například propagační obrázek ze hry Bleeding Edge a sledovat, jak Muse generuje několik pokračování. Implementace schopnosti perzistence navíc umožňuje zavádět změny v sekvenci (například přidání nové postavy) a model tyto změny konzistentně začleňuje do zbytku generované sekvence.
Zachování klasických her v centru pozornosti
Vliv aplikace Muse přesahuje rámec herního designu. Peter Lee, prezident společnosti Microsoft Research, na svém blogu upozornil na podobnost mezi učením jazyka, které je vidět v modelech, jako je ChatGPT, a schopností Muse pochopit a reprodukovat mechaniku interakcí v 3D prostředí.
Fatima Kardar, korporátní viceprezidentka pro herní umělou inteligenci ve společnosti Microsoft, dále poznamenala, že tato technologie by mohla být použita k zachování a aktualizaci klasických her a jejich optimalizaci pro spuštění na jakémkoli zařízení, což představuje průlom pro zachování digitálního dědictví.
V souladu s touto filozofií se Microsoft rozhodl zpřístupnit tyto nástroje i demonstrátor WHAM komunitě prostřednictvím Azure AI Foundry a podpořit tak spolupráci a vývoj nových aplikací založených na Muse. Tento přístup založený na otevřeném zdrojovém kódu umožní výzkumníkům a vývojářům zkoumat, učit se a stavět na dosaženém pokroku, což bude hnacím motorem nové éry iterativního a kreativního herního designu.
Pro hodnocení kvality Muse byly definovány tři klíčové metriky: konzistence, diverzita a perzistence. Konzistence měří schopnost modelu udržet herní sekvenci, která respektuje dynamiku a pravidla virtuálního prostředí; rozmanitost hodnotí rozmanitost možných sekvencí ze stejného počátečního podnětu; a perzistence se týká schopnosti modelu začlenit změny zavedené uživatelem, aniž by se ztratila celková koherence.
Čím blíže je vygenerovaná sekvence skutečné hře, tím lepší je schopnost modelu zachytit a reprodukovat složitost virtuálního prostředí.