Will Smith generovaný AI se již naučil jíst špagety. Díky zvuku ale přišel další problém

Will Smith generovaný AI se již naučil jíst špagety. Díky zvuku ale přišel další problém

Zdroj obrázku: Image Press Agency / Depositphotos

Umělá inteligence ušla za poslední dva roky dlouhou cestu a video Willa Smithe je jakýmsi pomyslným benchmarkem testujícím její schopnosti.


Před několika dny společnost Google představila přednosti Veo 3, svého nového generativního nástroje umělé inteligence, který dokáže natáčet videa, při nichž člověk ztratí řeč. Příkladem je komentovaný gameplay ze hry Fortnite, který jsme viděli, protože nešlo ani o výňatek ze hry, ani o skutečnou reakci osoby. Umělá inteligence však přesto musela projít kyselou zkouškou: vygenerovat video Willa Smithe, jak jí špagety.

V roce 2023 se tato velmi specifická situace stala měřítkem pro měření úspěšnosti AI. Po zveřejnění prvního videa uživatelé poukázali na to, že se zatím nemají čeho bát, protože umělá inteligence je stále ještě v plenkách. S příchodem Veo 3 se však situace na vizuální úrovni změnila, protože výsledek je reálnější než kdykoli předtím. I tak ale stále musí překonávat překážky, aby dosáhl co nejlepšího výsledku, protože špagety při jídle nekřupou, což je vada odvozená od dat, která používá k trénování svých modelů umělé inteligence.

Související článek

Jeden klik a pár slov: Vznikne svět, kde se realita mísí s fantazií
Jeden klik a pár slov: Vznikne svět, kde se realita mísí s fantazií

Funkce Storybook umožňuje během několika sekund vytvořit personalizované příběhy s ilustracemi a vyprávěním pomocí umělé inteligence.

Umělá inteligence postupuje mílovými kroky vpřed

Příchod Veo 3 znamená, že videa mohou být až 8 sekund dlouhá a mohou obsahovat zvuk a HD obsah. Nepřekvapivě to vedlo ke vzniku množství videí, z nichž jedno je Will Smith pojídající špagety. Na síti X se Javi López (technologický expert a šiřitel umělé inteligence na svých sociálních sítích) podělil o výsledek testu, a přestože je vizuálně překvapivý, umělá inteligence má stále problém k řešení: fyzický stav jídla. Takže i když je test Willa Smithe úžasný, skutečnost, že jí křupavé špagety, mu trochu ubírá na důvěryhodnosti.

Získání videa s hvězdou seriálu The Fresh Prince of Bel Air nebo jinou celebritou je už překvapivé, vzhledem k tomu, že Google má filtr obsahu, který blokuje jména celebrit. Přesto se Lopezovi podařilo jej obejít a podělit se o svůj výtvor s uživateli X, což je dílo, které ukazuje, jak se umělá inteligence za pouhý rok vyvinula. Google je totiž jednou ze společností, která na toto odvětví vsadila nejvíce, což je sázka, která by se nakonec mohla obrátit proti ní, protože se chystá ukončit 27 let dědictví.

Ať tak či onak, Veo 3 dokáže souvisle generovat hudbu, efekty a dialogy, což je situace, která znamená velký pokrok oproti předchozím generacím. Schopnost vyvolat dojem, že celebrity dělají věci, které nikdy nedělaly, však vyvolává řadu etických a právních obav, protože mnoho lidí by mohlo být takovými videi oklamáno. Ostatně sama společnost Google na vlastní kůži poznala hořkou stránku umělé inteligence, a proto se očekává, že bude jednou z vedoucích společností hnutí za etickou odpovědnost.

Budoucnost generativní umělé inteligence a její důsledky

Vývoj nástrojů, jako je Veo 3, je pouze špičkou ledovce, pokud jde o vývoj generativní umělé inteligence. Tyto technologie jsou navrženy tak, aby se učily z velkého množství dat a generovaly obsah, který přesvědčivě napodobuje realitu. Případ křupavých špaget Willa Smithe však poukazuje na to, že umělá inteligence má v chápání fyzického světa stále ještě svá omezení. Je to proto, že neuronové sítě, které tyto technologie řídí, často postrádají hluboké porozumění kontextu, což může vést k chybám v reprezentaci každodenních situací.

Rostoucí schopnost umělé inteligence vytvářet realistický obsah navíc vyvolává otázky ohledně autenticity a důvěryhodnosti digitálních médií. Deepfakes jsou například videa generovaná umělou inteligencí, která mohou vyvolat dojem, že osoba říká nebo dělá něco, co se nikdy nestalo. To má významné důsledky pro soukromí, bezpečnost a důvěru veřejnosti. Šíření deepfakes mohlo narušit důvěru ve video a audio důkazy a dále zkomplikovat ověřování informací v digitálním věku.

Je proto zásadní, aby technologické společnosti a tvůrci politik spolupracovali na vytvoření předpisů a pokynů, které zajistí odpovědné využívání generativní umělé inteligence. To zahrnuje zavedení opatření k odhalování a zmírňování dopadu deepfakes a dalších forem zavádějícího obsahu. Kromě toho je třeba podporovat vzdělávání veřejnosti o tom, jak identifikovat potenciálně falešný nebo zmanipulovaný obsah a jak na něj reagovat.

Závěrem lze říci, že generativní umělá inteligence, jako je Veo 3, sice nabízí vzrušující možnosti pro tvorbu obsahu, ale zároveň přináší výzvy, které je třeba řešit, aby bylo zajištěno etické a odpovědné využívání těchto technologií. Cesta k budoucnosti, kdy bude umělá inteligence nedílnou součástí našich životů, vyžaduje vyvážený přístup, který zohlední jak příležitosti, tak související rizika.

Zdroje článku

arstechnica.com
#