Experti chtějí zálohovat internet. Bod obnovení má být před nástupem umělé inteligence

Experti chtějí zálohovat internet. Bod obnovení má být před nástupem umělé inteligence

Zdroj obrázku: Photo by Markus Spiske on Unsplash

Debata o tom, jak zachovat digitální historii, je aktuálnější než kdy jindy kvůli záplavě obsahu vytvořeného umělou inteligencí, který v posledních třech letech zaplavil internet.


Od spuštění ChatGPT v roce 2022 vstoupil internet do nové fáze: do fáze, v níž již není možné s jistotou určit, zda texty, obrázky nebo články, s nimiž se setkáváme, vytvořili lidé, nebo stroje. A tato radikální změna klade archivářům, technologům, historikům i běžným uživatelům na stůl otázku: měli bychom cíleně uchovávat internet v podobě, v jaké byl před svým „znečištěním“ umělou inteligencí?

Dělící čára v digitální historii

Nástup pokročilých jazykových modelů vygeneroval nebývalý objem automatizovaného obsahu. Tato situace představuje výzvu pro ty, kdo studují historii, technologický vývoj a dokonce i fungování kolektivního vědění. Jinými slovy, pokud původní lidský obsah zmizí uprostřed rostoucí masy syntetických textů, jak budou moci budoucí generace pochopit, jak jsme mysleli před érou strojů?

Související článek

Jeden klik a pár slov: Vznikne svět, kde se realita mísí s fantazií
Jeden klik a pár slov: Vznikne svět, kde se realita mísí s fantazií

Funkce Storybook umožňuje během několika sekund vytvořit personalizované příběhy s ilustracemi a vyprávěním pomocí umělé inteligence.

Digitální historikové již nyní narážejí na problémy při určování autorství, záměrnosti a kulturního kontextu zkoumaných dokumentů: hrozí, že se primární zdroje stanou nejednoznačnými zdroji, jejichž autenticita a reprezentativnost budou neustále zpochybňovány.

Před touto hrozbou varuje Rajiv Pant, bývalý technologický ředitel deníků The New York Times a The Wall Street Journal. Tvrdí, že se nejedná pouze o akademický nebo vědecko-fantastický problém, ale o realitu, která již ovlivňuje klíčové oblasti, jako je žurnalistika, vědecký výzkum a právní procesy:

„Již neexistuje spolehlivý způsob, jak ve velkém měřítku odlišit lidský obsah od obsahu vytvořeného umělou inteligencí.“

Zachování lidského…

Na jedné straně stojí zastánci vytváření „čistých“ archivů, jako je například John Graham-Cumming ze společnosti Cloudflare zabývající se kybernetickou bezpečností. Pro něj mají informace vytvořené před rokem 2022 zvláštní hodnotu: přirovnává je k „nízkoprahové oceli“, druhu kovu vyrobenému před jadernými testy v roce 1945, který se dnes díky své čistotě používá ve vysoce přesných přístrojích.

Graham-Cumming spustil stránku lowbackgroundsteel.ai, úložiště dat z doby před nástupem velkých jazykových modelů. Mezi jeho iniciativami je i kompletní kopie Wikipedie ze srpna 2022, kdy ještě nebyly patrné masivní známky příspěvků umělé inteligence, které jsou patrné již dnes.

Podle něj však nejde o odmítání umělé inteligence, ale o pochopení toho, že i ona potřebuje lidský odkaz, aby mohla fungovat a zdokonalovat se:

„V určitém okamžiku bude umělá inteligence myslet na něco, co jsme si my lidé nikdy nedokázali představit. Bude schopna dokázat matematickou větu nebo vytvořit něco skutečně nového. A nejsem si jistý, zda by se to mělo nazývat ‚kontaminací'“.

…nebo archivovat i umělé?

Jiní odborníci, například Mark Graham z Internet Archive, se však domnívají, že obsah vytvořený umělou inteligencí stojí také za zvláštní uchování (i když odděleně). Podle Grahama by cílem nemělo být ani tak uchování minulosti, jako spíše dokumentace současnosti: jeho plánem je pokládat denně tisíc otázek různým modelům umělé inteligence a ukládat jejich odpovědi, jako algoritmický digitální deník. Tímto způsobem by bylo možné zaznamenávat (a analyzovat) vývoj umělé inteligence a vytvářet kroniku toho, jak se její chování a reakce v průběhu času mění.

Nebezpečí zhroucení

Kromě kulturních a historických důsledků má uchovávání lidského obsahu také technickou užitečnost: ochranu budoucí kvality samotné umělé inteligence. Pokud jsou modely stále častěji trénovány na informacích generovaných jinými modely, hrozí nebezpečí postupné degenerace známé jako kolaps modelu.

Je tomu tak proto, že algoritmy strojového učení jsou silně závislé na datech, na nichž jsou trénovány: pokud tato data již byla vygenerována, recyklována nebo pozměněna jinými umělou inteligencí, dostávají se do umělé smyčky zpětné vazby, která může ochudit kvalitu učení. Tento jev znamená ztrátu rozmanitosti a přesnosti systémů UI, což by nakonec vážně ovlivnilo jejich užitečnost.

Kolaps modelu je jev, který může vést k tomu, že UI ztratí schopnost inovace a stanou se nadbytečnými, protože by byly neustále zásobovány daty, která nepřinášejí nové poznatky nebo čerstvé informace. Aby se tomu zabránilo, je nezbytné udržovat stálý přísun původních lidských dat, která obohacují strojové učení.

Dopad umělé inteligence na digitální obsah se navíc neomezuje pouze na text. Obrázky, videa a další multimediální formáty jsou rovněž generovány a manipulovány umělou inteligencí, což dále komplikuje úkol zachovat autenticitu digitálního obsahu. Nástroje jako DALL-E a Midjourney prokázaly schopnost AI vytvářet vysoce kvalitní obrázky, což vyvolává nové otázky týkající se duševního vlastnictví a autenticity.

#