Meta trénovala AI na pirátských knihách. A věděli o tom všichni včetně vedení

Odhalení o využívání pirátských knih při tréninku modelů Meta odhalují hlubší problém celého AI odvětví. V sázce je nejen etika, ale i důvěra ve způsob, jakým vznikají nejvýkonnější jazykové modely současnosti.

Umělá inteligence (AI) rychle mění svět díky stále výkonnějším a schopnějším modelům. Vyvstává však zásadní otázka: odkud pocházejí data, která tuto revoluci umožňují? Soudní dokumenty, interní e-maily a výpovědi bývalých zaměstnanců, které nedávno odhalil francouzský sdělovací prostředek Mediapart, vrhají nové světlo na praxi, která je již známá jako masivní využívání pirátských knih k trénování jazykových modelů. Upozorňují také na zapojení ústřední evropské postavy AI do této praxe.

Jádro skandálu: Modely LibGen a LLaMA

Jádrem odhalení je knihovna Genesis, známá jako Library Genesis (LibGen), „neautorizovaná knihovna“, která shromažďuje miliony knih chráněných autorskými právy a přístupných bez povolení zákonných vlastníků. LibGen je úložiště s otevřeným přístupem, které se stalo předmětem kontroverze kvůli své roli při šíření obsahu chráněného autorskými právy bez souhlasu vlastníků.

Podle šetření Mediapartu Meta opakovaně využívala LibGen k tréninku své rodiny modelů LLaMA, které mají konkurovat systémům, jako je ChatGPT. Z analyzovaných dokumentů vyplývá, že stahování začalo v říjnu 2022 a dosáhlo odhadovaného objemu 70 terabytů dat, tedy desítek tisíc digitalizovaných knih. Toto masivní využívání neautorizovaných dat vyvolává vážné obavy o etiku a zákonnost postupů při tréninku umělé inteligence.

Judge decides Fair Use allows Meta to use Libgen to train it's AI.
byu/ravenflavin77 inlibgen

Využití těchto zdrojů by nebylo okrajové ani náhodné. Interní e-maily a útržky kódu naznačují, že o této praxi se vědělo a v týmech se o ní diskutovalo, přestože někteří zaměstnanci vyjadřovali pochybnosti o její legálnosti. Tato kontroverze podtrhuje potřebu širší debaty o etice při vývoji umělé inteligence a odpovědnosti technologických společností při využívání dat.

Odpovědnost vedení společnosti Meta

Odhalení se neomezují pouze na jednotlivé iniciativy. Podle soudních dokumentů bylo informováno vedení společnosti Meta: některá podání dokonce naznačují, že Mark Zuckerberg schválil použití těchto datových souborů, a to v situaci, kdy by získání legálních licencí na miliony knih znamenalo astronomické náklady a dlouhé vyjednávání. Tato situace poukazuje na napětí mezi technologickými inovacemi a respektováním autorských práv.

Laboratoř FAIR, kterou v té době vedl renomovaný výzkumník Yann LeCun, se jeví jako místo, kde se přijímala mnohá z těchto rozhodnutí. Po spuštění LLaMA Meta krátce zvažovala legalizaci přístupu k licencovanému obsahu, než se vrátila k „volným“ zdrojům. Toto rozhodnutí odráží obtíže, s nimiž se technologické společnosti potýkají při hledání rovnováhy mezi inovacemi a dodržováním autorských práv.

Guillaume Lample, ze společnosti Meta do společnosti Mistral AI

Jedno ze jmen, které se výrazně objevuje, je jméno Guillauma Lampla, tehdy výzkumného pracovníka v laboratoři FAIR (Fundamental AI Research) společnosti Meta a nyní spoluzakladatele a vědeckého ředitele společnosti Mistral AI. Lample je vlivnou osobností v oblasti umělé inteligence, známou svou prací na modelování jazyka a zaměřením na špičkový výzkum.

Podle dokumentů, které byly odhaleny během soudního procesu, v němž se Meta postavila proti několika autorům, včetně spisovatele Richarda Kadreyho, Guillaume Lample údajně aktivně prosazoval používání LibGen v rámci Meta. V interních výměnách, které citoval Mediapart, je mu připisováno tvrzení, že „LibGen používají všichni“, a jako příklad uvádí OpenAI, Google a DeepMind. Tato prohlášení podtrhují rozšířenost pochybných praktik v odvětví umělé inteligence.

Když ostatní zaměstnanci upozornili na nutnost konzultovat právní oddělení, Lample údajně odpověděl, že se na nic neptal, protože předpokládal, že jde o běžnou praxi v oboru. Tento postoj poukazuje na nedostatečné povědomí o právních a etických důsledcích neoprávněného používání údajů.

Mistral AI a její sliby transparentnosti v podezření

Zájem médií o Guillauma Lampla nevysvětluje pouze jeho minulost ve společnosti Meta: v roce 2023 založil francouzský start-up Mistral AI, který se v rekordně krátké době stal jedním z nejvlivnějších hráčů v evropském ekosystému umělé inteligence s mnohamilionovou valuací. Společnost Mistral AI se postavila do čela prosazování transparentnosti a etiky ve vývoji umělé inteligence.

Od svého vzniku společnost Mistral AI prosazuje strategii založenou na „kvalitních“ datech a licenčních smlouvách a uzavírá partnerství s institucemi, jako jsou AFP, INA nebo Národní knihovna Francie. Cílem těchto partnerství je zajistit, aby modely AI byly trénovány na legálních a vysoce kvalitních datech.

Bývalí zaměstnanci společnosti Meta citovaní agenturou Mediapart však tvrdí, že v raných fázích vývoje modelu Mistral 7B mohla být použita také společnost LibGen, ačkoli v současné době neexistuje žádný dokumentární důkaz, který by to potvrzoval. Společnost poté, co ji Mediapart kontaktoval, tvrdí, že své modely trénuje pomocí nástroje „veřejně dostupných informací, licencovaných souborů dat a interně vytvořených syntetických dat“.

Debata, která přesahuje rámec technologie

Tento případ je součástí širšího konfliktu: v USA i v Evropě se množí žaloby autorů, vydavatelů a umělců na společnosti zabývající se umělou inteligencí, kteří je obviňují z přivlastňování chráněných děl bez náhrady. Tyto žaloby odrážejí rostoucí obavy z dopadu umělé inteligence na autorská práva a duševní vlastnictví.

Odhalení společností Meta a LibGen ukazují, že problém není okrajový, ale strukturální. Trénování rozsáhlých jazykových modelů vyžaduje kolosální množství dat a legální přístup k těmto materiálům se střetává s ekonomickými zájmy a rychlostí uvádění na trh. Toto dilema vyvolává zásadní otázky, jak vyvážit technologické inovace s respektováním práv tvůrců.

Nakonec se vše zúží na jedinou otázku: lze technologické inovace ospravedlnit na úkor práv tvůrců? Tato debata je zásadní pro budoucnost umělé inteligence a ochrany autorských práv v digitálním věku.