Meta trénovala AI na pirátských knihách. A věděli o tom všichni včetně vedení

Meta trénovala AI na pirátských knihách. A věděli o tom všichni včetně vedení

Zdroj obrázku: Novikov Aleksey / Shutterstock

Odhalení o využívání pirátských knih při tréninku modelů Meta odhalují hlubší problém celého AI odvětví. V sázce je nejen etika, ale i důvěra ve způsob, jakým vznikají nejvýkonnější jazykové modely současnosti.


Umělá inteligence (AI) rychle mění svět díky stále výkonnějším a schopnějším modelům. Vyvstává však zásadní otázka: odkud pocházejí data, která tuto revoluci umožňují? Soudní dokumenty, interní e-maily a výpovědi bývalých zaměstnanců, které nedávno odhalil francouzský sdělovací prostředek Mediapart, vrhají nové světlo na praxi, která je již známá jako masivní využívání pirátských knih k trénování jazykových modelů. Upozorňují také na zapojení ústřední evropské postavy AI do této praxe.

Jádro skandálu: Modely LibGen a LLaMA

Jádrem odhalení je knihovna Genesis, známá jako Library Genesis (LibGen), „neautorizovaná knihovna“, která shromažďuje miliony knih chráněných autorskými právy a přístupných bez povolení zákonných vlastníků. LibGen je úložiště s otevřeným přístupem, které se stalo předmětem kontroverze kvůli své roli při šíření obsahu chráněného autorskými právy bez souhlasu vlastníků.

Podle šetření Mediapartu Meta opakovaně využívala LibGen k tréninku své rodiny modelů LLaMA, které mají konkurovat systémům, jako je ChatGPT. Z analyzovaných dokumentů vyplývá, že stahování začalo v říjnu 2022 a dosáhlo odhadovaného objemu 70 terabytů dat, tedy desítek tisíc digitalizovaných knih. Toto masivní využívání neautorizovaných dat vyvolává vážné obavy o etiku a zákonnost postupů při tréninku umělé inteligence.

Související článek

Vrtulníky jsou minulostí. Tohle je budoucnost kontroly elektrických sítí
Vrtulníky jsou minulostí. Tohle je budoucnost kontroly elektrických sítí

Startup Nomadic Drones vyvíjí revoluční drony, které se dobíjejí přímo z vedení, jež kontrolují. Díky tomu mohou nepřetržitě sledovat infrastrukturu, předcházet poruchám a přetvářet energetickou síť v digitálně řízený a předvídavý systém.

Judge decides Fair Use allows Meta to use Libgen to train it's AI.
byu/ravenflavin77 inlibgen

Využití těchto zdrojů by nebylo okrajové ani náhodné. Interní e-maily a útržky kódu naznačují, že o této praxi se vědělo a v týmech se o ní diskutovalo, přestože někteří zaměstnanci vyjadřovali pochybnosti o její legálnosti. Tato kontroverze podtrhuje potřebu širší debaty o etice při vývoji umělé inteligence a odpovědnosti technologických společností při využívání dat.

Odpovědnost vedení společnosti Meta

Odhalení se neomezují pouze na jednotlivé iniciativy. Podle soudních dokumentů bylo informováno vedení společnosti Meta: některá podání dokonce naznačují, že Mark Zuckerberg schválil použití těchto datových souborů, a to v situaci, kdy by získání legálních licencí na miliony knih znamenalo astronomické náklady a dlouhé vyjednávání. Tato situace poukazuje na napětí mezi technologickými inovacemi a respektováním autorských práv.

Laboratoř FAIR, kterou v té době vedl renomovaný výzkumník Yann LeCun, se jeví jako místo, kde se přijímala mnohá z těchto rozhodnutí. Po spuštění LLaMA Meta krátce zvažovala legalizaci přístupu k licencovanému obsahu, než se vrátila k „volným“ zdrojům. Toto rozhodnutí odráží obtíže, s nimiž se technologické společnosti potýkají při hledání rovnováhy mezi inovacemi a dodržováním autorských práv.

Guillaume Lample, ze společnosti Meta do společnosti Mistral AI

Jedno ze jmen, které se výrazně objevuje, je jméno Guillauma Lampla, tehdy výzkumného pracovníka v laboratoři FAIR (Fundamental AI Research) společnosti Meta a nyní spoluzakladatele a vědeckého ředitele společnosti Mistral AI. Lample je vlivnou osobností v oblasti umělé inteligence, známou svou prací na modelování jazyka a zaměřením na špičkový výzkum.

Podle dokumentů, které byly odhaleny během soudního procesu, v němž se Meta postavila proti několika autorům, včetně spisovatele Richarda Kadreyho, Guillaume Lample údajně aktivně prosazoval používání LibGen v rámci Meta. V interních výměnách, které citoval Mediapart, je mu připisováno tvrzení, že „LibGen používají všichni“, a jako příklad uvádí OpenAI, Google a DeepMind. Tato prohlášení podtrhují rozšířenost pochybných praktik v odvětví umělé inteligence.

Když ostatní zaměstnanci upozornili na nutnost konzultovat právní oddělení, Lample údajně odpověděl, že se na nic neptal, protože předpokládal, že jde o běžnou praxi v oboru. Tento postoj poukazuje na nedostatečné povědomí o právních a etických důsledcích neoprávněného používání údajů.

Mistral AI a její sliby transparentnosti v podezření

Zájem médií o Guillauma Lampla nevysvětluje pouze jeho minulost ve společnosti Meta: v roce 2023 založil francouzský start-up Mistral AI, který se v rekordně krátké době stal jedním z nejvlivnějších hráčů v evropském ekosystému umělé inteligence s mnohamilionovou valuací. Společnost Mistral AI se postavila do čela prosazování transparentnosti a etiky ve vývoji umělé inteligence.

Od svého vzniku společnost Mistral AI prosazuje strategii založenou na „kvalitních“ datech a licenčních smlouvách a uzavírá partnerství s institucemi, jako jsou AFP, INA nebo Národní knihovna Francie. Cílem těchto partnerství je zajistit, aby modely AI byly trénovány na legálních a vysoce kvalitních datech.

Bývalí zaměstnanci společnosti Meta citovaní agenturou Mediapart však tvrdí, že v raných fázích vývoje modelu Mistral 7B mohla být použita také společnost LibGen, ačkoli v současné době neexistuje žádný dokumentární důkaz, který by to potvrzoval. Společnost poté, co ji Mediapart kontaktoval, tvrdí, že své modely trénuje pomocí nástroje „veřejně dostupných informací, licencovaných souborů dat a interně vytvořených syntetických dat“.

Debata, která přesahuje rámec technologie

Tento případ je součástí širšího konfliktu: v USA i v Evropě se množí žaloby autorů, vydavatelů a umělců na společnosti zabývající se umělou inteligencí, kteří je obviňují z přivlastňování chráněných děl bez náhrady. Tyto žaloby odrážejí rostoucí obavy z dopadu umělé inteligence na autorská práva a duševní vlastnictví.

Odhalení společností Meta a LibGen ukazují, že problém není okrajový, ale strukturální. Trénování rozsáhlých jazykových modelů vyžaduje kolosální množství dat a legální přístup k těmto materiálům se střetává s ekonomickými zájmy a rychlostí uvádění na trh. Toto dilema vyvolává zásadní otázky, jak vyvážit technologické inovace s respektováním práv tvůrců.

Nakonec se vše zúží na jedinou otázku: lze technologické inovace ospravedlnit na úkor práv tvůrců? Tato debata je zásadní pro budoucnost umělé inteligence a ochrany autorských práv v digitálním věku.

Zdroje článku

theatlantic.com, bbc.com
#