Případ Anthropic: Knihovna, která shořela, aby nakrmila umělou inteligenci

Anthropic najal bývalého manažera společnosti Google Books a pověřil ho získáním všech knih na světě.

Společnost Anthropic, která se zabývá umělou inteligencí, se ocitla v centru právního sporu kvůli tomu, že k trénování své proslulé umělé inteligence Claude používala obsah třetích stran. To zahrnuje mimo jiné využívání milionů knih, které Anthropic podle svého tvrzení zakoupil. Nyní se díky soudnímu rozhodnutí objevily nové skutečnosti a jedna z nich vzbudila zvláštní pozornost: co společnost s těmito knihami udělala poté, co je použila.

Již před několika dny Genbeta zveřejnila, jak se modely umělé inteligence schopné generovat texty stále více objevují v našem každodenním životě. A to nutí mnoho lidí klást si zásadní otázku: kde se tyto stroje naučily psát tak, jak píší? A vidíme, že v mnoha případech to bylo tak, že přebíraly texty a knihy, a dokonce i umělecká díla, aniž by k tomu měly oprávnění od jejich autorů nebo aniž by platily za práva.

Nyní soudní dokumenty odhalily, že společnost Anthropic, která se zabývá umělou inteligencí, utratila miliony dolarů za skenování tištěných knih, aby vyvinula Clauda, svého asistenta umělé inteligence podobného ChatGPT a vysoce ceněného mezi vývojáři. A poté, co je naskenovala, je zničila.

Jak Anthropic vycvičil svou umělou inteligenci

Konkrétně společnost Anthropic investovala miliony dolarů do fyzického skenování tištěných knih, aby mohla vytvořit Clauda. Společnost přitom vyřízla miliony tištěných knih z jejich vazeb, naskenovala je do digitálních souborů a originály vyhodila pouze za účelem tréninku své umělé inteligence.

Rozsudek na 32 stranách vypráví o tom, jak společnost v únoru 2024 najala Toma Turveyho, bývalého ředitele projektu skenování knih Google Books, a pověřila ho získáním „všech knih na světě“.

Zdá se, že cílem tohoto strategického najmutí bylo zopakovat úspěšný přístup společnosti Google k digitalizaci knih: stejnou operaci skenování, která překonala námitky týkající se autorských práv a stanovila klíčové precedenty spravedlivého použití (v té době byla kontroverzní, včetně soudních sporů).

Podle nyní zveřejněných informací je sice skenování a následné zničení běžnou praxí v některých knižních digitalizačních operacích, ale přístup společnosti Anthropic byl poněkud neobvyklý kvůli obrovskému množství naskenovaných knih. Pro srovnání, v projektu Google Books byl použit postup skenování milionů knih vypůjčených z knihoven, které byly následně vráceny na své místo, nikoli zničeny.

Právní, praktický a obchodní nepořádek

Soudce v případu, který se jmenoval William Alsup, rozhodl, že tato destruktivní operace skenování je kvalifikována jako spravedlivé použití, ale pouze proto, že Anthropic nejprve legálně zakoupil knihy, po naskenování zničil každou papírovou kopii a digitální soubory si ponechal interně, místo aby je distribuoval.

Je třeba říci, že před touto strategií Anthropic podle zveřejněných informací původně zvolil jinou cestu: při hledání kvalitních tréninkových dat Anthropic podle soudního podání shromažďoval digitalizované verze zkopírovaných knih, aniž by platil za licenci na autorská práva. Tímto způsobem se mohli vyhnout tomu, co generální ředitel Dario Amodei nazval „právním, praktickým a obchodním zmatkem“ s odkazem na licenční jednání s vydavateli.

Comment
byu/a_Ninja_b0y from discussion
inbooks

V roce 2024 však společnost Anthropic ztratila důvěru v používání elektronických knih bez licence „z právních důvodů“ a potřebovala bezpečnější zdroj, a tak přistoupila k nákupu knih, jejich skenování a ničení.

Rozsudek představuje precedens

Soud dospěl k závěru, že společnost nese vinu za používání „pirátských knih“, ale že nákup knih a jejich následné skenování bylo legální.

V rozsudku se uvádí:

„Před nákupem knih pro svou centrální knihovnu si společnost Anthropic stáhla více než sedm milionů pirátských kopií, nic za ně nezaplatila a ponechala si je ve své knihovně i poté, co se rozhodla, že je nebude používat k výcviku své umělé inteligence. Autoři tvrdí, že společnost Anthropic měla za tyto pirátské kopie z knihovny zaplatit“.

Rozhodnutí federálního soudce v San Francisku, že Anthropic neporušil autorský zákon, když použil zakoupené knihy k trénování svých modelů umělé inteligence Claude, přestože neměl povolení od jednotlivých autorů, je vítězstvím pro odvětví umělé inteligence.

Odvětví umělé inteligence potřebuje kvalitní texty

Ukazuje to, že AI potřebuje kvalitní texty, které konečně napsali lidé. Společnosti v tomto odvětví vytvářejí své AI z rozsáhlých jazykových modelů (LLM), pro které potřebují do „neuronové sítě“ vložit miliardy slov.

Comment
byu/Chaotic-Entropy from discussion
innottheonion

Kvalita trénovacích dat, která jsou do neuronové sítě přiváděna, přímo ovlivňuje výsledky, takže kvalitní knihy a články udělají výsledný nástroj mnohem lepším než krmení komentáři, které lidé náhodně zanechávají na sociálních sítích.

V této souvislosti vyvolává používání tištěných knih jako zdroje dat pro trénování modelů umělé inteligence otázky ohledně rovnováhy mezi technologickými inovacemi a autorskými právy. Rozhodnutí společnosti Anthropic knihy po naskenování zničit odráží přístup, který se snaží vyhnout právním konfliktům, ale také zdůrazňuje potřebu najít udržitelná řešení pro přístup ke kvalitnímu obsahu, aniž by byla ohrožena práva autorů.