Reddit obviňuje Anthropic z krádeže dat pro trénink AI

Reddit v minulosti podepsal dohody s OpenAI nebo Googlem o využívání dat své komunity.

Způsob, jakým jsou umělé inteligence trénovány, je téma, které v minulosti vyvolalo mnoho kontroverzí, zejména pokud jde o původ dat, která společnosti k tomuto úkolu používají. Poslední velká kontroverze se týkala společnosti Reddit, která odsoudila startup AI Anthropic za to, že údajně používá její komunitní data bez licenční smlouvy.

V posledních několika hodinách společnost Reddit obvinila Anthropic z nezákonného využívání dat Redditu ke komerčním účelům, aniž by zaplatila jediný dolar a aniž by respektovala zásady ochrany osobních údajů. Na základě dohody nemá Reddit námitky proti sdílení konverzací svých uživatelů, což již učinil podpisem smluv se společnostmi Google a OpenAI.

„Anthropic ve skutečnosti záměrně trénuje s osobními údaji uživatelů Redditu, aniž by si vyžádal jejich souhlas,“ tvrdí společnost v podané stížnosti. Obvinění, které se Anthropicu vůbec nelíbilo, a v reakci na něj tvrzení odmítl a ujistil, že se bude bránit.

Reddit již v loňském roce zavedl několik opatření na ochranu veřejných informací zveřejňovaných v komunitě. V tomto ohledu jeho politika veřejného obsahu chránila příspěvky na subredditech a zajišťovala, aby odstraněný obsah a smazané komentáře nebyly zahrnuty do licenčních smluv na data. Ostatní informace však mohly být zpřístupněny na základě dohody.

Podle Redditu byla taková dohoda s Anthropicem téměř uzavřena, ale nikdy nebyla podepsána. Následně Reddit zjistil, že Anthropic získal přístup i k údajům komunity, které rychle zablokoval s odůvodněním, že „věříme v otevřený internet. To neznamená otevřený pro zneužívání“.

Právě umělá inteligence při tréninku vyžaduje obrovské množství dat, aby se mohla rozvíjet. V minulosti jsme byli svědky podobných kontroverzí, včetně trénování s knihami chráněnými autorskými právy, nebo známé žaloby New York Times proti Microsoftu a OpenAI kvůli používání obsahu z jeho článků.

Comment
byu/Wagamaga from discussion
intechnology

Význam dat při trénování modelů umělé inteligence nelze podceňovat. Tyto modely potřebují obrovské množství dat, aby se mohly učit a zlepšovat své schopnosti. Používání dat bez souhlasu však vyvolává obavy ohledně ochrany soukromí a práv duševního vlastnictví. Reddit, stejně jako jiné platformy, se snaží chránit práva svých uživatelů a zajistit, aby jakékoli použití jejich údajů probíhalo etickým a zákonným způsobem.

V této souvislosti je zásadní, aby společnosti zabývající se umělou inteligencí a datové platformy spolupracovaly na stanovení jasných a spravedlivých pravidel pro používání údajů. To nejen ochrání uživatele, ale také podpoří prostředí odpovědných inovací. Technologické společnosti by měly transparentně informovat o tom, jak data využívají, a měly by si před jejich použitím pro trénink AI vyžádat řádný souhlas.