Nová AI odhalí identitu anonymních účtů s vysokou přesností

Nová AI odhalí identitu anonymních účtů s vysokou přesností

Zdroj obrázku: monsit / Depositphotos

Nová studie ukazuje, že agenti s umělou inteligencí dokážou propojit anonymní profily na sociálních sítích s reálnými lidmi. Úspěšnost identifikace přitom výrazně překonává tradiční metody.


Online anonymita byla vždy považována za poměrně spolehlivý štít pro ty, kteří dávají přednost skrytí své skutečné identity. Nová studie však ukazuje, že komerčně dostupní agenti umělé inteligence jsou schopni propojit anonymní účty na sociálních sítích se skutečnými osobami, které za nimi stojí, což tento štít vážně zpochybňuje.

Vlády, podniky a kyberzločinci: Nejznepokojivější rizika

Autoři výzkumu varují, že tato schopnost otevírá dveře široké škále zneužití. Vlády by mohly tyto techniky využívat k identifikaci disidentů a kritických hlasů. Podniky by mohly mít možnost profilovat spotřebitele pro „hyper-cílené“ reklamní kampaně. A kyberzločinci by mohli vytvářet rozsáhlé databáze obětí a navrhovat vysoce personalizované podvody pomocí sociálního inženýrství.

To, že někdo může levně a rychle identifikovat osobu skrývající se za pseudonymním profilem, znamená, že je mnohem snazší vystavit tyto uživatele doxxingu, tj. zveřejňování osobních údajů, stejně jako obtěžování nebo podrobnému marketingovému profilování, které sleduje místo bydliště, profesní povolání a další citlivé informace.

Související článek

Sovětská zbraň zkázy znovu ožívá. Čína tajně vyvíjí neviditelné monstrum
Sovětská zbraň zkázy znovu ožívá. Čína tajně vyvíjí neviditelné monstrum

Peking sází na hybridní, nízkonákladové a těžko sledovatelné platformy, aby mohl ovládnout moře západního Pacifiku.

Výsledky, které výrazně převyšují tradiční metody

Testy výzkumníků zahrnovaly korelaci konkrétních osob s účty nebo příspěvky rozprostřenými na více platformách sociálních médií. Výsledky výrazně převyšovaly výsledky získané klasickými technikami deanonymizace, které jsou závislé na lidech shromažďujících strukturované soubory dat vhodné pro algoritmické porovnávání nebo na ruční práci specializovaných analytiků.

V číselném vyjádření dosahovala recall, tj. podíl uživatelů, jejichž anonymita byla úspěšně deanonymizována, až 68 %. Přesnost, která udává podíl shod při správném určení uživatele, dosáhla 90 %. Obě procenta se zvyšovala s tím, jak měly modely k dispozici více publikací a více dat ke křížové kontrole.

Modely LLM fungují zcela odlišně od klasických metod

Simon Lermen, spoluautor článku, vysvětlil, že skutečnou novinkou je, že tyto systémy jsou schopny začít od volného textu, jako je anonymizovaný přepis rozhovoru, a propracovat se až k úplné identitě osoby. To je poměrně nová schopnost; předchozí přístupy k opětovné identifikaci obvykle vyžadovaly strukturovaná data a dva soubory dat s podobným schématem, které by bylo možné propojit,“ řekl Lermen.

Podle výzkumníka se agenti s umělou inteligencí mohou pohybovat po webu a komunikovat s ním mnoha stejnými způsoby jako lidé a využívat simulované uvažování k porovnávání možných identit. Tím se radikálně odlišují od starších metod deanonymizace.

Samotná studie podrobně popisuje, že přesnost klasických útoků velmi rychle degraduje, což vysvětluje jejich nízkou výtěžnost. Útoky založené na rozsáhlých jazykových modelech, známých jako LLM, což je technologie, která pohání chatboty, jako je ChatGPT nebo Gemini, ztrácejí přesnost mnohem pozvolněji s tím, jak útočník provádí více pokusů.

Dokonce i nejjednodušší útok LLM (Search) dosahuje netriviální recall s nízkou přesností a jeho rozšíření o kroky Reason a Calibrate zdvojnásobuje recall @99% Accuracy,“ uvádí se v článku.

Jak byl experiment navržen

K provedení testů výzkumníci shromáždili několik souborů dat z veřejných sociálních sítí, přičemž respektovali soukromí autorů příspěvků. Jeden konkrétní příklad: shromáždili příspěvky z Hacker News od účtů, které vykazovaly přidružený profil na LinkedIn. Tato data byla následně anonymizována a byly na nich spuštěny jazykové modely ve snaze zvrátit tento proces.

Co lze udělat pro ochranu soukromí

Autoři studie navrhují řadu opatření ke zmírnění dopadů. Platformy by měly zavést rychlostní limity pro přístup k uživatelským datům prostřednictvím rozhraní API, odhalovat automatizovaný scraping, tj. automatizované hromadné získávání informací, a omezit rozsáhlé exporty dat. Poskytovatelé jazykových modelů by zase mohli monitorovat zneužití svých systémů k deanonymizačním útokům a začlenit do nich bariéry, které způsobí, že modely takové požadavky odmítnou.

Výzkumníci upozorňují, že ačkoli jsou jazykové modely stále náchylné k falešně pozitivním výsledkům a mají další omezení, rychle překonávají tradiční, na zdroje mnohem náročnější metody identifikace online uživatelů.

Průměrný uživatel internetu dlouho fungoval podle modelu implicitního ohrožení, kdy předpokládal, že pseudonym poskytuje dostatečnou ochranu, protože cílená deanonymizace by vyžadovala značné úsilí. LLM tento předpoklad vyvrací,“ zdůrazňují autoři článku, kteří v závěru vyzývají k akci:

„Naše práce ukazuje, že tváří v tvář kybernetickým útočným schopnostem řízeným LLM je pravděpodobně naléhavě nutné přehodnotit různé aspekty počítačové bezpečnosti. Totéž s největší pravděpodobností platí i pro ochranu soukromí“.

Zdroje článku

#