Konec závislosti na cloudu: Tohle 300gramové zařízení spustí největší AI modely i v lese

Konec závislosti na cloudu: Tohle 300gramové zařízení spustí největší AI modely i v lese

Zdroj obrázku: shutterstock

Po desetiletí byly superpočítače obřími stroji. Když se tedy objeví zařízení, které slibuje vměstnat výkon do přístroje o velikosti přenosné baterie, téměř automaticky vyvstává otázka: jak dalece lze umělou inteligenci miniaturizovat?


Přesně to navrhuje Tiiny AI Pocket Lab, zařízení představené startupem Tiiny AI, které o sobě tvrdí, že je nejmenším superpočítačem umělé inteligence na světě. Při délce pouhých 14 centimetrů, šířce osm centimetrů a tloušťce jen něco málo přes dva centimetry (přibližně velikost powerbanky) váží asi 300 gramů, ale slibuje provozovat modely umělé inteligence, které donedávna mohly běžet pouze v datových centrech. Díky své velikosti byl Guinnessovou knihou rekordů uznán jako nejmenší na světě.

Myšlenka zařízení je jednoduchá, ale ambiciózní: přesunout umělou inteligenci z cloudu do vaší kapsy. Uvnitř AI Pocket Lab se nachází 12jádrový procesor ARM doplněný o speciální neuronovou procesorovou jednotku (NPU). Společně dosahují přibližně 190 TOPS (bilionů operací za sekundu), což je běžné měřítko výpočetního výkonu umělé inteligence.

Z praktického hlediska je to na kapesní zařízení překvapivé číslo. Mnoho běžných notebooků s akcelerátorem AI se pohybuje mezi 30 a 50 TOPS, zatímco některé čipy určené speciálně pro AI v osobních počítačích – například nejnovější integrované NPU procesory od společností Intel, AMD nebo Qualcomm – se pohybují v rozmezí 40 až 100 TOPS kombinací CPU, GPU a NPU. Toto malé zařízení však tyto hodnoty překračuje a blíží se výkonu specializovaného hardwaru, jako jsou některé kompaktní akcelerační karty pro datová centra.

Související článek

Verdikt umělé inteligence: Tato země by podle dat vyhrála třetí světovou válku
Verdikt umělé inteligence: Tato země by podle dat vyhrála třetí světovou válku

Hrozba jaderné války je stále reálnější. Jakou roli by v ní hrála umělá inteligence? Nejnovější výzkumy ukazují alarmující fakta: v simulacích AI vždy eskaluje k použití jaderných zbraní.

Na první pohled však zaujme paměť: 80 GB paměti LPDDR5X RAM, což je množství, kterého mnoho profesionálních notebooků ani nedosahuje. Právě tato obrovská vyrovnávací paměť umožňuje něco neobvyklého: spouštění obřích jazykových modelů přímo v zařízení, bez připojení k internetu. AI Pocket Lab dokáže spustit modely umělé inteligence s až 120 miliardami parametrů, což je měřítko, které bylo donedávna vyhrazeno serverové infrastruktuře nebo profesionálním grafickým procesorům za tisíce dolarů, jako jsou NVIDIA A100 nebo H100, které jsou běžné v datových centrech umělé inteligence.

K pochopení rozsahu stačí rychlé srovnání: populární modely, jako je LLaMA 3 nebo Mistral, mají varianty s 8 až 70 miliardami parametrů a pro svůj hladký běh již vyžadují značnou paměť a šířku pásma. Schopnost zvládnout modely s až 120 miliardami parametrů na zařízení kapesní velikosti otevírá dveře úlohám, které byly dříve vyhrazeny velkým GPU clusterům.

Jinými slovy, úlohy, jako je komplexní analýza textu, generování kódu nebo vícestupňové uvažování, by mohly být prováděny přímo v zařízení. Podle vývojářů tato schopnost dosahuje toho, co popisují jako „inteligenci na úrovni doktorandů“, tj. modelů schopných řešit složité problémy s vícestupňovým uvažováním. A to vše bez závislosti na externích serverech.

Co to znamená v praxi, je třeba upřesnit. Nejde o to, že zařízení „má doktorát“, ale o to, že dokáže spouštět modely srovnatelné co do složitosti a hloubky odpovědí s těmi, které se dnes používají v akademickém a pokročilém výzkumném prostředí pro úlohy, jako je např:

  • Recenzování a shrnutí rozsáhlých vědeckých článků.
  • Asistence při programování, ladění kódu a generování skriptů.
  • Navrhování experimentů, základní statistická analýza a jednoduché simulace.
  • Překlad a sémantická analýza velkých objemů textu.

Tento přístup má dvě důležité výhody. První z nich je soukromí: data nikdy neopustí zařízení. Druhou je nezávislost na cloudu, což znamená, že umělou inteligenci lze používat i na místech bez připojení k internetu.

Ochrana soukromí není zanedbatelným detailem. Mnoho cloudových služeb umělé inteligence zahrnuje odesílání textu, obrázků nebo dokonce hlasových záznamů na externí servery, což je citlivé, pokud jde o lékařské, finanční nebo obchodní informace. Díky lokálnímu spouštění modelů si uživatel zachovává kontrolu nad svými daty, což je přístup v souladu s trendem takzvané „edge AI“, který se snaží přiblížit zpracování dat ke koncovému zařízení, místo aby vše centralizoval ve velkých datových centrech.

Klíčem ke kompresi tak velké kapacity do tak malého zařízení je efektivita. Systém využívá optimalizační techniky, jako je TurboSparse, která během výpočtu aktivuje pouze nezbytné části neuronové sítě, a PowerInfer, mechanismus, který rozděluje práci mezi CPU a specializované procesory.

Tyto techniky se opírají o dvě relativně nové myšlenky v oblasti umělé inteligence:

  • Sparsity: místo aktivace všech neuronů v síti v každém výpočetním kroku se aktivují pouze ty, které skutečně poskytují relevantní informace. Tím se výrazně snižuje počet potřebných operací, a tím i spotřeba energie.
  • Hybridní inference: PowerInfer rozděluje zátěž mezi univerzální CPU a specializované akcelerátory (jako je NPU), přičemž každý typ procesoru využívá co nejvíce v závislosti na typu operace. To zabraňuje tomu, aby se některá z částí systému stala úzkým hrdlem.

Namísto snahy o replikaci obrovského hrubého výkonu datových center zařízení tento problém redukuje: počítá pouze to, co je nezbytné. Díky tomu může celý systém pracovat s relativně nízkou spotřebou energie vzhledem ke svému výkonu – tepelná spotřeba se pohybuje kolem 30 W a při plném provozu kolem 65 W, což je na hony vzdálené profesionálním GPU, které mohou spotřebovávat více než desetinásobek. Pro představu, špičkový grafický procesor pro umělou inteligenci, jako je například NVIDIA H100, může při plném zatížení spotřebovat více než 700 wattů.

Tato rovnováha mezi výkonem a energetickou účinností je obzvláště důležitá v době, kdy se spotřeba energie datových center AI stává celosvětovým problémem. Zprávy odhadují, že v příštím desetiletí by se poptávka po energii v datových centrech mohla zdvojnásobit, což bude z velké části způsobeno generativní umělou inteligencí. Zařízení jako AI Pocket Lab ukazují na alternativní cestu: namísto centralizace všech výpočtů v obřích serverových farmách rozložit část této zátěže na miliony malých osobních zařízení.

Kromě čísel navrhuje AI Pocket Lab změnu paradigmatu v tom, jak komunikujeme s umělou inteligencí. Dosud převládal model „AI jako služba“: uživatel se připojí ke cloudové platformě, odešle požadavek a obdrží odpověď vygenerovanou na vzdáleném serveru. To se podobá počátkům výpočetní techniky, kdy terminály byly „hloupé“ a veškeré zpracování probíhalo na velkém centrálním počítači.

AI Pocket Lab poukazuje na jiný scénář: osobní, lokální a přenosnou umělou inteligenci, něco, co se více podobá vlastnictví počítače než pronájmu výpočetního výkonu v cloudu. V tomto modelu by uživatel mohl:

  • Nosit svého vlastního asistenta AI s vlastními daty a preferencemi, aniž by se musel spoléhat na cloudový účet.
  • Pracovat s citlivými informacemi (obchodní projekty, údaje o zákaznících, právní dokumentace), aniž by opustil své fyzické prostředí.
  • Nasadit vlastní modely pro velmi specifické úlohy, od řízení robotů po analýzu senzorů v reálném čase.
  • Používat umělou inteligenci v prostředí s omezenou nebo žádnou konektivitou: vzdálené laboratoře, lodě, venkovské oblasti nebo izolované průmyslové závody.

V tomto smyslu se kapesní laboratoř AI pohybuje na stejné vlně jako další „osobní AI“ zařízení, která se začínají objevovat na trhu, jako jsou takzvané „AI PC“ – přenosné počítače se specializovanými čipy AI – nebo malé akcelerátory připojitelné přes USB nebo PCIe. Rozdíl je v tom, že v tomto případě je celý stroj od základu navržen s ohledem na AI jako prioritu, a nejedná se o univerzální počítač s přidaným NPU.

Samotná architektura ARM, kterou zařízení používá, do této filozofie dobře zapadá. ARM je rodina procesorů známá svou nízkou spotřebou energie a masivním zastoupením v mobilních a vestavných zařízeních. V posledních letech se však prosadila i v oblasti vysoce výkonných počítačů – příkladem mohou být čipy Apple Silicon v počítačích Mac nebo procesory ARM pohánějící některé z nejvýkonnějších superpočítačů na světě, například japonský Fugaku. Kapesní laboratoř AI navazuje na stejný trend: využívá efektivitu architektury ARM k vytvoření výkonných, ale kompaktních strojů s umělou inteligencí.

Takové zařízení má samozřejmě také svá omezení. Ačkoli na něm lze spouštět modely s až 120 miliardami parametrů, je stále daleko od největších modelů, které se dnes trénují v datových centrech a které mohou přesahovat jeden bilion (jeden milion milionů) parametrů, nebo dokonce triliony (jeden milion milionů milionů) parametrů a vyžadují tisíce paralelně pracujících grafických procesorů. Navíc je AI Pocket Lab primárně určen k inferenci (tj. ke spouštění již natrénovaných modelů), nikoli k trénování gigantických modelů od nuly, což je úkol, který zůstává doménou velkých infrastruktur.

Přesto pro mnoho reálných použití – od osobních asistentů přes nástroje produktivity až po vzdělávací aplikace nebo aplikace aplikovaného výzkumu – může být lokální inferenční schopnost, kterou taková zařízení nabízejí, více než dostatečná. Především však otevírá dveře novému softwarovému ekosystému: aplikacím navrženým tak, aby využívaly rozsáhlé modely bez nutnosti připojení ke cloudu.

Dalším zajímavým aspektem je dopad, který by to mohlo mít na komunitu vývojářů a nezávislý výzkum. Dosud experimentování s modely s desítkami miliard parametrů vyžadovalo přístup k drahým zdrojům, ať už prostřednictvím univerzit, firem nebo cloudových kreditů. Relativně cenově dostupné zařízení, které by umožnilo tyto modely spouštět lokálně, by mohlo demokratizovat přístup k pokročilé umělé inteligenci podobně, jako osobní počítače demokratizovaly programování v 80. a 90. letech minulého století.

Souběžně s tím již průmysl směřuje ke standardům a nástrojům, které takové lokální nasazení usnadňují. Knihovny jako ONNX Runtime, TensorRT nebo odlehčené frameworky jako llama.cpp jsou navrženy právě pro optimalizaci odvozování na různém hardwaru, od serverů po okrajová zařízení. Je logické, že zařízení jako AI Pocket Lab bude přímo či nepřímo kompatibilní s tímto ekosystémem a umožní vývojářům relativně snadno přenášet stávající modely.

Možná nejzajímavější na tomto zařízení není jeho velikost nebo výkon, ale to, co představuje. Umělá inteligence se již léta řídí stejným modelem: velká datová centra, obrovské náklady na energii a neustálá závislost na vzdálených serverech. Kapesní laboratoř AI ukazuje na jiný scénář: osobní, lokální, přenosnou umělou inteligenci, která se více podobá vlastnictví počítače než pronájmu výpočetního výkonu v cloudu. Pokud bude tento trend pokračovat, budoucnost umělé inteligence by mohla vypadat méně jako obří datová centra a více jako malá osobní zařízení schopná přemýšlet, analyzovat a tvořit,  přímo z naší kapsy.

Do jaké míry se tento přístup stane hlavním proudem, se teprve ukáže. Je možné, že v příštích letech budou vedle sebe existovat oba světy: velké modely v cloudu pro rozsáhlé úlohy s vysokou mírou spolupráce a lokální modely v osobních zařízeních pro každodenní život, soukromí a extrémní personalizaci. Ale skutečnost, že „superpočítač“ s umělou inteligencí se již vejde do kapsy, je jasným znamením, kam se technologie posouvá: méně hluku ventilátorů, méně kabelů a více distribuované inteligence, tiché a blízko uživatele.

Zdroje článku

tiiny.ai, techpowerup.com
#