Konec závislosti na Nvidii: Amazon našel způsob, jak obejít monopol s AI čipy

Konec závislosti na Nvidii: Amazon našel způsob, jak obejít monopol s AI čipy

Zdroj obrázku: askarimullin / Depositphotos

Amazon Web Services uvádí Trainium 3 – výkonný AI čip nové generace, který slibuje čtyřnásobný výkon oproti předchůdci a zásadní snížení spotřeby energie. Cílem není jen rychlejší trénink obřích modelů, ale také menší závislost na Nvidii a hlubší integrace hardwaru, cloudu a služeb. Amazon tak vstupuje do strategické fáze AI revoluce: chce ovládnout celou infrastrukturu – od čipu až po API.


V době, kdy umělá inteligence (AI) už není kuriozitou, ale strategickou infrastrukturou, se jeden z velkých hráčů v tomto odvětví (Amazon) rozhodl, že už mu nestačí nabízet cloudové služby: chce sám ovládat páteř AI. S tímto cílem AWS tento týden představila svůj nový specializovaný čip pro AI, Trainium 3, a jde o jasný útok na trh AI.

Nejprve je třeba si uvědomit, že Amazon má v oblasti AI značný globální potenciál, a to především prostřednictvím své cloudové divize Amazon Web Services (AWS), která podle odhadů firem, jako jsou Synergy Research a Canalys, ovládá zhruba třetinu globálního trhu s veřejným cloudem, před Microsoft Azure a Google Cloud. Tato pozice jí dává něco velmi cenného: rozsah, reálná data o využití a finanční sílu, která jí umožňuje navrhovat vlastní hardware a nespoléhat se pouze na třetí strany.

Pokud jde konkrétně o mikročip, podle AWS, servery s technologií Trainium 3 nabízejí více než čtyřikrát vyšší výkon než Trainium2. Pro trénování modelů umělé inteligence, přičemž spotřebovávají podstatně méně energie. V praxi to znamená, že můžete trénovat větší modely nebo dokončit trénink stávajícího modelu v kratším čase a s nižšími účty za energii, což je klíčové, když mluvíme o serverových farmách s tisíci čipy běžícími 24 hodin denně, 7 dní v týdnu.

Související článek

Když technologie selžou: Švédské školy se vracejí k papíru a knihám
Když technologie selžou: Švédské školy se vracejí k papíru a knihám

Švédsko po letech digitálního experimentu přehodnocuje svou cestu – výměna učebnic za tablety vedla ke zhoršení výsledků žáků. Ve světle nových dat se znovu otevírá debata o tom, jakou roli by technologie měly ve vzdělávání hrát – a zda by neměly být pouze doplňkem, nikoliv náhradou tradiční výuky.

Pro pochopení sázky stojí za to zařadit Trainium 3 do rodiny čipů Amazon. AWS již měla Inferentia, Trainium (první generace) a Trainium2. Trainium 3 je evolucí Trainium2 a je určeno pro novou generaci obřích modelů, tzv. foundation models, které mohou mít stovky miliard parametrů.

Podle společnosti Amazon může jediný server nové generace, takzvaný AWS UltraClusters s technologií Trainium 3, sdružovat desítky tisíc čipů propojených prostřednictvím vysokorychlostní sítě AWS (Elastic Fabric Adapter). To umožňuje téměř lineární škálování trénování modelů: výpočty jsou rozloženy na mnoho čipů a koordinovány prostřednictvím sítě optimalizované pro umělou inteligenci, což snižuje úzká místa, která jsou běžná při pokusech o trénování obrovských modelů na tradičních infrastrukturách.

Kromě toho tento průlom znamená také nezávislost na faktickém monopolu společnosti Nvidia na vysoce výkonný hardware pro umělou inteligenci. Doposud se většina velkých modelů AI – od chatbotů po generování obrázků a videí – spoléhala na specializované GPU od dominantních dodavatelů, především od společnosti Nvidia s jejími rodinami A100, H100 a nejnověji B200. Díky Trainium 3 začíná Amazon snižovat svou závislost na dodavatelích třetích stran, spoléhá se na vlastní architekturu pro optimalizaci AI a získává tak určitou volnost tváří v tvář napjatým dodávkám a vysokým cenám GPU.

Tento krok není jen otázkou technologické nadutosti. V posledních několika letech poptávka po čipech Nvidia výrazně převyšovala nabídku, což vedlo k čekacím listinám, zvyšování cen a k závodům mezi technologickými giganty o zajištění výpočetního výkonu. Navrhování vlastních čipů umožňuje společnosti AWS lépe kontrolovat náklady, dostupnost a plán a nabídnout zákazníkům integrovanou alternativu k tradičním GPU.

Pro podniky a vývojáře může možnost trénovat výkonné modely na vlastním hardwaru AWS snížit provozní náklady, což umožní realizovat méně ambiciózní nebo rozpočtově náročné projekty AI. Amazon tvrdí, že Trainium 3 dokáže zajistit výrazně nižší náklady na trénink než předchozí generace, a to díky kombinaci vyššího výkonu na čip, vyšší hustoty na server a nižší spotřeby energie. Pro plátce cloudových účtů to znamená méně eur na jeden experiment, na jedno vydání modelu nebo na jednu iteraci metodou pokus-omyl.

Kromě toho AWS integruje Trainium 3 se svými službami vyšší úrovně, jako jsou Amazon SageMaker (platforma pro trénování a nasazování modelů) a Amazon Bedrock (služba, která poskytuje hotové základní modely). Datový tým tak nemusí být hardwarovým expertem, aby mohl využít výhod čipu: může spustit školení pomocí známých nástrojů a nechat základní infrastrukturu (UltraClusters s Trainium 3), aby se postarala o náročnou část.

A nyní přichází jedna z klíčových otázek: Proč záleží na tom, že to spouští Amazon? Stejně jako mají telefony Pixel pozoruhodnou výhodu, pokud jde o operační systém (Android), díky tomu, že oba navrhl Google, má Amazon díky tomu, že má cloud a mikročipy, také výhodu: nabízí digitální i fyzickou část. Když ovládáte „železo“ (čipy a servery) a „software“ (cloud, API, nástroje umělé inteligence), můžete optimalizovat celý systém end-to-end.

To se promítá do velmi konkrétních věcí: například doladění návrhu čipu tak, aby lépe komunikoval se síťovými službami AWS, snížení latence mezi uzly nebo přizpůsobení kompilátoru a knihoven AI (jako jsou PyTorch nebo TensorFlow), aby se co nejlépe využily schopnosti Trainium 3. Namísto přizpůsobení cloudu obecnému čipu navrhuje Amazon čip s ohledem na svůj vlastní cloud. Jde o stejný přístup, jaký uplatňuje společnost Apple se svými čipy řady M v počítačích Mac nebo společnost Google se svými TPU ve svých datových centrech.

Co se může v budoucnu v oblasti umělé inteligence změnit? Stručná odpověď zní: větší, rychlejší a levnější modely. Díky většímu výpočetnímu výkonu a nižším nákladům na energii bude možné trénovat obrovské modely nebo jejich více verzí bez monumentálních rozpočtových překážek. To může urychlit obory, jako jsou generativní AI, simulace, rozsáhlá analýza dat nebo vědecký výzkum.

V praxi by to mohlo znamenat například specializované modely pro jednotlivá odvětví (zdravotnictví, finance, průmysl, vzdělávání) vyškolené na velmi specifických databázích, což je dnes drahé a složité. Může také usnadnit vytváření multimodálních modelů (porozumění textu, obrazu, zvuku a videu současně) nebo agentů AI schopných plánovat složité úkoly a pracovat s reálnými podnikovými systémy. To vše vyžaduje brutální množství výpočtů a čipy jako Trainium 3 se zaměřují právě na toto úzké místo.

Podniky už nebudou nuceny spoléhat se výhradně na GPU od jediného výrobce. Pokud budou AWS a další společnosti pokračovat ve vývoji konkurenceschopných čipů, trh s hardwarem pro umělou inteligenci se diverzifikuje, což může zmírnit ceny a podpořit inovace. Uvidíme různé architektury (nejen klasické GPU, ale i akcelerátory specifické pro AI, neuromorfní čipy atd.), které budou soutěžit o lepší výkon na watt za euro.

Zákazníkům se tak otevírají dveře ke strategiím s více cloudy a hardwarem: část svých modelů mohou trénovat na AWS s Trainium 3, část na Azure s GPU Nvidia nebo vlastními čipy Microsoftu a část na Google Cloud s TPU. Tato diverzita snižuje riziko uvěznění u jednoho poskytovatele (známý lock-in) a dává větší prostor pro vyjednávání o cenách a podmínkách.

Pokud AWS upevní svou pozici poskytovatele AI na klíč (čip + cloud + služby), mohl by se Amazon stát jednou z referenčních platforem pro nasazení modelů AI na světě, což by nově definovalo prostředí poskytovatelů a konkurence. A také by to s sebou přineslo potenciální monopolní konflikty, které musí tento gigant začít kontrolovat.

Regulační orgány již nyní kontrolují technologické giganty kvůli jejich moci v různých článcích digitálního řetězce: od dat po obchody s aplikacemi. Pokud bude stejná společnost ovládat fyzickou infrastrukturu (datová centra a čipy), vrstvu služeb (cloud) a navíc modely umělé inteligence, které na ní běží, diskuse o konkurenci a koncentraci moci se zintenzivní. Není náhodou, že Evropská komise a americké úřady zkoumají aliance a kroky v odvětví AI se zvláštní pozorností.

Dalším aspektem, který by neměl být přehlížen, je dopad na životní prostředí. Trénování velkých modelů AI spotřebovává obrovské množství energie a zdrojů. Amazon tvrdí, že Trainium 3 představuje oproti předchozí generaci výrazné zlepšení energetické účinnosti, což by v kombinaci se závazkem AWS využívat ve svých datových centrech stále více obnovitelné energie mohlo snížit uhlíkovou stopu na trénink modelu. Není to zázračné řešení problému, ale je to krok správným směrem: větší výpočetní výkon s menší spotřebou na jednu operaci.

Pro technické týmy je Trainium 3 dodáváno také s okolním softwarovým ekosystémem. AWS nabízí Neuron, svou SDK (vývojovou sadu) pro programování a optimalizaci modelů na platformě Trainium a Inferentia. Smyslem je, aby vývojáři mohli nadále používat známé frameworky, jako je PyTorch nebo TensorFlow, a pomocí této SDK kompilovat a spouštět své modely na čipech Amazonu, aniž by museli vše přepisovat od začátku. Čím transparentnější bude tento přechod, tím snadnější bude pro firmy testování nového hardwaru.

Oznámení Trainium 3 přichází v době, kdy své čipy vyvíjejí i další technologičtí giganti: možnosti, jako jsou TPU od Googlu, vlastní vývoj společností jako Microsoft, a dokonce i firmy navrhující specializované čipy na míru, všichni bojují o stejný cíl: efektivitu, výkon a kontrolu nad infrastrukturou umělé inteligence.

Například společnost Google má několik generací svých jednotek TPU (Tensor Processing Units), které pohánějí služby, jako jsou vyhledávání Google, YouTube a Google Cloud. Microsoft zase představil vlastní čipy, jako jsou Azure Maia (zaměřený na AI) a Azure Cobalt (pro obecné pracovní zátěže), se stejnou logikou jako Amazon: snížit závislost na Nvidii a přizpůsobit hardware svým potřebám. I společnosti jako Meta pracují na vlastních akcelerátorech AI pro svá datová centra.

Souběžně se objevily společnosti specializující se na čipy AI, jako jsou Graphcore, Cerebras a Groq, které navrhují alternativní architektury k tradičním GPU. To vše vytváří obraz, v němž „mozek“ AI již nebude automaticky synonymem pro GPU Nvidia, ale širším ekosystémem možností, z nichž každá má své vlastní výhody a kompromisy.

Trainium 3 zkrátka není jen „další čip“ v portfoliu AWS. Je to klíčový prvek ve strategii společnosti Amazon, která chce ovládnout infrastrukturu umělé inteligence nové generace: vyšší výkon, vyšší efektivita, menší závislost na třetích stranách a hluboká integrace s vlastním cloudem. Pro koncové uživatele to může znamenat schopnější asistenty, výkonnější kreativní nástroje, rychlejší analýzu dat a snad i konkurenci, která udrží ceny na uzdě a podpoří inovace.

Bitva o budoucnost umělé inteligence se už netýká jen algoritmů nebo aplikací, které vidíme na obrazovce. Rozhoduje se také v tichosti uvnitř těchto mikročipů.

#