Stačí jeden špatný krok a svět přestane fungovat. V pátek jsme to viděli

V pátek dopoledne došlo k masivnímu výpadku služeb na internetu – problémy u Cloudflare a Amazon Web Services způsobily rozsáhlé selhání webů, aplikací i klíčových služeb. Ukázalo se, že moderní internet stojí na překvapivě malém počtu neviditelných pilířů – a když zakolísají, pocítí to celý svět.

To, co by před několika lety znamenalo „jen“ výpadek několika stránek, se nyní promítá do přerušení kritických služeb: streamovací platformy, média, internetové obchody, bankovní aplikace, nástroje pro vzdálenou práci a dokonce i vládní služby zaznamenávají chyby při načítání, extrémní zpomalení nebo dokonce hlášení „služba není dostupná“.

Podle prvních zpráv od uživatelů a správců systémů se problémy projevují různými způsoby: některé webové stránky nepřekládají doménu (tj. prohlížeč ani nemůže najít správnou adresu), jiné se načítají částečně bez obrázků nebo stylů a v mnoha případech mobilní aplikace při pokusu o připojení ke svým serverům zobrazují chybové zprávy.

Co se děje se službou Cloudflare a AWS?

Cloudflare a Amazon Web Services jsou dva velké pilíře dnešní internetové infrastruktury, přesto jsou pro většinu koncových uživatelů prakticky neviditelné. Když se problémy vyskytnou u obou současně, jejich dopad se znásobí.

Cloudflare je společnost specializující se na síťové a bezpečnostní služby: funguje jako prostředník mezi uživateli a webovými stránkami, nabízí síť pro doručování obsahu (CDN), ochranu před útoky DDoS a optimalizaci provozu. Na její síti jsou závislé miliony webových stránek, od malých blogů až po velká mezinárodní média, jejichž načítání je rychlé a chráněné.

Amazon Web Services je zase největší světovou platformou pro cloud computing. Mnoho společností již nemá vlastní fyzické servery, ale pronajímá si výpočetní, úložnou a databázovou kapacitu od AWS. Když má některý region AWS problémy, mohou přestat fungovat celé aplikace, i když uživatel o Amazon Web Services nikdy neslyšel.

Prozatím se na oficiálních stavových tabulích obou společností začaly odrážet problémy s několika jejich základními službami, ačkoli podrobná technická zpráva o zdroji selhání zatím nebyla zveřejněna. V předchozích epizodách se podobné problémy týkaly chyb v konfiguraci směrovacích systémů (například BGP), selhání služeb DNS nebo aktualizací softwaru, které měly nechtěné účinky.

Jak zjistit globální výpadek

První signál, že něco není v pořádku, často přichází od samotných uživatelů. Platformy, jako je DownDetector, shromažďují v reálném čase upozornění na výpadky nahlášená uživateli internetu a seskupují je podle služeb. Když se během několika minut spustí hlášení o problémech na webových stránkách, které se od sebe velmi liší, ale které sdílejí poskytovatele, jako je Cloudflare nebo AWS, začíná se objevovat vzorec hromadného výpadku.

Kromě těchto veřejných platforem používá mnoho společností vlastní monitorovací nástroje, které automaticky kontrolují, zda jejich služby z různých částí světa reagují správně. Když se výstražné systémy spustí současně ve více zemích, technické týmy často rychle potvrdí, že se nejedná o lokální selhání, ale o širší incident.

Proč se takový incident týká „poloviny internetu“

Abychom pochopili rozsah takového výpadku, je třeba vzít v úvahu, do jaké míry byla internetová infrastruktura soustředěna u několika poskytovatelů. Ačkoli je síť teoreticky decentralizovaná, v praxi prochází obrovské množství provozu několika málo rukama.

Společnost Cloudflare tvrdí, že zpracovává velmi významnou část světového provozu HTTP a DNS a že je přítomna ve stovkách datových center po celém světě.
AWS hostuje vše od malých startupů po technologické giganty, státní správu a základní služby v některých zemích.

To znamená, že přerušení jeho služeb neovlivní jen konkrétní webové stránky, ale tisíce projektů, jejichž fungování na nich závisí. V minulosti se kvůli výpadkům Cloudflare staly nedostupnými herní platformy, služby pro zasílání zpráv, zpravodajské weby a dokonce i webové stránky veřejných institucí. Totéž se stalo s AWS, která v minulých incidentech vyřadila z provozu vše od streamovacích služeb až po interní systémy velkých společností.

Možné příčiny: od chyb v konfiguraci až po problémy se sítí

Dokud společnosti nezveřejní oficiální zprávu, lze o zdroji incidentu jen opatrně spekulovat. Zkušenosti z předchozích epizod však umožňují nastínit některé běžné scénáře:

Problémy s DNS: Systém doménových jmen je „telefonním seznamem“ internetu. Pokud dojde k selhání DNS poskytovatele, domény se přestanou překládat a webové stránky jako by „zmizely“, přestože servery jsou stále v provozu.
Chyby směrování (BGP): BGP je protokol, který používají velcí operátoři, aby si navzájem sdělili, kam mají být data směrována. Chyba v konfiguraci může způsobit, že se některé přenosy „ztratí“ nebo jsou směrovány nesprávně, což způsobí nedostupnost služeb z určitých regionů.
Neúspěšné aktualizace: Cloudflare i AWS neustále aktualizují svůj software a infrastrukturu. Špatně otestovaná aktualizace nebo hromadně aplikovaná změna konfigurace může vyvolat dominový efekt.
Nasycení nebo útoky DDoS: Přestože tyto společnosti disponují vysoce pokročilou obranou, rozsáhlý útok typu odepření služby nebo neočekávaný nárůst provozu může vyvolat jednorázové problémy, pokud se shodují s jinými faktory.

Comment
byu/Ifyouliveinadream from discussion
inNoStupidQuestions

V případě předchozích incidentů společnosti následně zveřejnily podrobné analýzy (postmortemy), ve kterých vysvětlují, co se stalo, jaká rozhodnutí učinily pro zmírnění problému a jaké změny provedou, aby zabránily jeho opakování.

Jak to ovlivňuje běžného uživatele

Pro běžného uživatele je nejzřetelnějším příznakem to, že „internet nejde“. Některé aplikace se neotevřou, některé aplikace zůstanou viset po neurčitou dobu a na některých webových stránkách se zobrazí chybové zprávy. V mnoha případech není problém v zařízení nebo domácím připojení, ale v infrastruktuře, která za ním stojí.

Mezi nejčastější následky pádu tohoto typu patří:

Nemožnost přístupu k online službám: od sociálních sítí přes video platformy až po služby cloudových úložišť.
Přerušení práce na dálku: mohou přestat fungovat videokonference, nástroje pro řízení projektů nebo firemní e-mail umístěné v cloudu.
Problémy s nákupy a platbami: online obchody, platební brány a bankovní aplikace mohou při pokusu o dokončení transakce zobrazovat chyby.
Dopad na veřejné služby a informace: vládní webové stránky, portály pro sjednávání schůzek nebo informační stránky pro občany mohou být nedostupné právě ve chvíli, kdy jsou nejvíce potřeba.

V těchto případech restartování směrovače nebo změna prohlížeče obvykle nic nevyřeší, protože zdroj problému je o několik úrovní výše, v samotné „páteři“ sítě.

Co mohou postižené společnosti udělat

Společnosti, které se spoléhají na Cloudflare a AWS, mají obvykle zavedeny pohotovostní plány, ale ty ne vždy stačí k tomu, aby se zabránilo dopadům globálního výpadku. Mezi běžná opatření patří např:

Redundance více cloudů: rozdělení infrastruktury mezi více poskytovatelů cloudů (např. AWS, Google Cloud a Azure), aby bylo možné přesměrovat provoz v případě výpadku jednoho z nich.
Využití více poskytovatelů DNS a CDN: kombinace služeb od různých společností, aby se snížilo riziko selhání jednoho bodu.
Komunikační plány: v případě výpadku primární služby neprodleně informujte uživatele prostřednictvím sociálních médií, alternativních stavových stránek nebo kanálů podpory.
Pravidelné testování odolnosti: simulujte částečné výpadky, abyste otestovali, jak infrastruktura reaguje a jakou dobu obnovy lze zaručit.

I při těchto opatřeních však může současný výpadek u dvou tak velkých hráčů, jako jsou Cloudflare a AWS, způsobit narušení, kterému je obtížné se vyhnout, zejména u služeb, které jsou na jejich platformách silně závislé.

Připomínka křehkosti sítě

Podobné epizody slouží jako připomínka toho, že internet, přestože se tváří jako robustní a všudypřítomný systém, zůstává zranitelný vůči výpadkům soustředěným na několika klíčových místech. Rostoucí závislost na cloudu a velkých poskytovatelích infrastruktury vyvolává debaty o koncentraci technologické moci a potřebě navrhovat distribuovanější a odolnější systémy.

Očekává se, že v následujících dnech společnosti Cloudflare i Amazon Web Services zveřejní podrobné zprávy o tom, co se stalo, jaké byly technické příčiny výpadku a jaké kroky podniknou k posílení své infrastruktury. Do té doby mohou postižení uživatelé a podniky pouze čekat, až technické týmy situaci stabilizují a služby se vrátí do normálního provozu.