Výpadek služeb 21.3.2022

Vyřešeno1.10K zhlédnutíWebhosting
0

Dobrý den. Včera jsem zaznamenal výpadek služeb webhostingu, který se týkal i vašich stránek. Dočkáme se nějakého vysvětlení? Je to důležité i pro mé klienty, kterým jsem webhosting u vás doporučil.

Role: Zákazník
Otázka je uzamčena pro nové odpovědi.
MV270050 Vybral nejlepší odpověď 15. 6. 2022
0
55.30K Odpověď od WEDOS Internet, a.s. 0 Comments

Dobrý den,

vlákno uzavírám z důvodu neaktivity, v případě nevyřešení dotazu založte vlákno nové.

Role: Podpora Vizitka: CMS specialista
MV270050 Vybral nejlepší odpověď 15. 6. 2022
0
111.05K Odpověď od WEDOS Internet, a.s. 0 Comments

Dobrý den,

dnes jsme ohledně výpadku posílali e-mail s obsáhlým vysvětlením situace a návodem na podání žádosti o kompenzaci. Zkontrolujte mailovou schránku, případně složku SPAM.

Role: Podpora Web: https://kb.wedos.com Vizitka: WEDOS Specialista na Znalostní bázi
MB313456 Odpověděl na otázku 22. 3. 2022
0

Dobry den,

mám u vás asi 20 hostingu a vcera minimalne polovina na docela dost hodin vypadla, zadne vysvetleni mi neprislo (ani do spamu). Prosim o vysvetleni, protoze moji zakaznici jsou hystericti a zda jste podnikli kroky do budoucna. Diky

Role: Zákazník
TJ285257 Změnil status na publikováno 22. 3. 2022
0
47.27K Odpověď od WEDOS Internet, a.s. 1 Komentář

Dobrý den,

úvodem se velice omlouváme za způsobené komplikace. V pondělí 21.03.2022 zhruba v 17:46 se objevil problém na naší interní síti, který zapříčinil problémy v komunikaci na virtuální síti (vlan) mezi servery v serverových skříních HPE Moonshot a některými datovými úložišti (3PAR Storage Server). Ačkoliv se tomu okamžitě začali naši technici naplno věnovat nedařilo se nám rychle objevit přesnou příčinu. Zhruba po 18. hodině situace gradovala až došlo ke znatelnému zpomalení sítě mezi servery a úložišti.

Ze začátku jsme hledali problém u serverů a provedli postupně všechny standardní úkony, včetně postupný restartu páteřních switchů (kolem 19:00), což problém bohužel nevyřešilo.

Kolem 20:00 jsme objevili, kde vázne komunikace na virtuální síti, nicméně problém způsobil přetížení serverových úložišť. Síť byla velmi zpomalená a bylo nutné provést její celkový restart. Následně bylo prováděno postupné spouštění jednotlivých úložišť, kontrolování integrity dat a mnoho dalších úkonů, které mají předejít poškození dat. Máme řadu interních procesů podle kterých je prioritou ujistit se, že data jsou v pořádku, před ukvapeným spuštěním.

Někdo zřejmě využil příležitosti, že máme problémy a detailně o tom informujeme na status stránce a sociálních sítích, a spustil v 21:17 masivní plošný DDoS útok o síle několika stovek Gbps a dlouhodobě přes 120 Gbps do segmentu sítě, kde jsou webhostingy. Útok byl veden na úplně všechny naše IP adresy a proto nešlo jednoduše filtrovat nebo blokovat jednotlivé dílčí útoky na jednotlivé weby. Ačkoliv tento útok eliminovala naše ochrana, komplikovalo to práci některých našich kolegů. Útok totiž ucpal i řadu ISP, přes které se připojovali technici a další naši pracovníci. Jen z českého NIX šlo několik desítek Gbps. Z tohoto důvodu byla dočasně zavedena na ochranách přísnější pravidla až do 3:52, abychom mohli v klidu pracovat a vyřešit problém.

Od 22:24 někdo začal útočit i na naši status stránku, kterou máme záměrně u jiných poskytovatelů v zahraničí, aby její dostupnost nesouvisela s provozem u nás. Status stránka není chráněna naší ochranou a tak rychle došlo k její nedostupnosti.

Kolem 22:30 byl propojen poslední server se službami VPS ON a WEDOS Cloud se svým úložištěm. U jednotek případů jsme evidovali dodatečné problémy, které se snažila podpora se zákazníky přímo řešit a pomáhat jim. U VPS ON a WEDOS Cloud jsme zaznamenali celkově jen několik zákazníků s problémy. Nejprve zpomalení a potom u několika read-only úložiště. Během restartů páteřních switchů byla úložiště nedostupná na jednotky minut pro větší množství serverů.

U webhostingů byla situace komplikovanější. Po 22:35 začaly nabíhat první webhostingové webservery. Ze začátku byly pomalé, protože úložiště pořád ještě připojovalo další disky a provádělo potřebné operace po restartu. Bohužel největší problém byl v tom, že se jednotlivé servery musely „zaregistrovat“ na úložišti, aby se mohly následně spustit, což bylo možné dělat postupně.

Máme postupy jak postupně spouštět služby, tak aby to bylo co možná nejrychlejší. Kolem 1:00 už většina webhostingových serverů byla spuštěna. Zhruba ve 2:05 pak bylo spuštěno téměř vše až na jednotky výjimek, kde se vyskytla nějaká komplikace. Oficiálně všechny servery, se všemi službami, včetně všech problémových a nestandardních jely na úložištích od 3:30.

Následně jsme detekovali ještě problémy se synchronizací dat v databázích, ale jelikož máme databáze v replikaci master-slave v reálném čase, tak stačilo u těchto rozbitých databázových serverů prohodit slave za master a vše naskočilo. Nicméně vzhledem k vytíženosti techniků tento úkon nebyl proveden okamžitě, jak je zvykem.

V 3:52 jsme vypnuli všechna nadstandardní pravidla na ochranách. Do té doby mohl být znatelně zpomalen provoz ze zahraničí a i některých českých sítí, ze kterých se běžně hodně útočí.

Výše uvedené události jsou jen zkrácený výčet, toho co se všechno u nás stalo. Každý z nás, kdo mohl, tak byl online a pomáhal hledat problém. O problémech jsme informovali na naší status stránce (https://status.wedos.hosting/cs/) a sociálních sítích. Bohužel jsme nemohli poslat e-mail, protože než bychom to všechno rozeslali, tak by to trvalo přes 8 hodin.

Za způsobené komplikace se Vám omlouváme. Bohužel nebylo v našich silách vyřešit problém rychleji. Naši technici budou ještě celou událost blíže zkoumat. Zároveň provedeme úpravy, abychom podobnému problému mohli předejít.

V nejbližších dnech vyměníme 2 poslední páteřní switche HPE za výkonnější a univerzálnější Aristy, které už máme všude. To nám zjednoduší správu sítě a rychleji budeme moct podobným problémům předcházet. Zároveň všechny webhostingy nasměrujeme na WEDOS Global, kde budeme útoky filtrovat blíže ke zdroji. Slibujeme si od toho také snížení zátěže za servery a nové možnosti filtrování útoků na aplikační vrstvě, což by řadě zákazníků s oblíbenými redakčními systémy mohlo ulevit.

Chápeme že Vám výpadek mohl způsobit problémy, bohužel vzhledem k počtu žádostí nejsme schopni individuálně vyhovět každému. Pokud máte u nás službu VPS ON, WEDOS Cloud, NoLimit, WebSite, LowCost anebo WMS, která byla zasažena a chcete období zdarma, tak nám prosím napište odpověď na tento e-mail a v něm uveďte číslo služby (případně název), které chcete jako omluvu prodloužit. Jsme si vědomi závažnosti problému a tak služby prodloužíme i nad rámec smluvních podmínek.

Ještě jednou se omlouváme za způsobené komplikace.

Role: Podpora
AB141009 publikoval nový komentář 22. 3. 2022
0
47.27K Odpověď od WEDOS Internet, a.s. 0 Comments

Dobrý den,

ve vašem účtu (ten, ve kterém jste zde přihlášen) ale nemáte žádné VPS, jen jeden webhosting.

Role: Podpora
TJ285257 Odpověděl na otázku 22. 3. 2022