Awaria EPIX – Atman – Zakończenie.

W dniu dzisiejszym w po godzinie 15.20 rozpoczął się trwający kilkanaście minut problem w sieci szkieletowej EPIX, który można było zaobserwować jako zakłócenia w dostępie do wszystkich usług.
Był on spowodowany dość nietypową w skutkach pętlą L2, wyjaśniamy przyczyny tak dużego wpływu na cały EPIX:
1. Sprawca, czyli uruchamiany dzisiaj usługowo port dla klienta był sztuką z recyklingu, skonfigurowanym uprzednio tylko dla usługi IPTV SGT, w związku z tym nie miał skonfigurowanych standardowo restrykcyjnych zasad ochrony przed działaniami abusywnymi, przegapienie tego to pierwsza przyczyna, która nie musiała jeszcze doprowadzić do awarii…
2. Czujność inżynierów została uśpiona przez fakt, iż przełącznik ten jest przeznaczony do wymiany na bardziej zaawansowany w najbliższych dniach, więc podchodzą do niego z luzem, bo będzie budowana nowa konfiguracja od zera, ale….
3. Nasi inżynierowie do dzisiaj absolutnie nie zakładali, iż nowy klient EPIX może posiadać czynne połączenie z vlanem peeringowym naszego IX zrealizowanego portem innego kolegi (notabene jest prawdopodobne że nieświadomie – vlan leak), dlatego usuwanie problemu nie trwało kilkudziesięciu sekund tylko kilkanaście minut, bo nie wiązaliśmy jednoznacznie uruchomienia vlanu na porcie (okolice 14.00) z awarią po podniesieniu się L3 u klienta (15.20).

Niestety nie wiemy jednego, dlaczego pętla rozpropagowała się w naszym teoretycznie (praktycznie zresztą też, bo taka sytuacja ostatni raz wystąpiła ponad rok temu) dobrze zabezpieczonym szkielecie, i co najdziwniejsze daleko do sieci naszych klientów i dostawców, w tym dużych, dysponujących zaawansowanym sprzętem (Atman, Netia, Polsl, Sitel), który również nie zabezpieczył ich przed skutkami tej usterki. Być może pozyskamy ich logi, które pomogą rozpoznać naturę problemu i ustrzec się przed nim w przyszłości nie tylko procedurami, ale też mechanizmami zabezpieczającymi przed ew. błędem człowieka.

Serdecznie przepraszamy!

Awaria EPIX – Atman.

Obserwujemy problemy ze stykami i łączami realizowanymi na węźle Altus.
Diagnozowanie przyczyn trwa.

Awaria EPIX – Sitel [Zakończenie]

Awaria została usunięta, transmisja na łączu została przywrócona o godzinie 02:00.

Awaria EPIX – Sitel

Informujemy, iż obserwujemy awarię łącza Sitel KAT-WAW od około godziny 00:15

Powodem jest uszkodzony kabel pod Sochaczewem.

Usuwanie awarii potrwa do około godziny 04:00

Problemy Atman [Zakończenie].

Otrzymaliśmy komunikat z NOC Atman:

Szanowni Panstwo,

uprzejmie informujemy, ze od godziny 7:40 wszystkie uslugi dzialaja juz poprawnie. Lacze szkieletowe w relacji Katowice – Gliwice zostalo przepiete na inny kabel FO.

Za zaistniale niedogodnosci przepraszamy.

=====================================
Dotyczy nastepujacych uslug / Affects following services:

nazwa: “Epoludnie.3”,  opis: “tr.: 10 GbE Katowice/Altus-Warszawa/LIM13.14”
=====================================

Problemy Atman [Zakończenie].

Otrzymaliśmy komunikat z NOC Atman:

Szanowni Panstwo,

uprzejmie informujemy, ze od godziny 7:40 wszystkie uslugi dzialaja juz poprawnie. Lacze szkieletowe w relacji Katowice – Gliwice zostalo przepiete na inny kabel FO.

Za zaistniale niedogodnosci przepraszamy.

=====================================
Dotyczy nastepujacych uslug / Affects following services:

nazwa: “Epoludnie.3”,  opis: “tr.: 10 GbE Katowice/Altus-Warszawa/LIM13.14”
=====================================

Problemy Atman

Informujemy, iż obserwujemy awarię łącza Atman KAT-WAW od godziny 02:22

Otrzymaliśmy taki komunikat z NOC Atman:

Szanowni Panstwo,

uprzejmie informujemy, ze od godziny 02:22 obserwujemy podwyzszone tlumienie na trasie szkieletu DWDM ATMAN w relacji Gliwice — Katowice. Sprawa zostala zgloszona do dostawcy. Sluzby techniczne dostawcy sa w drodze na miejsce uszkodzenia w celu diagnozy.

Ze wzgledu na trudne warunki dostepnosci okablowania oraz koniecznosc wykonywania pomiarow na wysokosci (slup energetyczny 110kV) wyniki diagnozy dostepne beda po godzinie 07:00.

Bedziemy informowac Panstwa na biezaco.

Za zaistniale niedogodnosci przepraszamy.

=====================================
Dotyczy nastepujacych uslug / Affects following services:

nazwa: “Epoludnie.3”,  opis: “tr.: 10 GbE Katowice/Altus-Warszawa/LIM13.14”

Problemy Atman – kontynuacja.

Otrzymaliśmy taki komunikat:

“Szanowni Panstwo.

uprzejmie informujemy, ze miejsce uszkodzenia zostalo zlokalizowane w zasobach dostawcy. Ze wzgledu na trudny dostep do miejsca uszkodzenia i brak mozliwosci usuniecia awarii po zmroku (okablowanie na slupach wysokiego napiecia), zostalismy przepieci na trase zapasowa, ktore trwalo od 20:48 do 21:12. Od godziny 21:12 wszystkie uslugi wyszczegolnione ponizej pracuja poprawnie na trasie zapasowej.

Powrot na trase podstawowa odbedzie sie w ustalonym wczesniej oknie serwisowym, o ktorym zostana Panstwo poinformowani.

Za powstale niedogodnosci serdecznie przepraszamy.

=====================================
Dotyczy nastepujacych uslug / Affects following services:

nazwa: “Epoludnie.3”, opis: “tr.: 10 GbE Katowice/Altus-Warszawa/LIM13.14”
=====================================

Problemy Atman.

Otrzymaliśmy taki komunikat:

“Informujemy, ze wzrost tlumienia na laczu w relacji Katowice – Gliwice.
Trwa lokalizowanie miejsca uszkodzenia swiatlowodu
Na chwile obecna czas usuniecia awarii pozostaje nieznany.
Za powstale niedogodnosci serdecznie przepraszamy.
=====================================
Dotyczy nastepujacych uslug / Affects following services:
nazwa: “Epoludnie.3”, opis: “tr.: 10 GbE Katowice/Altus-Warszawa/LIM13.14″
=====================================”

Nie obserwujemy problemów, ale przekazujemy.

Problemy ATRATO.

Obserwujemy problemy ze stratami pakietów w jednym z naszych uplinków – Atrato który stał się ofiarą DDOS. Z tego też powodu występują problemy z naszym GGC.