Awaria EPIX -> GGC

Podczas prac rekonfiguracyjnych naszych peeringów nastąpiło niespodziewane przełączenie się klientów EPIX na inne węzły GGC. Problem zgłoszono do Google.

Awaria EPIX -> Sitel – Zakończenie

Przyczyną problemów był jeden z przełączników w Sieci Sitel. Charakter abusywnego ruchu ze styku z Sitel spowodował zbyt późne i wielokrotne w czasie zadziałanie reguł ochronnych i propagowanie problemu na niektórych klientów i usługi EPIX.

Podjęliśmy decyzję o umieszczeniu dodatkowego zaawansowanego w funkcje ochronne przełącznika na styku  z Sitelem oraz  o modyfikacji sposobu realizacji styku (3 porty z podzielonymi usługami zamiast jednego). Prace przeprowadzimy w przyszłym tygodniu, poinformujemy osobnym komunikatem.

Awaria EPIX -> Sitel

Obserwujemy problemy z siecią L2 firmy Sitel.

Zbieramy dane dotyczące natury problemu.

Awaria EPIX

Informujemy, iż obserwujemy anomalie w działaniu jednego z przełączników EPIX, obsługującego węzeł GGC i klientów w 4DC.
Niestety musieliśmy dokonać jego restartu, przypadek zgłoszony do Extreme.

Awaria EPIX -> DCenter – Wyjaśnienie DC.

Witam,

W związku z dzisiejszą awarią przekazujemy komunikat wyjaśniający naturę awarii, która dotknęła dużą część transmisji realizowanych w węźle WAR.eFn.

O godzinie 11:21 pracownicy NOC stwierdzili zerwanie dużej ilości klienckich sesji BGP w usługach GLOBAL oraz KIX. Natychmiast przystąpiono do diagnostyki problemu. W związku z brakiem komunikacji z przełącznikami WAR.eFn kolokowanymi na 42p LIM pierwotnie przyjęto możliwość awarii przełącznika w węźle LIM. Jeden z administratorów natychmiast udał się do LIM w celu sprawdzenia sprzętu i ewentualnej jego wymiany. Jednocześnie inny zespół diagnozował problem lokalnie i odpowiadał na zgłoszenia telefoniczne.

Po kilkunastu minutach stwierdzono dziwne zachowanie przełącznika węzłowego WAR.eFn (Extreme x670-48x) kolokowanego w serwerowni dcenter.pl w Orco Tower w Warszawie. W logach nie znajdowały się żadne nietypowe wpisy, przeprowadzone na switchu operacje diagnostyczne nie wykazywały nieprawidłowości, jednak padło podejrzenie że przełącznik pomimo wpisywania adresów MAC do tablicy przestał w sposób prawidłowy forwardować ramki.

W tym samym czasie od administratora wysłanego na LIM 42p przyszła informacja, że wszystkie urządzenia tam zlokalizowane działają prawidłowo. Po przeprowadzeniu jeszcze kilku testów i wewnętrznej konsultacji, przed godziną 12:00 podjęto decyzję o restarcie przełącznika WAR.eFn zlokalizowanego w węźle w Orco Tower.

Restart urządzenia rozwiązał problem i od godziny 12:00 wszelkie transmisje działają prawidłowo.

Trwają jeszcze prace nad bardziej precyzyjnym ustaleniem przyczyny problemu – wiadomo że awarię spowodował błąd oprogramowania przełącznika węzłowego Extreme x670-48x będącego częścią warszawskiego ringu projektu TanieLacze, jednak ze względu na brak jakichkolwiek komunikatów w logach czy innych informacji z urządzenia – bardziej precyzyjne określenie przyczyny może okazać się niemożliwe.

pozdrawiam,
NOC KIX

Łącze do Czech.

W dniu dzisiejszym obserwowaliśmy krótkie przerwy w transmisji do Czech (w zakresie od 10.30 do 12.30).
Były one spowodowane wolnym przełączaniem się spanning tree między łączem głównym a obejściowym.
Niestety ostatnie przełączenia zbiegły się w czasie z awarią w DCenter, co spowodowało zwiększenie się zakresu niedostępnych tras w usłudze EP-Global.
Pracujemy nad rozwiązaniem, jutro nad ranem przeprowadzimy krótkie testy symulacyjne zastosowanych zmian w konfiguracji (nie powinny być destrukcyjne).

Awaria EPIX -> DCenter – Zakończenie.

Awaria została zlokalizowana w Dcenter, był to problem oprogramowania w jednym ze switchy szkieletowych, został on zrestartowany.

EPIX wprowadzi zmiany w timerach usług upstreamowych EP-Global, co powinno ograniczyć bardzo długi czas konwergencji ścieżek przy awarii tego typu (czyli wielu następujących po sobie przerw w transmisji, lub polegających na utrzymaniu sesji na zdegradowanej transmisji).

Awaria EPIX

Informujemy, iż obserwujemy anomalie w działaniu EPIX.
Trwa identyfikowanie przyczyny problemu.

Awaria EPIX – Sitel – Czechy – zakończenie.

Prace zmierzające do naprawy drogi obejściowej zakończyły się sukcesem, łącze wygląda stabilnie.
Przez najbliższy czas (jak się okazuje nawet miesiąc) będziemy szli znacznie dłuższą drogą, co w pewnym stopniu zwiększa podatność na awarie CZ-Global i CZ-IX.
Uczestników dla których CZ-Global jest podstawowym łączem, bez backupu polecamy migrację do usługi EP-Global, której dokonamy od ręki (opłata za uruchomienie nowego vlana i sesji to 50+50PLN), a kontrakt na CZ-Global ulega samoczynnemu rozwiązaniu.
Usługa EP-Global jest realizowana 6 różnymi operatorami upstreamowymi, 4 niezależnymi drogami do KAT i umożliwia korzystanie z 2 sesji na dwóch różnych routerach i naszych węzłach.

Awaria EPIX – Sitel -Czechy

W związku z pracami konserwacyjnymi czeskiej sieci energetycznej nastąpiło rozłączenie włókien światłowodowych służących do transmisji Katowice-Ostrawa.
Prace będą trwały dłuższy czas (ok 14 dni), Czesi wraz z Sitelem zapewnili obejście dla naszych transmisji na czas realizacji prac.
Niestety droga obejściowa okazała się niesprawna, pracują nad rozwiązaniem problemu.
Czas usunięcia nieznany, podejrzewam, iż może to potrwać.