19.07.2024 - Global BSOD. O co chodzi i jak to się stało?

252
Z cyklu "Dzida uczy, Dzida bawi"
Obiecałem rozwinięcie tematu o tym fuckupie, czyli jak to możliwe, że nagle lotniska, szpitale, banki, korporacje stanęły na jeden dzień i jakim cudem to nie był atak?
19.07.2024 - Global BSOD. O co chodzi i jak to się stało?
Co się stało? 
(z kronikarskiego obowiązku)

Z samego rana (w Europie) w piątek 19 lipca 2024 spora część użytkowników systemu Windows od Win7 w górę (również wersje serwerowe) po uruchomieniu komputera zobaczyła niebieski ekran śmierci i ich komputery wpadły w tzw. pętlę śmierci, czyli nieskończony restart. Wiadomo, że to raczej ciężkie warunki do pracy. Padły komputery, które na codzień są dość przydatne, na przykład w bankach, liniach lotniczych, giełdach i w wielu innych instytucjach rządowych i korporacjach. Linie lotnicze zmuszone zostały do odwołania lub przeplanowania większości lotów, banki nie były w stanie działać poprawnie, niektóre stacje telewizyjne zamilkły, szpitale i apteki miały problemy z przetwarzaniem i przesyłaniem danych pacjentów. Istny Armageddon cyfrowego świata.
19.07.2024 - Global BSOD. O co chodzi i jak to się stało?
19.07.2024 - Global BSOD. O co chodzi i jak to się stało?
19.07.2024 - Global BSOD. O co chodzi i jak to się stało?
Spece od Cybersecurity z całego świata od razu zaczęli sprawdzać co to za "atak". Nikt czegoś takiego jeszcze nie widział (w sumie widział, ale na mniejszą skalę i dość dawno - o tym później). Jako, że padły tylko Windowsy, to z automatu obwiniono Microsoft jako sprawcę całego zamieszania. Szybko wyszło jednak, że sprawcą nie jest nikt od MałoMiękkich, tylko... producent oprogramowania EDR (Endpoint Detection and Response) CrowdStrike - czyli coś co miało właśnie takim zdarzeniom zapobiegać.
19.07.2024 - Global BSOD. O co chodzi i jak to się stało?
No dobra, ale co tam się stało?

Firma CrowdStrike po paru godzinach przyznała w mediach, że "wiedzą o problemie" (WOW, RLY?) i "pracują nad naprawą tego". W tym samym czasie po Internecie krążyły już pierwsze nieoficjalne porady na rozwiązanie problemu.
To, co się wykoleiło to dokładnie sterownik sensora CrowdStrike Falcon, który dostał globalną aktualizację o 04:09 UTC. Feralna aktualizacja dotyczyła tylko systemów Windows - MacOS i Linuxy z takim samym sensorem nie otrzymały tej aktualizacji.
Fakt, że to był akurat TEN sterownik też jest istotny. Mówimy tutaj o sterowniku ELAM (Early Launch AntiMalware). W różnych ważnych środowiskach/sieciach aktualizacje ustawiane są na n-1 do nawet n-3. Oznacza to, że wszelkie aktualizacje np. łatki windowsa czy nowe heurystyki złośliwego oprogramowania są najpierw sprawdzane na środowiskach testowych czy wszystko z nimi OK, a środowiska produkcyjne są o 1 lub więcej wersji do tyłu. Ten konkretny sterownik jednak dostaje aktualizacje zawsze najnowsze ze wzgledu na budowę całego rozwiązania i jego krytyczność. Ładuje się on prawie na samym początku uruchamiania systemu (każdego - nie tylko Windowsa), a więc przed wszystkimi narzędziami systemu które mają możliwość wyłączyć wadliwy sterownik i zapobiec pętli śmierci. Tak więc nawet najbardziej poprawna i zapobiegliwa konfiguracja środowiska nie mogła temu zapobiec.
Był to błąd logiczny (a więc błąd programistów), który polegał na nieprawidłowym odwołaniu się do adresu w pamięci - tzw null pointer, czyli wskazanie takiego adresu w pamięci komputera, który w danej chwili jest "czarną dziurą" (null w informatyce nie ma żadnej wartości). Nie jestem programistą, ani tym bardziej specem od C++ w którym tego typu sterowniki są napisane, więc nie potrafię Was zanudzić analizą  kodu. To w jaki (prawdopodobnie) sposób w firmie CrowdStrike doszło do takiego faila i jak mogli temu zapobiec zostawiam na później.
Gdyby analogiczna aktualizacja zeszła też na wersje dla MacOS i Linuxy to te systemy oberwałyby równie mocno. Potraficie sobie wyobrazić co wtedy by się działo wiedząc, że ponad 90% z pierwszego miliona najważniejszych/najpopularniejszych stron i serwerów na świecie stoi na linuxie?
Tak czy inaczej, SysAdmini rwą sobie włosy z głowy, ekipy Cybersecurity zeszły prawie na zawał a korpoludki cieszą się z wolnego piąteczku, bo im komputery nie działają.
19.07.2024 - Global BSOD. O co chodzi i jak to się stało?
Już wiadomo jak naprawić BSOD. SysAdmini ich nienawidzą.

Firma Crowdstrike po paru kolejnych godzinach wypuściła oficjalną instrukcję naprawy. Polegała ona w sumie na tym, że z poziomu "safe mode" (trybu awaryjnego) należy usunąć konkretny plik zaczynający się od C-00000291*.sys z katalogu C:\Windows\System32\Drivers\Crowdstrike. 
Jupi! Naprawione! 
19.07.2024 - Global BSOD. O co chodzi i jak to się stało?
19.07.2024 - Global BSOD. O co chodzi i jak to się stało?
No nie do końca...
Już sama konieczność wejścia do "safe mode" przerasta większość szarych użyszkodników - oni się na tym nie znają, tam nie ma Excela ani Outlooka i w ogóle to od tego jest przecież dział IT. 
Do tego jeszcze dochodzi Bitlocker, czyli narzędzie Windowsa do szyfrowania zawartości dysku. We współczesnych domenach Active Directory wszystkie komputery są zaszyfrowane w celu zabezpieczenia danych przed nieautoryzowanym fizycznym dostępem (np. kradzież laptopa) przy użyciu dysku USB z innym systemem lub... wbudowanym "safe mode" windowsa. 
A po ludzku co to znaczy? Tyle, że zwykły użyszkodnik nie może sobie ot tak wejść i grzebać w plikach systemowych. Musi to być ktoś z helpdesku albo SysAdmin, który wcześniej wyciągnie z Active Directory klucz deszyfrujący Bitlockera dla danej maszyny. I weźmie fizycznie danego laptopa/serwer "na warsztat". Nie jest to dużo pracy, bo raptem minuta-dwie dla wprawnego admina, ale jest to praca manualna i nie da się tego zrobić zdalnie. 

W czym więc problem, skoro to tylko chwila? Ano w tym, że w dużych instytucjach i korporacjach ilość tych komputerów i serwerów idzie w tysiące sztuk. Niekiedy nawet dziesiątki tysięcy. A zespoły SysAdminów z reguły liczą po kilka-kilkanaście osób (w bardzo dużych firmach - kilkadziesiąt), bo przecież skoro wszystko działa i tak fajnie jest zautomatyzowane, to po co na nich wydawać kasę?
Dlatego właśnie cały świat IT podzielił się na tych "od Windowsów" którzy fizycznie przemieszczają się od lokalizacji do lokalizacji i wklepują tą samą komendę setki razy i tych "od Maców i/lub Linuxów" którzy zajęli się głównie robieniem memów o tym fuckupie.
Piszę to po weekendzie, więc już są znane też kolejne metody na względnie automatyczne i względnie zdalne naprawienie maszyn. Np. Microsoft oficjalnie ogłosił, że wystarczy około 15 (!!!) ponownych uruchomień, aby feralny sterownik przesunął się w priorytecie uruchomienia na tyle, aby narzędzie automatycznej aktualizacji miało szansę pobrać poprawny plik sterownika. 
19.07.2024 - Global BSOD. O co chodzi i jak to się stało?
Czy i jak można było temu zapobiec?

Oczywiście, że można było temu zapobiec. Zawinił (jak zwykle zresztą) czynnik ludzki. KAŻDA aktualizacja powinna zostać dobrze sprawdzona na środowiskach testowych. Im ważniejszy system, tym bardziej drobiazgowe powinny być testy. Prezes Crowdstrike w wywiadzie dla telewizji (cyba NBC, nie pamiętam teraz) sam przyznał, że przeprowadzenie wszystkich testów dla wszystkich wersji i odmian wszystkich systemów operacyjnych jest bardzo trudne. Problem polega jednak na tym, że przy okazji tego fuckupu wyszło ilu mają klientów i jak bardzo są oni istotni. Nie może być tu mowy o tym, że przyoszczędzą sobie na środowisku testowym i po prostu niektórych odmian/konfiguracji systemów nie będą sobie sprawdzać.
19.07.2024 - Global BSOD. O co chodzi i jak to się stało?
W mojej ocenie jednak tutaj zawiodło u nich jeszcze coś innego - w IT to się nazywa proces CI/CD (Continous Integration / Continous Deployment). Proces polega na tym, że zmiany w kodzie są weryfikowane, przechodzą automatyczne testy i jeśli wszystko jest ok to są automatycznie implementowane. Ktoś mógł tutaj albo niedopatrzyć się błędu w kodzie przy weryfikacji albo wręcz bez sprawdzania zaakceptować zmianę. Za coś takiego powinny polecieć głowy. Jak było faktycznie dowiemy się pewnie po opublikowaniu RCA (Root Cause Analysis) i z rozpraw sądowych o odszkodowania.

Inną sprawą jest nauka na błędach. Zarówno cudzych, jak i własnych. W 2010 roku miał miejsce bardzo podobny przypadek, gdy firma McAfee wypuściła wadliwą aktualizację swojego antywirusa. Ten zaczął wykrywać proces svchost (taki proces za pomocą którego są uruchamiane różne usługi w Windowsie) jako złośliwy (tzw. false-positive). W rezultacie w bardzo podobny sposób wprowadzili w pętlę śmierci 800 tysięcy komputerów z Windowsem XP. Po 14 latach pewnie już wszyscy o tym zapomnieli, ale najzabawniejsze jest to, że George Kurtz - obecny prezes Crowdstrike wówczas był prezesem McAfee.
19.07.2024 - Global BSOD. O co chodzi i jak to się stało?
I z tym akcentem będę kończyć moje wypociny. 
W komentarzach oznaczę osoby, które w poprzedniej zajawce prosiły o ten materiał. 
Życzę wam wszystkim sprawnych i bezproblemowych przygód z waszymi komputerami - bo wtedy tacy jak ja mają mniej roboty ;) 
Z fartem i wypierdalam.
Obrazek zwinięty kliknij aby rozwinąć ▼

Paczka informacji 26.11.22 wojna na Ukrainie

7
1. Kilka krótkich informacji

  🇧🇪🪖 "Belgia zatwierdziła dostawę dziesięciu bezzałogowych pojazdów podwodnych i dwóch mobilnych laboratoriów dla Ukrainy."

  🍉🪖"Chersoń otrzymał elektryczność, Urząd Prezydenta

W pierwszej kolejności światło dostarczane jest do infrastruktury krytycznej, a następnie do odbiorców w gospodarstwach domowych,"

  🇵🇱🪖"Premier Polski Morawiecki przybył do Kijowa.

Uhonorował ofiary Hołodomoru z lat 1932-33."

  🐷🤡"W Mariupolu pracownik władz okupacyjnych eksplodował w samochodzie, - doradca mera Petro Andriushchenko

Wybuchł VAZ prowadzony przez rosyjskiego urzędnika wojskowego. Nie przeżył.

Rannych zostało jeszcze dwóch rosjan, którzy byli w samochodzie."

  🪖"Minister spraw zagranicznych Ukrainy Dmytro Kuleba powiedział, że niektóre kraje, które nie wspierały publicznie Ukrainy, potajemnie przekazują Ukrainie i sprzedają jej broń za pośrednictwem europejskich i amerykańskich sojuszników."

https://news.liga.net/ua/politics/news/za-kulisami-vse-est-kuleba-govorit-chto-vsu-tayno-pomogayut-te-kto-publichno-protiv

  🪖"Sekretarz generalny NATO Jens Stoltenberg powiedział, że kraje sojuszu z Europy Wschodniej nadal zwiększają produkcję amunicji kalibru radzieckiego dla Sił Zbrojnych Ukrainy, a obecnie dyskutowane są perspektywy finansowania otwarcia nowych linii produkcyjnych."

https://mil.in.ua/uk/news/krayiny-nato-zbilshyly-vyrobnytstvo-zapchastyn-ta-boyeprypasiv-radyanskogo-zrazka/

  🐷🤡"rosyjskie media opozycyjne twierdzą, że otrzymały przecieki danych z FSB i Sztabu Generalnego Sił Zbrojnych rf, zgodnie z którymi rosyjskie kierownictwo przyznaje się do bezpowrotnych strat zmobilizowanych do wiosny 2023 r. na poziomie 100 tys. osób. Plan rosyjskiego kierownictwa sprowadza się w tym przypadku do: ustabilizowania linii frontu na zimę przy pomocy zmobilizowanych, a na wiosnę wyrównania strat poborowych i wznowienia działań ofensywnych."

https://istories.media/news/2022/11/25/v-kremle-prognoziruyut-k-letu-sleduyushchego-goda-bezvozvratnie-poteri-sredi-mobilizovannikh-mogut-sostavit-okolo-100-tisyach-chelovek/

  
2. Info od brytyjskiego wywiadu

  🇬🇧🪖"federacja rosyjska usuwa głowice nuklearne ze starzejących się pocisków nuklearnych i wystrzeliwuje pociski na Ukrainę. Zdjęcia przedstawiają zestrzelone pociski rakietowe AS-15 KENT (X-55), opracowane w latach 80. XX wieku wyłącznie do broni jądrowej. Balast został prawdopodobnie umieszczony zamiast głowicy - wywiad brytyjski.

▪️Chociaż takie pociski będą mogły wyrządzić szkody ze względu na energię kinetyczną pocisku i niewykorzystane paliwo, jest mało prawdopodobne, że pomogą w zadawaniu wiarygodnych obrażeń celom, Federacja Rosyjska chce je wykorzystać jako wabiki i odwrócić uwagę zasobów obrony powietrznej;

▪️Cokolwiek federacja rosyjska chce osiągnąć, ta improwizacja świadczy o stopniu niedoboru rezerw rakiet dalekiego zasięgu u rosjan."
Paczka informacji 26.11.22 wojna na Ukrainie
3. 🐷"Pieprzeni rosjanie właśnie zniszczyli prywatny sektor Ukraińców w Dnieprze za pomocą precyzyjnych rakiet,
"6 osób rannych, jedna kobieta w stanie ciężkim" - OVA."
4. 🪖💡"Moment dostawy energii elektrycznej do Chersonia opublikował szef OVA

Według Januszewicza, pełne przywrócenie energii elektrycznej w mieście potrwa kilka dni.

Zaapelował do mieszkańców, aby nie spieszyli się z włączaniem urządzeń domowych wraz z pojawieniem się światła, gdyż możliwe są spadki napięcia."
5. 🪖 "Próba zniszczenia czołgu Sił Zbrojnych Ukrainy, przez rosyjskiego operatora PPK, z perspektywy ukraińskich czołgistów"
6. "Każdy chlew jest czystszy niż mieszkanie rosyjskiego okupanta

Ostatnio wypłynął filmik, który pokazuje efekty życia raszistów. Zająwszy zwykły ukraiński dom, natychmiast zamienili go w swoje zwykłe siedlisko i urządzili w nim śmietnik.

Ruina, brud, smród - wszystko, co rosyjski świat ma do zaoferowania."
7. 🪖💡 Jak Ukraińcy radzą sobie podczas blackout'u 
8. 🐷🤡 Duchowny rosyjskiej cerkwi wyraża swoje niezadowolenie związane z nalotem SBU 
Obrazek zwinięty kliknij aby rozwinąć ▼
0.1238808631897