Incydenty dostępności należą do postmortem SRE

Opis obrazu: Monitor pokazujący dashboard zarządzania incydentami SRE z czerwonym banerem alertu „INCYDENT“ i leżącym obok urządzeniem pagera — wizualny marker raportowania dostępności jako incydentów.

Czas czytania: 9 minut

Gdy strona kasowa przestaje działać, zespół SRE otrzymuje powiadomienie, przypisywany jest poziom ważności, otwiera się sala wojenna, a dwadzieścia cztery godziny później krąży bezstronny dokument postmortem z harmonogramem, sekcją przyczyny źródłowej i listą działań korygujących. Gdy ta sama strona kasowa wdraża regresję, która sprawia, że pole numeru karty kredytowej staje się nieosiągalne dla klawiatury, zazwyczaj dzieje się tak, że inżynier frontendowy zauważa to trzy sprinty później, otwiera ticket w Jirze otagowany „dostępność“, i ticket siedzi w backlogu do momentu, gdy ktoś będzie miał wolne moce przerobowe. Dwa wyniki — jedna grupa użytkowników wykluczona z działającego systemu produkcyjnego — są funkcjonalnie identyczne. Wewnętrzna reakcja jest diametralnie różna. Niniejszy artykuł dowodzi, że druga reakcja jest błędna, że pierwsza jest właściwa, i że droga od drugiej do pierwszej jest krótsza, niż większość organizacji inżynieryjnych zakłada. Szerszy kontekst dla praktyków można znaleźć w naszym tekście towarzyszącym o traktowaniu długu dostępności jako długu technicznego; niniejszy artykuł dotyczy konkretnie reagowania na incydenty.

Zmiana nie jest filozoficzna. Regresje dostępności są obserwowalne, klasyfikowalne i wpisują się w ten sam przepływ zarządzania incydentami, który zespół już prowadzi w PagerDuty, Opsgenie, FireHydrant, Statuspage i dowolnym repozytorium runbooków, które organizacja przyjęła jako standard. Narzędzia istnieją. Sygnał istnieje. Ramy klasyfikacji — WCAG 2.2 — to opublikowany, maszynowo porównywalny kontrakt z kryteriami, które mapują się bezpośrednio na poziomy ważności. Czego zazwyczaj brakuje, to kroku projektowania organizacyjnego: ktoś musi ogłosić, że regresja dostępności na produkcji jest incydentem z dużej litery I, a to ogłoszenie musi wiązać się z rotacją dyżurową, macierzą ważności, szablonem postmortem i zarządem przeglądającym działania korygujące. Celem niniejszego artykułu jest wsparcie tego ogłoszenia.

Incydent, w nowoczesnej praktyce SRE, to każde nieplanowane zdarzenie, które pogarsza usługę dla użytkowników. Definicja nie precyzuje, których użytkowników, jakiej modalności interakcji ani jakiej technologii wspomagającej. Przycisk logowania zwracający błąd 500 to incydent, ponieważ użytkownik nie może się zalogować. Przycisk logowania, który utracił dostępną nazwę i teraz jest odczytywany przez czytnik ekranu jako „przycisk“, to też incydent, ponieważ ten użytkownik również nie może się zalogować. Wewnętrzne zespoły odczytujące te dwa tryby awarii historycznie stosowały różne kategorie mentalne — pierwszy to „awaria“, drugi to „błąd“ — ale z perspektywy użytkownika doświadczenie jest identyczne: działający system produkcyjny przestał dla nich działać.

Powodem, dla którego dostępność funkcjonowała poza tymi ramami, było po części narzędzie. Awarie dawało się obserwować za pomocą syntetycznych monitorów i dashboardów błędów, podczas gdy regresje dostępności wychodziły na jaw tylko przez ręczne audyty tygodnie lub miesiące po wdrożeniu. Ta luka się zamknęła. Axe-core, Pa11y, Lighthouse CI i pakiet ciągłego monitorowania Deque działają teraz przy każdym wdrożeniu w dojrzałych potokach, a delty są widoczne w tych samych panelach Datadog lub Grafana, które pokazują opóźnienie p99 i wskaźniki 5xx. Sygnał jest w czasie rzeczywistym. Drugim powodem, dla którego dostępność żyła poza tymi ramami, było zamieszanie z poziomami ważności: ważność awarii jest oczywista, ponieważ metryka jest binarna (strona odpowiada albo nie), podczas gdy ważność regresji dostępności wydawała się miękka. Nie jest miękka. Naruszenie WCAG 2.2 A na stronie kasowej to Sev-1 — kluczowa prawnie i operacyjnie powierzchnia jest bezużyteczna dla całej klasy użytkowników. Naruszenie WCAG AA na tej samej kasie to Sev-2. Regresja rozszerzenia AAA na stronie marketingowej to Sev-4. Macierz jest możliwa do opublikowania w jednostronicowym dokumencie i może zostać zatwierdzona przez organizację inżynieryjną na jednym spotkaniu planistycznym.

Wykrywanie: skanowanie i alertowanie

Stos wykrywania dla dostępności jako incydentu składa się z trzech warstw, które już istnieją w potoku CI, jeśli wykonano jakąkolwiek pracę w zakresie ciągłej dostępności. Pierwsza warstwa to skanowanie w czasie kompilacji. Każde żądanie pull uruchamia axe-core lub odpowiednik na reprezentatywnym zestawie stron, zwraca raport JSON i albo nie powodzi się przy kompilacji w przypadku regresji, albo zgłasza wyniki. To ten sam kształt co Snyk, SonarQube lub jakikolwiek inny punkt kontroli jakości. Druga warstwa to syntetyczny monitoring po wdrożeniu. Po wylądowaniu wdrożenia na produkcji syntetyczny test dostępności — uruchamiający headless Chrome na tych samych stronach krytycznych podróży użytkownika, co monitor czasu działania — przeprowadza to samo skanowanie axe i zapisuje wynik do magazynu szeregów czasowych. Trzecia warstwa to wykrywanie anomalii w czasie wykonania. Gdy skan po wdrożeniu zwróci deltę — nowe naruszenie, którego nie było w poprzednim wdrożeniu — delta wysyła webhook do PagerDuty (lub Opsgenie, lub czegokolwiek, czego używa zespół), z ładunkiem zawierającym adres URL strony, kryterium WCAG, poziom ważności i odnośnik do zrzutu ekranu.

Ten webhook jest miejscem, gdzie dzieje się magia. Integracja z PagerDuty traktuje zdarzenie dostępności jak normalny incydent o normalnej ważności, wysyła normalne powiadomienie do normalnej rotacji dyżurowej i otwiera normalny kanał incydentu w Slack lub Teams. Inżynier dyżurny, który go obsługuje, nie potrzebuje żadnego specjalnego szkolenia z dostępności, aby dokonać triaży — potrzebuje jedynie wpisu w runbooku, który mówi: „dla Sev-1 dostępności cofnij wdrożenie i wywołaj eksperta ds. dostępności w rotacji“. Ten wpis w runbooku to pięcioliniowy plik YAML, nie bardziej skomplikowany niż runbook dla failoveru bazy danych. Stos wykrywania nie jest trudną częścią. Trudna jest kulturowa kwestia traktowania wynikowego powiadomienia jako prawdziwego powiadomienia, a nie jako powiadomienia, które można uciszyć.

Szablon postmortem

Bezstronny postmortem incydentu dostępności dzieli standardowe sekcje każdego postmortem — podsumowanie, harmonogram, wpływ, przyczyna źródłowa, wnioski, działania — i dodaje dwa specyficzne pola, które ogólny szablon pomija. Pierwsze dodatkowe pole to dotknięci użytkownicy wyrażeni jako szacunek populacji technologii wspomagającej. Standardowy postmortem raportuje: „około 14 000 użytkowników nie mogło ukończyć procesu kasowego między 14:02 a 15:37“. Postmortem dostępności raportuje: „około 280 000 użytkowników na całym świecie korzysta z czytnika ekranu do wprowadzania danych karty kredytowej; regresja sprawiła, że pole nie było ogłaszane; wskaźnik wprowadzania danych karty kredytowej przez użytkowników nawigujących bez wzroku spadł do zera przez czas trwania incydentu“. Drugie dodatkowe pole to naruszone kryteria WCAG, wyrażone numerem kryterium i poziomem zgodności: „1.3.1 Informacje i relacje (A), 4.1.2 Nazwa, rola, wartość (A), 2.4.6 Nagłówki i etykiety (AA)“. Te dwa pola sprawiają, że postmortem jest czytelny dla partnerów ds. prawa, dostępności i zgodności, którzy domyślnie nie czytają postmortemów inżynieryjnych.

Reszta dokumentu podąża za standardowym szablonem SRE Workbook — przejrzysta narracja w prozie z harmonogramem zakotwionym w znacznikach czasu UTC, blok refleksji „co poszło dobrze / co poszło źle“ oraz lista działań korygujących, z których każde jest przypisane do konkretnego inżyniera z terminem i ticketem w Jirze. Bezstronne podejście ma tutaj takie samo znaczenie jak wszędzie indziej: celem postmortem nie jest znalezienie inżyniera, który wdrożył regresję, lecz znalezienie luki systemowej, która pozwoliła regresji wdrożyć. Postmortemy dostępności pisane w tonie obwiniającym przynoszą jeden efekt — inżynierowie przestają zgłaszać problemy dostępności. Postmortemy pisane w tonie bezstronnym przynoszą odwrotny efekt — inżynierowie zaczynają je zgłaszać dobrowolnie, ponieważ rozmowa dotyczy potoku, a nie osoby.

5-why, zaadaptowana dla dostępności

Ćwiczenie 5-why Toyoty — drążenie od objawu do przyczyny przez pięciokrotne zadawanie pytania „dlaczego“ z rzędu — przekłada się czysto na regresje dostępności i generuje inny zestaw wyników przyczyn źródłowych niż równoważne ćwiczenie przy awarii opóźnienia. Przepracowany przykład: pole karty kredytowej utraciło dostępną nazwę. Dlaczego? Ponieważ element <label> został usunięty w ostatnim sprincie przeprojektowania. Dlaczego? Ponieważ projektant zastąpił etykietę wzorcem pływającej etykiety zaimplementowanym jako stylizowany <span>. Dlaczego? Ponieważ komponent systemu projektowania, którego użył projektant, nie dostarcza domyślnie dostępnego wariantu pływającej etykiety. Dlaczego? Ponieważ twórca tego komponentu w systemie projektowania nigdy nie uruchomił axe-core na jego wpisie w Storybook. Dlaczego? Ponieważ repozytorium systemu projektowania nie ma bramki CI dla axe-core.

Działanie korygujące wynika z piątego „dlaczego“: dodanie axe-core do CI systemu projektowania. Warto zauważyć, jak różne jest to od działania korygującego, które przyniosłoby ćwiczenie z jednym „dlaczego“ („przywróć etykietę do pola karty kredytowej“). Poprawka z jednym „dlaczego“ łata objaw. Poprawka z pięcioma „dlaczego“ zapobiega następnym dwudziestu regresiom tego samego rodzaju. Dostępność szczególnie reaguje na analizę 5-why, ponieważ większość regresji dostępności ma przyczynę w luce potoku lub systemu projektowania, a nie w jednym zaniedbałym commicie — gdy raz znajdzie się lukę, naprawia się ją raz i cała klasa regresji przestaje się zdarzać. Zespół, który przez sześć miesięcy przeprowadza 5-why przy każdym incydencie Sev-1 i Sev-2 dostępności, kończy z potokiem wychwytującym zdecydowaną większość regresji zanim dotrą na produkcję, bez konieczności pisania choćby jednego dodatkowego ręcznego audytu.

Trzy studia przypadków

Platforma fintech, z którą rozmawialiśmy w europejskim sektorze bankowości detalicznej, przyjęła wzorzec dostępności jako incydentu pod koniec 2024 roku po tym, jak zapytanie regulatora wymusiło zmianę podejścia. Dodali skany axe-core do każdego wdrożenia, podłączyli wyniki do PagerDuty jako dedykowaną usługę „dostępność“ i dodali eksperta ds. dostępności do rotacji dowódcy incydentu jako responder drugiego stopnia wywoływany dla zdarzeń Sev-1 i Sev-2. W ciągu pierwszych sześciu miesięcy odnotowano jedenaście incydentów dostępności — trzy Sev-1 (przepływ logowania, potwierdzenie transakcji, pobieranie wyciągu), sześć Sev-2 (formularze ustawień konta, widgety przesyłania dokumentów, karuzela marketingowa) i dwa Sev-3 (kosmetyczne regresje kontrastu kolorów w centrum pomocy). Średni czas rozwiązania Sev-1 wyniósł czterdzieści sześć minut. Średni czas rozwiązania Sev-1 w równoważnym okresie poprzedniego roku, zanim przyjęto ten wzorzec, wynosił trzydzieści osiem dni.

Platforma eCommerce z zachodniego wybrzeża USA podłączyła ten sam wzorzec do FireHydrant zamiast PagerDuty i dodała komponent Statuspage o nazwie „Kompatybilność z technologiami wspomagającymi“, który raportuje jawny status dla klientów zewnętrznych. Komponent Statuspage zaświecił na czerwono dwa razy w pierwszym kwartale — raz z powodu regresji czytnika ekranu na stronie wyników wyszukiwania, raz z powodu pułapki klawiaturowej w modalu autouzupełniania adresu — i za każdym razem publiczne ogłoszenie wywołało opinię od dotkniętych użytkowników w ciągu czterech godzin, co istotnie przyspieszyło naprawę. Efekt zaufania klientów wynikający z publicznego przyznania się do incydentu dostępności był, jak powiedział nam dyrektor ds. inżynierii platformy, nieoczekiwanym pozytywnym efektem ubocznym. Dostawca SaaS B2B sprzedający oprogramowanie do zarządzania projektami poszedł jeszcze dalej: mianował eksperta ds. dostępności w rotacji dowódcy incydentu, nadał tej roli prawo weta przy wdrożeniach produkcyjnych wprowadzających regresje Sev-1 lub Sev-2 dostępności i zmniejszył wskaźnik incydentów dostępności po wdrożeniu o około 70 procent w ciągu dwunastu miesięcy. Zmiana projektowania organizacyjnego — umieszczenie konkretnej osoby na konkretnym stanowisku z konkretnym autorytetem — była pojedynczą zmianą o najwyższej sile oddziaływania.

Implikacje projektowania organizacyjnego

Narzędzia wykrywania i postmortem to łatwa część zmiany. Trudna część to projektowanie organizacyjne: ktoś musi być właścicielem rotacji dyżurowej dostępności, ktoś musi przewodniczyć zarządowi przeglądającemu działania korygujące incydentów dostępności, a ktoś musi pisać wpisy do runbooków, które dyżurny generalista odczyta o trzeciej w nocy. Wzorzec, który sprawdza się w trzech powyższych studiach przypadków, to ten sam wzorzec, który zadziałał, gdy zespoły bezpieczeństwa przechodziły przez równoważną zmianę piętnaście lat temu: mały wbudowany zespół ds. dostępności — zazwyczaj od dwóch do czterech praktyków — jest właścicielem runbooków, uczestniczy w rotacji dowódcy incydentu jako rola drugiego stopnia wywoływana dla Sev-1 i Sev-2 i przewodniczy tygodniowemu przeglądowi wszystkich incydentów dostępności z poprzedniego tygodnia. Generalny inżynier dyżurny obsługuje pierwszą reakcję (cofnięcie wdrożenia, otwarcie kanału incydentu, wywołanie eksperta); ekspert obsługuje klasyfikację, mapowanie WCAG i pisanie postmortem.

Linia raportowania tego zespołu ma znaczenie, a studia przypadków różnią się w tej kwestii. Platforma fintech umieściła swój zespół ds. dostępności bezpośrednio pod organizacją SRE. Platforma eCommerce umieściła swój pod systemami projektowania. Dostawca SaaS B2B umieścił swój pod doskonałością inżynieryjną, jako rodzeństwo zespołu ds. bezpieczeństwa. Żadne z tych rozwiązań nie jest błędne. Liczy się to, żeby zespół miał budżet, liczebność, repozytorium runbooków i poświadczenia dowódcy incydentu — rzeczy, które odróżniają funkcję operacyjną od funkcji doradczej. Zespoły ds. dostępności, które żyły w działach projektowania jako funkcje doradcze, nie mogą obsłużyć Sev-1, ponieważ nie mogą cofnąć wdrożenia. Zespoły ds. dostępności, które żyją w inżynierii jako funkcje operacyjne, mogą. To jest strukturalna zmiana, za którą niniejszy artykuł argumentuje, a studia przypadków sugerują, że kosztuje mniej i jest wdrażana szybciej, niż zazwyczaj zakładają rozmowy kierownicze na jej temat. Stos wykrywania jest gotowy do użycia. Szablon postmortem to jedna strona. Runbook to pięć linii YAML. Zmiana projektowania organizacyjnego to jedna nazwana rola z jednym nazwanym autorytetem. Wynikiem jest poziom dostępności, który zamyka regresje w czterdzieści sześć minut zamiast trzydziestu ośmiu dni — i kultura inżynieryjną, w której użytkownik korzystający wyłącznie z klawiatury i użytkownik wrażliwy na opóźnienia są traktowani, w końcu, jako równorzędni obywatele pierwszej klasy systemu, za którego utrzymanie zespół jest opłacany.

Dlaczego regresje dostępności są klasy SRE

Wykrywanie: skanowanie i alertowanie

Szablon postmortem

5-why, zaadaptowana dla dostępności

Trzy studia przypadków

Implikacje projektowania organizacyjnego