Инцидентите по достъпност в SRE постмортема

Описание на изображението: Монитор, показващ табло за управление на инциденти на SRE с червен банер за предупреждение „INCIDENT“ и пейджър устройство до него — визуалният знак за отчитането на достъпността като инцидент.

Време за четене: 9 минути

Когато страница за плащане падне, SRE екип получава повикване на пейджъра, присвоява се ниво на тежест, отваря се военна стая, а двадесет и четири часа по-късно циркулира безобвинителен постмортем документ с хронология, секция за първопричината и списък с коригиращи действия. Когато същата страница за плащане достави регресия, която прави полето за кредитна карта недостижимо с клавиатура, обикновено се случва това, че фронтенд инженер го забелязва три спринта по-късно, подава Jira билет, маркиран „accessibility“, и билетът седи в изоставането, докато някой няма свободен капацитет. Двата резултата — една потребителска група, заключена извън работеща продукционна система — са функционално идентични. Вътрешният отговор е безумно различен. Това есе твърди, че вторият отговор е счупен, че първият отговор е правилният и че пътят от втория към първия е по-кратък, отколкото повечето инженерни организации предполагат. За по-широкия практически контекст вижте съпътстващата ни статия за третирането на дълга по достъпност като технически дълг; тази статия е конкретно за реакцията при инциденти.

Промяната не е философска. Регресиите по достъпност са наблюдаеми, поддават се на степенуване и пасват чисто в същия работен процес за управление на инциденти, който екипът ви вече провежда на PagerDuty, Opsgenie, FireHydrant, Statuspage и в каквото хранилище за runbook-ове организацията ви е стандартизирала. Инструментите съществуват. Сигналът съществува. Рамката за категоризиране — WCAG 2.2 — е публикуван, машинно сравним договор с критерии, които се преобразуват директно в нива на тежест. Това, което обикновено липсва, е стъпката за организационен дизайн: някой трябва да обяви, че регресия по a11y в продукция е инцидент с главна буква И, и това обявяване трябва да дойде с дежурна ротация, матрица за тежест, шаблон за постмортем и съвет за преглед на коригиращи действия. Това обявяване е работата, която това есе се опитва да подкрепи.

Инцидент, в съвременната SRE практика, е всяко непланирано събитие, което влошава услугата за потребителите. Дефиницията не уточнява кои потребители, коя модалност на взаимодействие или коя помощна технология. Бутон за вход, който връща грешка 500, е инцидент, защото потребителят не може да влезе. Бутон за вход, който е загубил достъпното си име и сега се обявява като „бутон“ пред екранен четец, също е инцидент, защото и този потребител не може да влезе. Вътрешните екипи, четящи тези два режима на провал, исторически са прилагали различни ментални категории — първият е „прекъсване“, вторият е „бъг“ — но от мястото на потребителя преживяването е същото: работеща продукционна система е спряла да работи за тях.

Причината a11y да живее извън тази рамка е отчасти инструментариумът. Прекъсванията бяха наблюдаеми чрез синтетичен мониторинг и табла за дял на грешките, докато регресиите по a11y изплуваха само чрез ръчни одити седмици или месеци след внедряването. Тази пролука се затвори. Axe-core, Pa11y, Lighthouse CI и пакетът за непрекъснат мониторинг на Deque вече се изпълняват при всяко внедряване в зрелите конвейери, с разлики, изваждани в същите панели на Datadog или Grafana, които показват латентност p99 и дял на 5xx. Сигналът е в реално време. Другата причина a11y да живее извън рамката е объркването с нивата на тежест: тежестта на прекъсване е очевидна, защото показателят е двоичен (страницата се връща или не), докато тежестта на регресия по a11y се е усещала по-мека. Тя не е по-мека. Провал по WCAG 2.2 A на страница за плащане е Sev-1 — правно и операционно критичната повърхност е неизползваема за цял потребителски клас. Провал по WCAG AA на същото плащане е Sev-2. Регресия на подобрение по AAA на маркетингова страница е Sev-4. Матрицата е публикуема в едностраничен документ и може да бъде ратифицирана от инженерна организация в едно-единствено заседание за планиране.

Откриване: сканиране и предупреждения

Стекът за откриване на a11y-като-инцидент има три слоя и всички те вече съществуват във вашия CI конвейер, ако сте свършили каквато и да е работа по непрекъсната достъпност. Първият слой е сканиране по време на компилация. Всеки pull request изпълнява axe-core или еквивалент срещу представителен набор от страници, връща JSON доклад и или проваля компилацията при регресии, или подава констатация. Това е същата форма като Snyk, SonarQube или всеки друг контролно-пропускателен пункт за качество. Вторият слой е синтетичен мониторинг по време на внедряване. След като внедряване кацне в продукция, синтетик за a11y — изпълняващ headless Chrome срещу същите страници от критичния потребителски път, които вашият монитор за наличност достига — изпълнява същото сканиране с axe и записва резултата във вашето хранилище за времеви редове. Третият слой е откриване на аномалии по време на изпълнение. Винаги когато сканирането по време на внедряване върне разлика — ново нарушение, което не е присъствало в предишното внедряване — тази разлика задейства webhook в PagerDuty (или Opsgenie, или каквото и да използва екипът ви), с полезен товар, който включва URL адреса на страницата, критерия на WCAG, нивото на тежест и дълбока връзка към екранната снимка.

Този webhook е мястото, където се случва магията. Интеграцията с PagerDuty третира събитието за a11y като нормален инцидент с нормална тежест, задейства нормалното предупреждение към нормалната дежурна ротация и отваря нормален канал за инцидент в Slack или Teams. Дежурният инженер, който го поема, не се нуждае от каквото и да е специално обучение по достъпност, за да направи триаж — нуждае се само от записа в runbook-а, който казва „за a11y Sev-1, върнете внедряването и повикайте a11y SME в ротацията“. Този запис в runbook-а е YAML файл от пет реда, не по-сложен от runbook-а за преминаване при отказ на база данни. Стекът за откриване не е трудната част. Трудното е културната стъпка на третирането на произтичащото повикване като реално повикване, а не като известие, което някой може да заглуши.

Шаблонът за постмортем

Безобвинителен постмортем за инцидент по a11y споделя стандартните секции на всеки постмортем — резюме, хронология, въздействие, първопричина, извлечени поуки, елементи за действие — и добавя две специфични полета, които родовият шаблон пропуска. Първото допълнително поле е засегнати потребители, изразени като оценка на популацията от потребители на помощна технология. Стандартен постмортем отчита „прибл. 14 000 потребители не успяха да завършат плащане между 14:02 и 15:37“. Постмортем за a11y отчита „прибл. 280 000 потребители по света зависят от екранен четец за въвеждане на кредитна карта; регресията направи полето необявяемо; делът на въвеждане на кредитна карта за потребители, навигиращи без зрение, спадна до нула за продължителността на инцидента“. Второто допълнително поле е нарушени критерии на WCAG, изразени по номер на критерий и ниво на съответствие: „1.3.1 Информация и взаимоотношения (A), 4.1.2 Име, роля, стойност (A), 2.4.6 Заглавия и етикети (AA)“. Тези две полета са това, което прави постмортема четим за партньорите по правни въпроси, достъпност и съответствие, които по подразбиране не четат инженерни постмортеми.

Останалата част от документа следва стандартния шаблон от SRE Workbook — чиста прозаична хронология, обвързана с UTC времеви маркери, рефлексивен блок „какво мина добре / какво мина зле“ и списък с коригиращи действия, всяко притежавано от назован инженер със срок и Jira билет. Безобвинителната рамка има значение тук колкото и навсякъде другаде: целта на постмортема не е да намери инженера, който е доставил регресията, а да намери системната пролука, която е позволила регресията да бъде доставена. Постмортеми за a11y, написани с обвинителен глас, произвеждат един резултат — инженерите спират да отчитат проблеми по a11y. Постмортеми за a11y, написани с безобвинителен глас, произвеждат противоположния резултат — инженерите започват да ги предлагат доброволно, защото разговорът е за конвейера, а не за човека.

Петте „защо“, адаптирани за достъпност

Упражнението на Toyota „пет защо“ — пробийте от симптома до причината, като питате „защо“ пет пъти подред — се превежда чисто към регресиите по a11y и произвежда различен набор от констатации за първопричина от еквивалентното упражнение при прекъсване по латентност. Разработен пример: полето за кредитна карта е загубило достъпното си име. Защо? Защото елементът <label> беше премахнат в последния спринт за редизайн. Защо? Защото редизайнерът замени етикета с модел на плаващ етикет, имплементиран като стилизиран <span>. Защо? Защото компонентът на дизайн системата, който редизайнерът използва, не доставя достъпен по подразбиране вариант с плаващ етикет. Защо? Защото сътрудникът на дизайн системата, който изгради този компонент, никога не изпълни axe-core срещу неговия запис в Storybook. Защо? Защото хранилището на дизайн системата няма контролно-пропускателен пункт за axe-core в CI.

Коригиращото действие изпада от петото „защо“: добавете axe-core към CI на дизайн системата. Забележете колко различно е това заключение от коригиращото действие, което упражнение с едно „защо“ би произвело („добавете обратно етикета към полето за кредитна карта“). Корекцията с едно „защо“ кърпи симптома. Корекцията с пет „защо“ предотвратява следващите двадесет регресии от същата форма. A11y е особено отзивчив на анализ с пет „защо“, защото повечето регресии по a11y се коренят в пролука на конвейера или дизайн системата, а не в един-единствен небрежен комит — щом намерите пролуката, я поправяте веднъж и целият клас регресии спира да се случва. Екип, който изпълнява пет „защо“ при всеки инцидент по a11y от Sev-1 и Sev-2 в продължение на шест месеца, завършва с конвейер, който улавя огромното мнозинство от регресиите, преди да достигнат продукция, без никой да трябва да напише и един допълнителен ръчен одит.

Три казуса

Финтех платформа, с която сме говорили, в европейския сектор на банкирането на дребно, прие модела a11y-като-инцидент в края на 2024 г., след като запитване от регулатор наложи промяна на позицията. Те добавиха сканирания с axe-core към всяко внедряване, свързаха резултатите в PagerDuty като специализирана услуга „a11y“ и добавиха a11y SME към ротацията на командващите инциденти като отговарящ от второ ниво, повикван за събития от Sev-1 и Sev-2. През първите шест месеца те регистрираха единадесет инцидента по a11y — три Sev-1 (поток за вход, потвърждение на транзакция, изтегляне на извлечение), шест Sev-2 (формуляри за настройки на сметка, джаджи за качване на документи, маркетинговият въртележка) и два Sev-3 (козметични регресии в цветовия контраст в помощния център). Средното време за разрешаване на Sev-1 беше четиридесет и шест минути. Средното време за разрешаване на Sev-1 в еквивалентния период от предходната година, преди моделът да бъде приет, беше тридесет и осем дни.

eCommerce платформа на западното крайбрежие на САЩ свърза същия модел във FireHydrant вместо в PagerDuty и добави компонент на Statuspage, наречен „Съвместимост с помощни технологии“, който отчита изричен статус към клиентите с лице към публиката. Компонентът на Statuspage стана червен два пъти през първото тримесечие — веднъж за регресия на екранен четец на страницата с резултати от търсенето, веднъж за клавиатурен капан на модалния прозорец за автоматично попълване на адрес — и двата пъти публичната публикация произведе входяща обратна връзка от засегнати потребители в рамките на четири часа, което съществено ускори отстраняването. Ефектът върху доверието на клиентите от публичното признаване на инцидент по a11y, каза ни ръководителят по инженеринг на платформата, беше неочаквана положителна външност. B2B SaaS доставчик, продаващ софтуер за управление на проекти, отведе модела по-далеч: те назначиха експерт по достъпността в ротацията на командващите инциденти, дадоха на тази роля право на вето върху продукционни внедрявания, които въвеждат регресии по a11y от Sev-1 или Sev-2, и намалиха своя дял на инциденти по a11y след внедряване с прибл. 70 процента в продължение на дванадесет месеца. Стъпката за организационен дизайн — поставянето на назован човек в назована позиция с назован авторитет — беше единствената промяна с най-висока ефективност.

Импликации за организационния дизайн

Инструментариумът за откриване и постмортем е лесната част от промяната. Трудната част е организационният дизайн: някой трябва да притежава дежурната ротация за a11y, някой трябва да председателства съвета за преглед на коригиращи действия за инциденти по a11y, а някой трябва да напише записите в runbook-а, които общопрактикуващият дежурен инженер чете в три през нощта. Моделът, който работи в трите казуса по-горе, е същият модел, който работи, когато екипите по сигурност преминаха през еквивалентната промяна преди петнадесет години: малък вграден екип по a11y — обикновено двама до четирима практикуващи — притежава runbook-овете, седи в ротацията на командващите инциденти като повиквана роля от второ ниво и председателства седмичен преглед на всички инциденти по a11y от предходната седмица. Общопрактикуващият дежурен инженер се грижи за първата реакция (връщане на внедряването, отваряне на канала за инцидента, повикване на SME); SME се грижи за категоризирането, преобразуването към WCAG и съставянето на постмортема.

Линията на подчиненост за този екип има значение и казусите не са съгласни по нея. Финтех платформата постави своя екип по a11y директно под SRE организацията. eCommerce платформата постави своя под дизайн системите. B2B SaaS доставчикът постави своя под инженерната отличеност, сестра на екипа по сигурност. Нито един от тези не е грешен. Това, което има значение, е екипът да има бюджет, щатна численост, хранилище за runbook-ове и пълномощия на командващ инциденти — нещата, които отличават оперативна функция от консултативна функция. Екипи по a11y, които са живели вътре в дизайн отдели като консултативни функции, не могат да управляват Sev-1, защото не могат да върнат внедряване. Екипи по a11y, които са живели вътре в инженеринга като оперативни функции, могат. Това е структурната промяна, за която това есе се опитва да аргументира, и казусите подсказват, че тя струва по-малко и се доставя по-бързо, отколкото обикновено предполагат ръководните разговори около нея. Стекът за откриване е готов за употреба. Шаблонът за постмортем е една страница. Runbook-ът е пет реда YAML. Промяната в организационния дизайн е една назована роля с един назован авторитет. Резултатът е позиция по a11y, която затваря регресиите за четиридесет и шест минути вместо за тридесет и осем дни — и инженерна култура, в която потребителят само с клавиатура и чувствителният към латентност потребител се третират, най-сетне, като един и същи първокласен гражданин на системата, която екипът получава заплата да поддържа работеща.

Защо регресиите по достъпност са от SRE клас

Откриване: сканиране и предупреждения

Шаблонът за постмортем

Петте „защо“, адаптирани за достъпност

Три казуса

Импликации за организационния дизайн