Voice control — Barrierefreiheits-Glossar

Voice control bezeichnet die Klasse assistiver Technologien, die es Nutzenden ermöglicht, einen Computer durch gesprochene Befehle zu steuern. Zu den wichtigsten Systemen zählen Dragon NaturallySpeaking (Windows, der langjährige Marktführer), macOS Voice Control und iOS Voice Control (Apples integrierte, kostenlose Lösung), Windows Speech Recognition (Microsofts eingebautes System) sowie Google Voice Access (Android).

Voice control richtet sich an Menschen mit motorischen Beeinträchtigungen, die die Nutzung von Tastatur, Maus oder Touchscreen erschweren oder unmöglich machen — RSI, Arthritis, Tremor, Lähmungen unterschiedlicher Ausprägung. Verbreitet ist es auch im Bereich der Arbeitseffizienz (Juristen und Kliniker diktieren Notizen), wo keinerlei dokumentierte Behinderung vorliegt, die Freiheit von Handarbeit aber trotzdem nützt.

Wie Voice control Befehle auflöst

Ein Voice-control-System erkennt zwei Befehlsarten:

Diktat — die nutzende Person spricht Text, der in ein fokussiertes Feld eingegeben werden soll. Das System transkribiert die Sprache.
Befehle — die nutzende Person benennt eine Aktion oder ein Steuerelement. Das System gleicht den gesprochenen Ausdruck mit einem Register verfügbarer Befehle und zugänglicher Namen von Bildschirmelementen ab.

Die zweite Befehlsart berührt Barrierefreiheit im Web: Sagt die nutzende Person „Click Submit“, sucht die Voice-control-Software nach einem Element mit dem zugänglichen Namen „Submit“ (oder einer ähnlichen Entsprechung) und löst ein Klick-Ereignis darauf aus. Besitzt der Senden-Button keinen zugänglichen Namen — weil er ein unbeschriftetes <button>-Element ist, ein benutzerdefiniertes <div>, oder ein Button mit ausschließlich symbolbasierter Beschriftung — kann die nutzende Person ihn nicht bedienen.

Bedeutung für Web-Entwicklungsteams

Die wichtigste Regel für die Voice-control-Barrierefreiheit lautet:

Jedes interaktive Element muss einen textbasierten zugänglichen Namen besitzen, der mit seiner sichtbaren Beschriftung übereinstimmt.

In der Praxis bedeutet das:

Schaltflächen benötigen sichtbaren Text. <button>Senden</button> funktioniert. Rein symbolbasierte Schaltflächen benötigen ein aria-label, das dem entspricht, was Nutzende wahrscheinlich sagen werden — aria-label="Suche" statt aria-label="Lupe".
Sichtbare Beschriftung und zugänglicher Name müssen übereinstimmen. Lautet der sichtbare Text einer Schaltfläche „Senden“, ihr aria-label aber „Formular abschicken“, findet Voice control sie möglicherweise nicht, wenn die nutzende Person „Click Senden“ sagt. WCAG 2.5.3 Label in Name (Stufe A) schreibt vor, dass der zugängliche Name den sichtbaren Beschriftungstext enthalten muss.
Benutzerdefinierte Steuerelemente müssen ihre Rolle und ihren Namen preisgeben. Ein <div role="button" aria-label="Senden"> funktioniert. Ein <div onclick> ohne Rolle oder Namen hingegen nicht.
Keine Phantomsteuerelemente. Voice-control-Overlays (nummerierte Overlays, die jedes fokussierbare Element mit einer aufrufbaren Nummer versehen) funktionieren besser, wenn die Anzahl der fokussierbaren Elemente überschaubar bleibt. Verborgene, aber dennoch fokussierbare Elemente überfüllen das Overlay.

Überschneidung mit Screenreader-Barrierefreiheit

Dieselbe Disziplin beim zugänglichen Namen und beim semantischen HTML, die eine Website für Screenreader zugänglich macht, macht sie auch für Voice control zugänglich. Beide Technologien greifen auf den Accessibility Tree zurück und setzen voraus, dass zugängliche Namen vorhanden und korrekt sind.

Der wesentliche Unterschied: Voice control benötigt keine ARIA-Live-Regionen (es ist kein Screenreader), braucht jedoch nummerierte Overlays, um Steuerelemente ohne Textbeschriftung zugänglich zu machen — weshalb Textbeschriftungen für Voice-control-Nutzende unverhältnismäßig wichtig sind.

Typische Fehler speziell bei Voice control

Rein symbolbasierte sichtbare Beschriftungen. Ein Herz-Button (Favorit) ohne sichtbaren Text. Die nutzende Person sagt „Click Favorit“, doch der zugängliche Name lautet „Speichern“ oder fehlt ganz. Diskrepanz.
Zwei Steuerelemente mit demselben zugänglichen Namen. Zwei „Mehr lesen“-Links auf einer Seite. Die nutzende Person sagt „Click Mehr lesen“; das Voice-control-System zeigt ein nummeriertes Disambiguierungs-Overlay. Das ist kein Fehler, aber es verlangsamt den Ablauf.
Nicht übereinstimmende lokalisierte Beschriftungen. Die nutzende Person spricht Englisch, doch die Seite ist auf Deutsch. Voice control muss die richtige Sprache für den Elementnamen erkennen. Das korrekte Setzen des lang-Attributs am HTML-Element hilft dabei.

Das schnellste manuelle Audit: macOS Voice Control oder Windows Speech Recognition einschalten und versuchen, die eigene Website ausschließlich per Stimme zu bedienen. Nicht aktivierbare Steuerelemente werden innerhalb von fünf Minuten offensichtlich.