Voice control
Auch: Dragon NaturallySpeaking, Voice Control, Windows Speech Recognition, VoiceAccess
Die Klasse assistiver Technologien, die es Nutzenden ermöglicht, einen Computer per Sprachbefehl zu bedienen. Dragon NaturallySpeaking, macOS/iOS Voice Control und Windows Speech Recognition setzen voraus, dass zugängliche Namen mit dem gesprochenen Befehl übereinstimmen.
Voice control bezeichnet die Klasse assistiver Technologien, die es Nutzenden ermöglicht, einen Computer durch gesprochene Befehle zu steuern. Zu den wichtigsten Systemen zählen Dragon NaturallySpeaking (Windows, der langjährige Marktführer), macOS Voice Control und iOS Voice Control (Apples integrierte, kostenlose Lösung), Windows Speech Recognition (Microsofts eingebautes System) sowie Google Voice Access (Android).
Voice control richtet sich an Menschen mit motorischen Beeinträchtigungen, die die Nutzung von Tastatur, Maus oder Touchscreen erschweren oder unmöglich machen — RSI, Arthritis, Tremor, Lähmungen unterschiedlicher Ausprägung. Verbreitet ist es auch im Bereich der Arbeitseffizienz (Juristen und Kliniker diktieren Notizen), wo keinerlei dokumentierte Behinderung vorliegt, die Freiheit von Handarbeit aber trotzdem nützt.
Wie Voice control Befehle auflöst
Ein Voice-control-System erkennt zwei Befehlsarten:
- Diktat — die nutzende Person spricht Text, der in ein fokussiertes Feld eingegeben werden soll. Das System transkribiert die Sprache.
- Befehle — die nutzende Person benennt eine Aktion oder ein Steuerelement. Das System gleicht den gesprochenen Ausdruck mit einem Register verfügbarer Befehle und zugänglicher Namen von Bildschirmelementen ab.
Die zweite Befehlsart berührt Barrierefreiheit im Web: Sagt die nutzende Person
„Click Submit“, sucht die Voice-control-Software nach einem Element mit dem zugänglichen
Namen „Submit“ (oder einer ähnlichen Entsprechung) und löst ein Klick-Ereignis darauf aus.
Besitzt der Senden-Button keinen zugänglichen Namen — weil er ein unbeschriftetes
<button>-Element ist, ein benutzerdefiniertes <div>, oder ein Button mit
ausschließlich symbolbasierter Beschriftung — kann die nutzende Person ihn nicht bedienen.
Bedeutung für Web-Entwicklungsteams
Die wichtigste Regel für die Voice-control-Barrierefreiheit lautet:
Jedes interaktive Element muss einen textbasierten zugänglichen Namen besitzen, der mit seiner sichtbaren Beschriftung übereinstimmt.
In der Praxis bedeutet das:
- Schaltflächen benötigen sichtbaren Text.
<button>Senden</button>funktioniert. Rein symbolbasierte Schaltflächen benötigen einaria-label, das dem entspricht, was Nutzende wahrscheinlich sagen werden —aria-label="Suche"stattaria-label="Lupe". - Sichtbare Beschriftung und zugänglicher Name müssen übereinstimmen. Lautet der
sichtbare Text einer Schaltfläche „Senden“, ihr
aria-labelaber „Formular abschicken“, findet Voice control sie möglicherweise nicht, wenn die nutzende Person „Click Senden“ sagt. WCAG 2.5.3 Label in Name (Stufe A) schreibt vor, dass der zugängliche Name den sichtbaren Beschriftungstext enthalten muss. - Benutzerdefinierte Steuerelemente müssen ihre Rolle und ihren Namen preisgeben.
Ein
<div role="button" aria-label="Senden">funktioniert. Ein<div onclick>ohne Rolle oder Namen hingegen nicht. - Keine Phantomsteuerelemente. Voice-control-Overlays (nummerierte Overlays, die jedes fokussierbare Element mit einer aufrufbaren Nummer versehen) funktionieren besser, wenn die Anzahl der fokussierbaren Elemente überschaubar bleibt. Verborgene, aber dennoch fokussierbare Elemente überfüllen das Overlay.
Überschneidung mit Screenreader-Barrierefreiheit
Dieselbe Disziplin beim zugänglichen Namen und beim semantischen HTML, die eine Website für Screenreader zugänglich macht, macht sie auch für Voice control zugänglich. Beide Technologien greifen auf den Accessibility Tree zurück und setzen voraus, dass zugängliche Namen vorhanden und korrekt sind.
Der wesentliche Unterschied: Voice control benötigt keine ARIA-Live-Regionen (es ist kein Screenreader), braucht jedoch nummerierte Overlays, um Steuerelemente ohne Textbeschriftung zugänglich zu machen — weshalb Textbeschriftungen für Voice-control-Nutzende unverhältnismäßig wichtig sind.
Typische Fehler speziell bei Voice control
- Rein symbolbasierte sichtbare Beschriftungen. Ein Herz-Button (Favorit) ohne sichtbaren Text. Die nutzende Person sagt „Click Favorit“, doch der zugängliche Name lautet „Speichern“ oder fehlt ganz. Diskrepanz.
- Zwei Steuerelemente mit demselben zugänglichen Namen. Zwei „Mehr lesen“-Links auf einer Seite. Die nutzende Person sagt „Click Mehr lesen“; das Voice-control-System zeigt ein nummeriertes Disambiguierungs-Overlay. Das ist kein Fehler, aber es verlangsamt den Ablauf.
- Nicht übereinstimmende lokalisierte Beschriftungen. Die nutzende Person spricht
Englisch, doch die Seite ist auf Deutsch. Voice control muss die richtige Sprache für
den Elementnamen erkennen. Das korrekte Setzen des
lang-Attributs am HTML-Element hilft dabei.
Das schnellste manuelle Audit: macOS Voice Control oder Windows Speech Recognition einschalten und versuchen, die eigene Website ausschließlich per Stimme zu bedienen. Nicht aktivierbare Steuerelemente werden innerhalb von fünf Minuten offensichtlich.