Sehen auf Abruf
die drei Jahre, die das Leben blinder und sehbehinderter Menschen neu verdrahteten
Zwischen 2023 und 2026 hörten die Werkzeuge, auf die blinde und sehbehinderte Menschen täglich angewiesen sind, auf, ein langsames Rinnsal einzelzweckiger Geräte zu sein, und wurden zu einer Welle allzweck-fähiger KI. Ein Smartphone kann heute einen Raum lesen, eine gewöhnlich aussehende Sonnenbrille kann einen Freiwilligen anrufen, und ein Braille-Display kann endlich ein Diagramm anzeigen. Dieser Primer kartiert, was tatsächlich ausgeliefert wurde, wer es herstellt — und ebenso wichtig — wo jedes Gerät noch scheitert.
1. Was sich tatsächlich verändert hat
Für den größten Teil der Smartphone-Ära war die assistive Technologie, auf die blinde Menschen angewiesen waren, in zwei Varianten erhältlich. Es gab enge, teure Einzelzweckgeräte — eine Textkamera, einen Farberkenner, eine GPS-Einheit mit einer unbeholfenen Stimme — und es gab Apps, die einen mit einem Menschen verbanden, weil keine Maschine zuverlässig die chaotische visuelle Welt beschreiben konnte. Die erste Variante war kostspielig und brüchig. Die zweite funktionierte, aber sie bedeutete, jedes Mal eine andere Person zu fragen, wenn man wissen wollte, ob die Milch abgelaufen war.
Der Wendepunkt kam im März 2023, als OpenAI GPT-4 ankündigte und die App für blinde Menschen Be My Eyes als Vorzeigepräsentation dessen nutzte, was ein sichttüchtiges Modell leisten konnte. Zum ersten Mal konnte ein Allzweckmodell — kein handgebauter Klassifikator — ein beliebiges Foto betrachten und Fragen dazu in fließender Sprache beantworten. Diese eine Fähigkeit — alles beschreiben, dann Folgefragen beantworten — stellte sich als genau das heraus, was dem Fachgebiet gefehlt hatte. Innerhalb von achtzehn Monaten war sie in Smartphones, Brillen, Screenreader und Langstöcke integriert worden.
Dieser Primer untersucht diese Welle an sechs Fronten: die Apps zur visuellen Unterstützung, die Wearables, die Navigationshilfen, die Betriebssystem-Screenreader, die Braille- und Taktildurchbrüche und die Web-Schicht darunter. Durchgehend ist die Frage dieselbe, die wir an jedes neue Werkzeug stellen: nicht „Ist es in einer Demo beeindruckend?” sondern „Bekommt ein blinder Mensch eine korrekte, nützliche Antwort, wenn er sie braucht?” Die ehrliche Antwort ist 2026: „Weit häufiger als 2022 — und noch nicht oft genug, um blind zu vertrauen.” Wir behalten beide Hälften dieses Satzes im Blick.
Wir behandeln ein Werkzeug als liefernd, wenn es eine Antwort zurückgibt, auf die ein blinder Nutzer handeln kann, ohne dass eine sehende Person sie erneut prüft. Denselben Maßstab, den wir auf KI-Bildbeschreibungen in unserem Begleitprimer über wo KI-Alternativtext 2026 tatsächlich liefert anwenden, wenden wir hier an: Ein selbstsicherer Satz, der falsch ist, ist schlimmer als gar kein Satz.
2. Sehen auf Abruf: die Apps und Dienste
Die folgenreichste Veränderung ist auch die am wenigsten sichtbare: Sie lebt in Apps, die Menschen bereits besaßen. Die Kategorie teilte sich in zwei Schichten, die nun zusammenarbeiten — sofortige KI-Beschreibung für die Routinefrage und ein Mensch in der Leitung für den Moment, der zählt. Die stärksten Workflows lassen Nutzer mit dem Modell beginnen und mit einem Fingertipp zu einer Person eskalieren.
Die Karten unten erfassen das praktische Verhalten der fünf Dienste, die den Alltag dominieren — nicht die Marketingaussagen. „Der Haken” ist die Spalte, die man zuerst lesen sollte.
„Die stärksten Workflows lassen Nutzer mit dem Modell beginnen und mit einem Fingertipp zu einem Menschen eskalieren — die Maschine für Geschwindigkeit, der Mensch für den Moment, der zählt.”
3. Die Kamera wanderte ins Gesicht
Ein Smartphone hochzuhalten und seine Kamera zu richten ist handhabbar, belegt aber eine Hand und zeigt jedem in der Nähe genau, was man tut. Die wichtigste Hardware-Verschiebung des Zeitraums war die Verlagerung der Kamera auf den Kopf, wo sie dorthin zeigt, wohin der Nutzer schaut, und beide Hände freilässt. Zwei Dinge machten dies gleichzeitig möglich: günstige, ordentliche tragbare Kameras und ein Modell, das gut genug war, um zu verstehen, was sie sehen.
Der Meilenstein war November 2024, als Meta durch eine Be My Eyes-Integration einen Modus für blinde Nutzer zu seinen Mainstream-Brillen Ray-Ban Meta hinzufügte — eine Funktion „Freiwilligen anrufen”, die die Ich-Perspektive des Trägers zu einem sehenden Helfer überträgt, zusammen mit Metas eigener KI, die auf Anfrage beschreibt, was vor einem liegt. Zum ersten Mal war das Hilfsmittel ein Sonnenbrillenmodell, das Menschen bereits tragen wollten — kein auffälliges medizinisches Gerät.
Brillen, die eine Szene beschreiben, sind exzellent bei „Was ist das?” und nutzlos bei „Ist eine Stufe vor mir?” Szenenbeschreibung und Hinderniserkennung sind verschiedene Aufgaben, die verschiedene Sensoren erfordern. Jeder seriöse Hersteller in dieser Kategorie sagt dasselbe: Das Gerät steht neben dem Langstock oder Führhund, nicht an dessen Stelle.
4. Wissen, wo man ist
Navigation ist das schwierigste Problem im Fachgebiet, weil der Preis einer falschen Antwort ein Bordstein, ein Treppenhaus oder eine Straße ist. Der Zeitraum brachte echten Fortschritt bei zwei verschiedenen Teilproblemen: dem Erkennen der unmittelbaren Umgebung und der Orientierung in einem Gebäude, wo GPS versagt.
WeWALK Smart Cane 2
Eine Auffrischung des smarten Langstocks aus 2024, die einen Sensorgriff an einen gewöhnlichen weißen Langstock schraubt. Er erkennt Hindernisse auf Brust- und Kopfhöhe, die ein Stockschwung verfehlt — überhängende Äste, offene Schranktüren, LKW-Spiegel — und warnt durch Vibration. Die zweite Generation verbreiterte den Erkennungswinkel, fügte einen eingebauten KI-Sprachassistenten (auf GPT-4 basierend) und eine engere Navigations- und ÖPNV-Integration hinzu und erhielt einen Edison Award und einen King’s Award for Enterprise Innovation. Entscheidend: Der Langstock bleibt erhalten; das bewährte Werkzeug bleibt, die Sensorik ist additiv.
Glidance Glide
Der genuinste neue Formfaktor des Zeitraums. Glide ist ein kleines zweirädriges Gerät eines Unternehmens, das von dem ehemaligen Microsoft-Zugänglichkeitstechnologen Amos Miller gegründet wurde. Man schiebt es vorwärts und es rollt vor einem her, leitet einen physisch — weicht Hindernissen aus und kommuniziert durch den ausfahrbaren Griff, irgendwo zwischen einem Langstock und einem Führhund. Die erste Vorbestellungscharge öffnete Mitte 2024 und war bis Jahresende ausverkauft; das Gerät kostet ein monatliches Abonnement von rund 30 USD, wobei erste Lieferungen an die frühen Vorbesteller 2026 begannen. Es ist früh, und es ist das Gerät, das am meisten Beobachtung verdient.
GoodMaps Innennavigation
Abbiegung-für-Abbiegung im Freien funktioniert seit Jahren; in Innenräumen, wo GPS versagt, nicht. GoodMaps nutzt kamerabasierte Positionierung, um einen Nutzer in einem kartierten Gebäude zu verorten — einem Flughafen, einem Verkehrsknotenpunkt, einem Campus — und gibt schrittweise Anleitung ohne die Beacons, die frühere Systeme erforderten. Die Abdeckung ist die Grenze: Es funktioniert nur dort, wo ein Betreiber für die Kartierung bezahlt hat.
Apple Door Detection und Magnifier
Die Navigationshilfe, die die meisten bereits besitzen. Der Erkennungsmodus der Magnifier-App findet Türen, liest die Beschilderung darauf und meldet, ob sie offen sind und wie man sie öffnet — unter Nutzung des LiDAR-Scanners auf Pro-iPhones und -iPads. People Detection misst den Abstand zu Personen in der Nähe, und VoiceOver Recognition beschreibt Objekte und Szenen geräteintern. Nichts davon erfordert ein Abonnement oder zusätzliche Hardware — es ist im Lieferumfang enthalten.
„Der Preis einer falschen Navigationsantwort ist kein unbeholfener Satz — es ist ein Bordstein, ein Treppenhaus oder eine Straße. Deshalb lässt jeder seriöse Hersteller den Langstock im Einsatz.”
5. Das Betriebssystem holte auf
Die leiseste Revolution vollzog sich innerhalb des Screenreaders. Jahrelang war die Lücke, auf die blinde Nutzer am häufigsten stießen, das unbeschriebene Bild — ein Foto, ein Diagramm, ein Meme ohne Alternativtext. Zwischen 2024 und 2026 lieferte jede große Plattform eine eingebaute Antwort: Den Screenreader auf ein Bild zeigen, und ein internes Modell beschreibt es, dann beantwortet es Folgefragen. Was früher eine Drittanbieter-App erforderte, ist heute ein Tastendruck.
Die Matrix unten vergleicht, wo jede Plattform gelandet ist. Das Muster ist konsistent — KI-Bildbeschreibung überall, Live-Kameraverständnis am stärksten auf Mobilgeräten, Braille-Unterstützung auf Apple neu vertieft — aber die Details entscheiden, welches Werkzeug für einen bestimmten Nutzer passt. Für Testmethodik und Werkzeuge geht unser Leitfaden für Screenreader-Testwerkzeuge tiefer, und der zugrundeliegende Standard ist WCAG 2.2.
| Screenreader | KI-Bildbeschreibung | Live-Kameraszene | Neu in 2025 | Kosten |
|---|---|---|---|---|
| VoiceOver + Magnifier (Apple) | VoiceOver Recognition (geräteintern) | Door & People Detection | Braille Access, Accessibility Reader, Magnifier für Mac | Integriert |
| TalkBack + Gemini (Android) | Gemini beschreibt & beantwortet Fragen | via Lookout | Tieferes Gemini-Fragen-und-Antworten zu Bildern und dem gesamten Bildschirm | Integriert |
| JAWS (Windows) | Picture Smart AI (ChatGPT, Claude) | Entf. (Desktop) | Schnelleres Picture Smart, Folgefragen | Kostenpflichtige Lizenz |
| NVDA (Windows) | Community-Add-ons (GPT-4 Vision) | Entf. (Desktop) | Reifendes Add-on-Ökosystem | Kostenlos + Add-on |
Apples Welle vom Mai 2025 verdient eine eigene Anmerkung, weil sie die Definition von Barrierefreiheit erweiterte. Braille Access verwandelt ein iPhone, iPad, Mac oder Vision Pro in ein vollständiges Braille-Notizbuchgerät, das nativ mit einem aktualisierbaren Display kommuniziert. Accessibility Reader ist ein systemweiter Lesemodus für sehbehinderte und dyslektische Nutzer. Accessibility Nutrition Labels platzieren die Barrierefreiheitsfunktionen einer App direkt auf ihrer App-Store-Seite, sodass ein blinder Nutzer vor dem Herunterladen wissen kann, ob eine App funktionieren wird — ein struktureller Anreiz, der jeden Entwickler unter Druck setzt, besser zu werden.
Eine frühere Funktion verdient hier ebenfalls Erwähnung: Personal Voice, das es jemandem ermöglicht, ein Modell seiner eigenen Stimme aufzunehmen und zu synthetisieren. Es wurde mit Menschen im Sinn entwickelt, die ihre Sprachfähigkeit verlieren, aber es deutet auf eine breitere Zukunft hin, in der die synthetische Stimme im Ohr eines blinden Nutzers eine sein kann, die er tatsächlich gewählt hat.
6. Lesen durch Berührung bekam endlich ein Diagramm
Inmitten all der KI war der überfälligste Durchbruch mechanischer Natur. Aktualisierbare Braille-Displays zeigten jahrzehntelang eine einzige Textzeile — gut für Prosa, hoffnungslos für ein Mathematikbuch, eine Karte oder ein Diagramm. Der Traum einer vollen Seite dynamischer Braille- und Taktilgrafiken hatte im Fachgebiet einen Namen, „Holy Braille”, und blieb jahrelang ein Traum.
2024 wurde er ausgeliefert. Der Monarch, eine Partnerschaft zwischen dem American Printing House for the Blind und HumanWare, ist das erste Mainstream-Gerät, das zehn Zeilen Braille und Taktilgrafiken auf derselben aktualisierbaren Oberfläche anzeigt — sodass ein Schüler ein Balkendiagramm, ein Geometriediagramm oder eine Karte ertasten und gleichzeitig die Braillebeschriftungen lesen kann. Es basiert auf Android, importiert Taktilgrafikdateien und unterstützt das aufkommende mehrreihige eBraille-Format. Der Preis ist hoch — rund fünfstellig —, weshalb er Schüler hauptsächlich durch institutionelle Finanzierung erreicht und nicht Einzelpersonen. Koreas Dot Pad, ein Stift-Array-Taktildisplay, das Apple nativ unterstützt, greift dasselbe Problem von der Konsumentenseite an. Für den breiteren Markt sei auf unseren Kaufratgeber für aktualisierbare Braille-Displays verwiesen.
Ein blinder Schüler kann einer Beschreibung einer Parabel zuhören, aber er kann sie nicht erkunden wie ein sehender Schüler, der eine Kurve mit den Augen nachfährt. Mehrreihige Taktilgrafiken stellen diese Erkundung wieder her. Die bildungsmäßige Konsequenz — besonders in MINT-Fächern, wo das Fachgebiet über Generationen von Talenten durch unzugängliche Diagramme verloren hat — ist größer als die Gerätezahl vermuten lässt.
7. Der Haken: was noch defekt ist
Jeder Abschnitt oben trug einen „Der Haken”-Satz aus einem Grund. Der Fortschritt ist real, aber ein Primer, der nur die Vorzüge anpries, würde seinen Lesern einen schlechten Dienst erweisen. Vier Einschränkungen durchziehen die gesamte Landschaft, und jeder ehrliche Käufer sollte sie vor dem Marketing abwägen.
Selbstsichere Halluzination
Jedes KI-Beschreibungswerkzeug hier wird manchmal etwas beschreiben, das nicht vorhanden ist — einen Preis, der falsch ist, ein Etikett, das es nicht lesen, aber erraten hat, ein Ablaufdatum, das es erfunden hat. Es tut dies im selben flüssigen, sicheren Ton, den es verwendet, wenn es richtig liegt. Bei Routinefragen ist das tolerierbar; bei Medikamenten, Allergenen, Finanzdokumenten oder allem Sicherheitskritischen lautet die einzige sichere Regel: mit einem Menschen oder einem vertrauenswürdigen Nicht-KI-Kanal verifizieren. Das Modell entwirft; es hat nicht das letzte Wort.
Der Preis des Guten
Das kostenlose Angebot ist genuïn transformativ — Be My AI, Seeing AI, Lookout und die eingebauten Screenreader-Funktionen kosten nichts. Aber die dedizierten Hardware-Geräte, die mehr leisten, freihändig funktionieren oder durch Berührung lesen, kosten von Hunderten bis zu vielen Tausend. Ein Monarch ist ein fünfstelliges Gerät. Das Ergebnis ist eine wachsende Kluft zwischen dem, was theoretisch möglich ist, und dem, was sich eine Einzelperson ohne institutionelle Finanzierung tatsächlich leisten kann.
Die Kamera sieht immer
Ein Gerät, das die eigene Ich-Perspektive an ein Cloud-Modell oder einen Freiwilligen überträgt, überträgt auch alles andere im Bild — die Menschen um einen herum, die Dokumente auf dem Schreibtisch, das Innere des Zuhauses. Der Datenschutz-Kompromiss ist real und weitgehend unreguliert, und er trifft am härtesten die Nutzer, die am wenigsten Wahl haben, ob sie ihn akzeptieren. Gutes Design minimiert, was das Gerät verlässt; nicht jedes Design ist gut.
Werkzeuge sind kein Training
Keine App ersetzt den Orientierungs- und Mobilitätsunterricht, und kein Sensor ersetzt den weißen Langstock oder den Führhund beim Erkennen des Bodens. Die Gefahr eines sehr guten Assistenten ist das falsche Vertrauen, das er erzeugen kann. Die Geräte, die erfolgreich sind, sind die, die als Ergänzung zu bewährten Fähigkeiten gebaut wurden, nicht als Ersatz dafür — weshalb der Langstock in diesem Artikel immer wieder auftaucht.
All diese assistive Intelligenz läuft auf einem Web, das größtenteils noch immer unzugänglich ist. Ein KI-Screenreader kann ein Bild beschreiben, aber er kann eine Schaltfläche ohne Beschriftung, ein Formular, das den Fokus einsperrt, oder eine Kaufabwicklung, die unter einem Screenreader bricht, nicht reparieren. Die Werkzeuge verbesserten sich schneller als die Websites. Bevor man darauf vertraut, dass die eigene Website mithalten kann, sollte man sie durch einen kostenlosen Barrierefreiheits-Scan laufen lassen — und KI-Overlays, die sofortige Konformität versprechen, mit tiefer Skepsis begegnen.
Fazit: Die Decke stieg, der Boden hielt
Ehrlich formuliert lautet die Geschichte von 2023 bis 2026: Die Decke stieg dramatisch und der Boden bewegte sich kaum. Eine blinde Person kann 2026 Dinge tun, die 2022 Science-Fiction waren — eine Sonnenbrille fragen, was auf einer Speisekarte steht, unter den Fingern ein Diagramm aktualisieren spüren, jedes Foto mit einem Tastendruck beschreiben lassen. Das ist eine echte Erweiterung der Selbstständigkeit, und sie kam schneller als irgendjemand im Fachgebiet vorhergesagt hatte.
Aber der Boden — die Dinge, die jedes Mal stimmen müssen — hielt fest. Ein Modell halluziniert weiterhin. Eine Kamera sieht weiterhin zu viel. Eine großartige App kann weiterhin keine defekte Website reparieren oder einen Mobilitätslehrer ersetzen. Die Reife dieses Moments liegt nicht in den Demos; sie liegt darin, genau zu wissen, welchem Werkzeug man für welche Aufgabe vertrauen kann und welches man doppelt prüft. Die besten Praktiker und Nutzer denken bereits so: Maschine für Geschwindigkeit, Mensch für den Moment, der zählt, und der Langstock in der Hand die ganze Zeit.
Die nächsten drei Jahre werden am Boden gemessen werden, nicht an der Decke. Wenn Halluzinationsraten sinken, wenn die gute Hardware günstiger wird und wenn das Web darunter endlich mit der assistiven Technologie darüber aufholt, wird die Kluft zwischen dem Möglichen und dem Verlässlichen sich schließen. Bis dahin gilt die Regel, die durch jeden Abschnitt dieses Primers läuft: Die Werkzeuge sind ein bemerkenswerter Entwurf von Sehen auf Abruf — und der Nutzer, nicht das Modell, hat noch immer das letzte Wort.
„Die Decke stieg dramatisch und der Boden bewegte sich kaum. Reife bedeutet zu wissen, welchem Werkzeug man für welche Aufgabe vertrauen kann — und welches man doppelt prüft.”