Sehen auf Abruf
die drei Jahre, die das Leben blinder und sehbehinderter Menschen neu verdrahteten

Zwischen 2023 und 2026 hörten die Werkzeuge, auf die blinde und sehbehinderte Menschen täglich angewiesen sind, auf, ein langsames Rinnsal einzelzweckiger Geräte zu sein, und wurden zu einer Welle allzweck-fähiger KI. Ein Smartphone kann heute einen Raum lesen, eine gewöhnlich aussehende Sonnenbrille kann einen Freiwilligen anrufen, und ein Braille-Display kann endlich ein Diagramm anzeigen. Dieser Primer kartiert, was tatsächlich ausgeliefert wurde, wer es herstellt — und ebenso wichtig — wo jedes Gerät noch scheitert.

Mär. 2023

GPT-4 Vision mit Be My Eyes als Launch-Partner ausgeliefert

Nov. 2024

Ray-Ban Meta Brille erhielt einen Modus für blinde Nutzer

10 Zeilen

erstes mehrreihiges Braille- und Taktilgrafikdisplay für den Massenmarkt

Von dem Engineering-Desk von Disability World

13 Min. Lesezeit

Aktualisiert Mai 2026

Grundlage

1. Was sich tatsächlich verändert hat

Für den größten Teil der Smartphone-Ära war die assistive Technologie, auf die blinde Menschen angewiesen waren, in zwei Varianten erhältlich. Es gab enge, teure Einzelzweckgeräte — eine Textkamera, einen Farberkenner, eine GPS-Einheit mit einer unbeholfenen Stimme — und es gab Apps, die einen mit einem Menschen verbanden, weil keine Maschine zuverlässig die chaotische visuelle Welt beschreiben konnte. Die erste Variante war kostspielig und brüchig. Die zweite funktionierte, aber sie bedeutete, jedes Mal eine andere Person zu fragen, wenn man wissen wollte, ob die Milch abgelaufen war.

Der Wendepunkt kam im März 2023, als OpenAI GPT-4 ankündigte und die App für blinde Menschen Be My Eyes als Vorzeigepräsentation dessen nutzte, was ein sichttüchtiges Modell leisten konnte. Zum ersten Mal konnte ein Allzweckmodell — kein handgebauter Klassifikator — ein beliebiges Foto betrachten und Fragen dazu in fließender Sprache beantworten. Diese eine Fähigkeit — alles beschreiben, dann Folgefragen beantworten — stellte sich als genau das heraus, was dem Fachgebiet gefehlt hatte. Innerhalb von achtzehn Monaten war sie in Smartphones, Brillen, Screenreader und Langstöcke integriert worden.

Dieser Primer untersucht diese Welle an sechs Fronten: die Apps zur visuellen Unterstützung, die Wearables, die Navigationshilfen, die Betriebssystem-Screenreader, die Braille- und Taktildurchbrüche und die Web-Schicht darunter. Durchgehend ist die Frage dieselbe, die wir an jedes neue Werkzeug stellen: nicht „Ist es in einer Demo beeindruckend?” sondern „Bekommt ein blinder Mensch eine korrekte, nützliche Antwort, wenn er sie braucht?” Die ehrliche Antwort ist 2026: „Weit häufiger als 2022 — und noch nicht oft genug, um blind zu vertrauen.” Wir behalten beide Hälften dieses Satzes im Blick.

Was „liefert” hier bedeutet

Wir behandeln ein Werkzeug als liefernd, wenn es eine Antwort zurückgibt, auf die ein blinder Nutzer handeln kann, ohne dass eine sehende Person sie erneut prüft. Denselben Maßstab, den wir auf KI-Bildbeschreibungen in unserem Begleitprimer über wo KI-Alternativtext 2026 tatsächlich liefert anwenden, wenden wir hier an: Ein selbstsicherer Satz, der falsch ist, ist schlimmer als gar kein Satz.

Landschaft

2. Sehen auf Abruf: die Apps und Dienste

Die folgenreichste Veränderung ist auch die am wenigsten sichtbare: Sie lebt in Apps, die Menschen bereits besaßen. Die Kategorie teilte sich in zwei Schichten, die nun zusammenarbeiten — sofortige KI-Beschreibung für die Routinefrage und ein Mensch in der Leitung für den Moment, der zählt. Die stärksten Workflows lassen Nutzer mit dem Modell beginnen und mit einem Fingertipp zu einer Person eskalieren.

Die Karten unten erfassen das praktische Verhalten der fünf Dienste, die den Alltag dominieren — nicht die Marketingaussagen. „Der Haken” ist die Spalte, die man zuerst lesen sollte.

Kostenlos; die standardmäßige erste Anlaufstelle für Millionen von Nutzern

Was neu istKI beschreibt jedes Foto, beantwortet dann Folgefragen im Gespräch

EskalationEin Fingertipp zu einem sehenden Freiwilligen, wenn KI nicht ausreicht

Der HakenSelbstsichere Halluzinationen; nicht für Medikamente oder sicherheitskritische Entscheidungen

Ende 2023 nach Jahren als iOS-exklusiv auf Android erschienen

Was neu istGenerative „reiche” Szenenbeschreibungen und Dokument-Fragen & Antworten zusätzlich zu seinen klassischen Kanälen

StärkeSchnelles, offline-fähiges Lesen kurzer Texte und Währungen

Der HakenReiche Beschreibungen erben dasselbe Halluzinationsrisiko wie jedes Modell

Geschulte professionelle Agenten, keine Freiwilligen

Was neu istKostenloser Zugang, gesponsert an Flughäfen, Hochschulen und Arbeitsstätten, erweitert 2024–2025

StärkeVerantwortliche, konsistente Unterstützung bei anspruchsvollen Aufgaben

Der HakenMinuten kosten Geld außerhalb gesponserter Standorte

Aufgebaut um die Smartphone-Kamera und Gemini

Was neu ist„Frag nach einem Bild” lässt Nutzer Fragen zu einem Foto stellen und generative Antworten erhalten

StärkeEnge Integration mit Android und TalkBack

Der HakenNur Android; Qualität variiert je nach Lichtverhältnissen und Unordnung

App kostenlos; die Brille ist ein separater Kauf

Was neu ist„Ally”, ein konversationeller LLM-Assistent, 2024 eingeführt, kann offen formulierten Fragen gestellt werden

StärkeStarkes Dokumentenlesen; dieselbe Intelligenz auf Smartphone und Brille

Der HakenDas Premium-Erlebnis ist hinter Hardware gesperrt

„Die stärksten Workflows lassen Nutzer mit dem Modell beginnen und mit einem Fingertipp zu einem Menschen eskalieren — die Maschine für Geschwindigkeit, der Mensch für den Moment, der zählt.”

— dieser Artikel, Abschnitt 2

Hardware

3. Die Kamera wanderte ins Gesicht

Ein Smartphone hochzuhalten und seine Kamera zu richten ist handhabbar, belegt aber eine Hand und zeigt jedem in der Nähe genau, was man tut. Die wichtigste Hardware-Verschiebung des Zeitraums war die Verlagerung der Kamera auf den Kopf, wo sie dorthin zeigt, wohin der Nutzer schaut, und beide Hände freilässt. Zwei Dinge machten dies gleichzeitig möglich: günstige, ordentliche tragbare Kameras und ein Modell, das gut genug war, um zu verstehen, was sie sehen.

Der Meilenstein war November 2024, als Meta durch eine Be My Eyes-Integration einen Modus für blinde Nutzer zu seinen Mainstream-Brillen Ray-Ban Meta hinzufügte — eine Funktion „Freiwilligen anrufen”, die die Ich-Perspektive des Trägers zu einem sehenden Helfer überträgt, zusammen mit Metas eigener KI, die auf Anfrage beschreibt, was vor einem liegt. Zum ersten Mal war das Hilfsmittel ein Sonnenbrillenmodell, das Menschen bereits tragen wollten — kein auffälliges medizinisches Gerät.

Die erste „normal aussehende” Brille mit einem Blindenmodus

Was neu istBe My Eyes „Freiwilligen anrufen” + KI-Szenenbeschreibungen auf Anfrage, freihändig

StärkeSozial unsichtbar; geringe Kosten im Vergleich zu Spezialgeräten

Der HakenNicht primär für blinde Nutzer entwickelt; keine Hinderniserkennung

Eigens für blinde und sehbehinderte Träger entwickelt

Was neu istDer Ally-Assistent auf der Brille; sofortige Text-, Szenen- und Gesichtserkennung

StärkeBranchenführendes Lesen von gedrucktem und handgeschriebenem Text

Der HakenDeutlich teurer als Konsumentenbrillen; alternde Hardware-Basis

Eine fingerkuppengroße Kamera, die an jedes Brillengestell geclippt wird

Was neu istGeräteinterne Erkennung und Lesen mit Sprachbefehl „Smart Reading”

StärkeFunktioniert offline; sofortig, privat, kein Smartphone erforderlich

Der HakenPremiumpreis; eingeschränkter als ein offener KI-Assistent

Selbstfahrzeugsensorik, angepasst für Fußgänger

Was neu istSagt Kollisionen vorher und warnt durch 3D-Raumklang; „Live AI” beschreibt die Umgebung während des Gehens

StärkeKontinuierliches Hindernisbewusstsein, nicht nur Beschreibung auf Anfrage

Der HakenEine Ergänzung zu Langstock und Führhund, niemals ein Ersatz

Beschreibung ist keine Navigation

Brillen, die eine Szene beschreiben, sind exzellent bei „Was ist das?” und nutzlos bei „Ist eine Stufe vor mir?” Szenenbeschreibung und Hinderniserkennung sind verschiedene Aufgaben, die verschiedene Sensoren erfordern. Jeder seriöse Hersteller in dieser Kategorie sagt dasselbe: Das Gerät steht neben dem Langstock oder Führhund, nicht an dessen Stelle.

Mobilität

4. Wissen, wo man ist

Navigation ist das schwierigste Problem im Fachgebiet, weil der Preis einer falschen Antwort ein Bordstein, ein Treppenhaus oder eine Straße ist. Der Zeitraum brachte echten Fortschritt bei zwei verschiedenen Teilproblemen: dem Erkennen der unmittelbaren Umgebung und der Orientierung in einem Gebäude, wo GPS versagt.

WeWALK Smart Cane 2

Eine Auffrischung des smarten Langstocks aus 2024, die einen Sensorgriff an einen gewöhnlichen weißen Langstock schraubt. Er erkennt Hindernisse auf Brust- und Kopfhöhe, die ein Stockschwung verfehlt — überhängende Äste, offene Schranktüren, LKW-Spiegel — und warnt durch Vibration. Die zweite Generation verbreiterte den Erkennungswinkel, fügte einen eingebauten KI-Sprachassistenten (auf GPT-4 basierend) und eine engere Navigations- und ÖPNV-Integration hinzu und erhielt einen Edison Award und einen King’s Award for Enterprise Innovation. Entscheidend: Der Langstock bleibt erhalten; das bewährte Werkzeug bleibt, die Sensorik ist additiv.

Glidance Glide

Der genuinste neue Formfaktor des Zeitraums. Glide ist ein kleines zweirädriges Gerät eines Unternehmens, das von dem ehemaligen Microsoft-Zugänglichkeitstechnologen Amos Miller gegründet wurde. Man schiebt es vorwärts und es rollt vor einem her, leitet einen physisch — weicht Hindernissen aus und kommuniziert durch den ausfahrbaren Griff, irgendwo zwischen einem Langstock und einem Führhund. Die erste Vorbestellungscharge öffnete Mitte 2024 und war bis Jahresende ausverkauft; das Gerät kostet ein monatliches Abonnement von rund 30 USD, wobei erste Lieferungen an die frühen Vorbesteller 2026 begannen. Es ist früh, und es ist das Gerät, das am meisten Beobachtung verdient.

GoodMaps Innennavigation

Abbiegung-für-Abbiegung im Freien funktioniert seit Jahren; in Innenräumen, wo GPS versagt, nicht. GoodMaps nutzt kamerabasierte Positionierung, um einen Nutzer in einem kartierten Gebäude zu verorten — einem Flughafen, einem Verkehrsknotenpunkt, einem Campus — und gibt schrittweise Anleitung ohne die Beacons, die frühere Systeme erforderten. Die Abdeckung ist die Grenze: Es funktioniert nur dort, wo ein Betreiber für die Kartierung bezahlt hat.

Apple Door Detection und Magnifier

Die Navigationshilfe, die die meisten bereits besitzen. Der Erkennungsmodus der Magnifier-App findet Türen, liest die Beschilderung darauf und meldet, ob sie offen sind und wie man sie öffnet — unter Nutzung des LiDAR-Scanners auf Pro-iPhones und -iPads. People Detection misst den Abstand zu Personen in der Nähe, und VoiceOver Recognition beschreibt Objekte und Szenen geräteintern. Nichts davon erfordert ein Abonnement oder zusätzliche Hardware — es ist im Lieferumfang enthalten.

„Der Preis einer falschen Navigationsantwort ist kein unbeholfener Satz — es ist ein Bordstein, ein Treppenhaus oder eine Straße. Deshalb lässt jeder seriöse Hersteller den Langstock im Einsatz.”

— dieser Artikel, Abschnitt 4

Plattform

5. Das Betriebssystem holte auf

Die leiseste Revolution vollzog sich innerhalb des Screenreaders. Jahrelang war die Lücke, auf die blinde Nutzer am häufigsten stießen, das unbeschriebene Bild — ein Foto, ein Diagramm, ein Meme ohne Alternativtext. Zwischen 2024 und 2026 lieferte jede große Plattform eine eingebaute Antwort: Den Screenreader auf ein Bild zeigen, und ein internes Modell beschreibt es, dann beantwortet es Folgefragen. Was früher eine Drittanbieter-App erforderte, ist heute ein Tastendruck.

Die Matrix unten vergleicht, wo jede Plattform gelandet ist. Das Muster ist konsistent — KI-Bildbeschreibung überall, Live-Kameraverständnis am stärksten auf Mobilgeräten, Braille-Unterstützung auf Apple neu vertieft — aber die Details entscheiden, welches Werkzeug für einen bestimmten Nutzer passt. Für Testmethodik und Werkzeuge geht unser Leitfaden für Screenreader-Testwerkzeuge tiefer, und der zugrundeliegende Standard ist WCAG 2.2.

Screenreader	KI-Bildbeschreibung	Live-Kameraszene	Neu in 2025	Kosten
VoiceOver + Magnifier (Apple)	VoiceOver Recognition (geräteintern)	Door & People Detection	Braille Access, Accessibility Reader, Magnifier für Mac	Integriert
TalkBack + Gemini (Android)	Gemini beschreibt & beantwortet Fragen	via Lookout	Tieferes Gemini-Fragen-und-Antworten zu Bildern und dem gesamten Bildschirm	Integriert
JAWS (Windows)	Picture Smart AI (ChatGPT, Claude)	Entf. (Desktop)	Schnelleres Picture Smart, Folgefragen	Kostenpflichtige Lizenz
NVDA (Windows)	Community-Add-ons (GPT-4 Vision)	Entf. (Desktop)	Reifendes Add-on-Ökosystem	Kostenlos + Add-on

Apples Welle vom Mai 2025 verdient eine eigene Anmerkung, weil sie die Definition von Barrierefreiheit erweiterte. Braille Access verwandelt ein iPhone, iPad, Mac oder Vision Pro in ein vollständiges Braille-Notizbuchgerät, das nativ mit einem aktualisierbaren Display kommuniziert. Accessibility Reader ist ein systemweiter Lesemodus für sehbehinderte und dyslektische Nutzer. Accessibility Nutrition Labels platzieren die Barrierefreiheitsfunktionen einer App direkt auf ihrer App-Store-Seite, sodass ein blinder Nutzer vor dem Herunterladen wissen kann, ob eine App funktionieren wird — ein struktureller Anreiz, der jeden Entwickler unter Druck setzt, besser zu werden.

Eine frühere Funktion verdient hier ebenfalls Erwähnung: Personal Voice, das es jemandem ermöglicht, ein Modell seiner eigenen Stimme aufzunehmen und zu synthetisieren. Es wurde mit Menschen im Sinn entwickelt, die ihre Sprachfähigkeit verlieren, aber es deutet auf eine breitere Zukunft hin, in der die synthetische Stimme im Ohr eines blinden Nutzers eine sein kann, die er tatsächlich gewählt hat.

Berührung

6. Lesen durch Berührung bekam endlich ein Diagramm

Inmitten all der KI war der überfälligste Durchbruch mechanischer Natur. Aktualisierbare Braille-Displays zeigten jahrzehntelang eine einzige Textzeile — gut für Prosa, hoffnungslos für ein Mathematikbuch, eine Karte oder ein Diagramm. Der Traum einer vollen Seite dynamischer Braille- und Taktilgrafiken hatte im Fachgebiet einen Namen, „Holy Braille”, und blieb jahrelang ein Traum.

2024 wurde er ausgeliefert. Der Monarch, eine Partnerschaft zwischen dem American Printing House for the Blind und HumanWare, ist das erste Mainstream-Gerät, das zehn Zeilen Braille und Taktilgrafiken auf derselben aktualisierbaren Oberfläche anzeigt — sodass ein Schüler ein Balkendiagramm, ein Geometriediagramm oder eine Karte ertasten und gleichzeitig die Braillebeschriftungen lesen kann. Es basiert auf Android, importiert Taktilgrafikdateien und unterstützt das aufkommende mehrreihige eBraille-Format. Der Preis ist hoch — rund fünfstellig —, weshalb er Schüler hauptsächlich durch institutionelle Finanzierung erreicht und nicht Einzelpersonen. Koreas Dot Pad, ein Stift-Array-Taktildisplay, das Apple nativ unterstützt, greift dasselbe Problem von der Konsumentenseite an. Für den breiteren Markt sei auf unseren Kaufratgeber für aktualisierbare Braille-Displays verwiesen.

Warum ein taktiles Diagramm wichtig ist

Ein blinder Schüler kann einer Beschreibung einer Parabel zuhören, aber er kann sie nicht erkunden wie ein sehender Schüler, der eine Kurve mit den Augen nachfährt. Mehrreihige Taktilgrafiken stellen diese Erkundung wieder her. Die bildungsmäßige Konsequenz — besonders in MINT-Fächern, wo das Fachgebiet über Generationen von Talenten durch unzugängliche Diagramme verloren hat — ist größer als die Gerätezahl vermuten lässt.

Diagnostik

7. Der Haken: was noch defekt ist

Jeder Abschnitt oben trug einen „Der Haken”-Satz aus einem Grund. Der Fortschritt ist real, aber ein Primer, der nur die Vorzüge anpries, würde seinen Lesern einen schlechten Dienst erweisen. Vier Einschränkungen durchziehen die gesamte Landschaft, und jeder ehrliche Käufer sollte sie vor dem Marketing abwägen.

Selbstsichere Halluzination

Jedes KI-Beschreibungswerkzeug hier wird manchmal etwas beschreiben, das nicht vorhanden ist — einen Preis, der falsch ist, ein Etikett, das es nicht lesen, aber erraten hat, ein Ablaufdatum, das es erfunden hat. Es tut dies im selben flüssigen, sicheren Ton, den es verwendet, wenn es richtig liegt. Bei Routinefragen ist das tolerierbar; bei Medikamenten, Allergenen, Finanzdokumenten oder allem Sicherheitskritischen lautet die einzige sichere Regel: mit einem Menschen oder einem vertrauenswürdigen Nicht-KI-Kanal verifizieren. Das Modell entwirft; es hat nicht das letzte Wort.

Der Preis des Guten

Das kostenlose Angebot ist genuïn transformativ — Be My AI, Seeing AI, Lookout und die eingebauten Screenreader-Funktionen kosten nichts. Aber die dedizierten Hardware-Geräte, die mehr leisten, freihändig funktionieren oder durch Berührung lesen, kosten von Hunderten bis zu vielen Tausend. Ein Monarch ist ein fünfstelliges Gerät. Das Ergebnis ist eine wachsende Kluft zwischen dem, was theoretisch möglich ist, und dem, was sich eine Einzelperson ohne institutionelle Finanzierung tatsächlich leisten kann.

Die Kamera sieht immer

Ein Gerät, das die eigene Ich-Perspektive an ein Cloud-Modell oder einen Freiwilligen überträgt, überträgt auch alles andere im Bild — die Menschen um einen herum, die Dokumente auf dem Schreibtisch, das Innere des Zuhauses. Der Datenschutz-Kompromiss ist real und weitgehend unreguliert, und er trifft am härtesten die Nutzer, die am wenigsten Wahl haben, ob sie ihn akzeptieren. Gutes Design minimiert, was das Gerät verlässt; nicht jedes Design ist gut.

Werkzeuge sind kein Training

Keine App ersetzt den Orientierungs- und Mobilitätsunterricht, und kein Sensor ersetzt den weißen Langstock oder den Führhund beim Erkennen des Bodens. Die Gefahr eines sehr guten Assistenten ist das falsche Vertrauen, das er erzeugen kann. Die Geräte, die erfolgreich sind, sind die, die als Ergänzung zu bewährten Fähigkeiten gebaut wurden, nicht als Ersatz dafür — weshalb der Langstock in diesem Artikel immer wieder auftaucht.

Das Web ist noch immer das schwächste Glied

All diese assistive Intelligenz läuft auf einem Web, das größtenteils noch immer unzugänglich ist. Ein KI-Screenreader kann ein Bild beschreiben, aber er kann eine Schaltfläche ohne Beschriftung, ein Formular, das den Fokus einsperrt, oder eine Kaufabwicklung, die unter einem Screenreader bricht, nicht reparieren. Die Werkzeuge verbesserten sich schneller als die Websites. Bevor man darauf vertraut, dass die eigene Website mithalten kann, sollte man sie durch einen kostenlosen Barrierefreiheits-Scan laufen lassen — und KI-Overlays, die sofortige Konformität versprechen, mit tiefer Skepsis begegnen.

Fazit: Die Decke stieg, der Boden hielt

Ehrlich formuliert lautet die Geschichte von 2023 bis 2026: Die Decke stieg dramatisch und der Boden bewegte sich kaum. Eine blinde Person kann 2026 Dinge tun, die 2022 Science-Fiction waren — eine Sonnenbrille fragen, was auf einer Speisekarte steht, unter den Fingern ein Diagramm aktualisieren spüren, jedes Foto mit einem Tastendruck beschreiben lassen. Das ist eine echte Erweiterung der Selbstständigkeit, und sie kam schneller als irgendjemand im Fachgebiet vorhergesagt hatte.

Aber der Boden — die Dinge, die jedes Mal stimmen müssen — hielt fest. Ein Modell halluziniert weiterhin. Eine Kamera sieht weiterhin zu viel. Eine großartige App kann weiterhin keine defekte Website reparieren oder einen Mobilitätslehrer ersetzen. Die Reife dieses Moments liegt nicht in den Demos; sie liegt darin, genau zu wissen, welchem Werkzeug man für welche Aufgabe vertrauen kann und welches man doppelt prüft. Die besten Praktiker und Nutzer denken bereits so: Maschine für Geschwindigkeit, Mensch für den Moment, der zählt, und der Langstock in der Hand die ganze Zeit.

Die nächsten drei Jahre werden am Boden gemessen werden, nicht an der Decke. Wenn Halluzinationsraten sinken, wenn die gute Hardware günstiger wird und wenn das Web darunter endlich mit der assistiven Technologie darüber aufholt, wird die Kluft zwischen dem Möglichen und dem Verlässlichen sich schließen. Bis dahin gilt die Regel, die durch jeden Abschnitt dieses Primers läuft: Die Werkzeuge sind ein bemerkenswerter Entwurf von Sehen auf Abruf — und der Nutzer, nicht das Modell, hat noch immer das letzte Wort.

„Die Decke stieg dramatisch und der Boden bewegte sich kaum. Reife bedeutet zu wissen, welchem Werkzeug man für welche Aufgabe vertrauen kann — und welches man doppelt prüft.”

— dieser Artikel, Fazit