Wzrok na żądanie
trzy lata, które zmieniły życie osób niewidomych i słabowidzących

Między 2023 a 2026 rokiem narzędzia, z których korzystają na co dzień osoby niewidome i słabowidzące, przestały być powolnym strumieniem wąsko wyspecjalizowanych urządzeń i stały się falą sztucznej inteligencji ogólnego przeznaczenia. Telefon potrafi teraz „odczytać” pomieszczenie, zwykłe okulary przeciwsłoneczne mogą połączyć z wolontariuszem, a wyświetlacz brajlowski może wreszcie pokazać wykres. Ten primer mapuje, co faktycznie trafiło na rynek, kto to produkuje i — równie ważne — gdzie każde z tych rozwiązań nadal zawodzi.

Mar 2023

GPT-4 vision trafił na rynek z Be My Eyes jako partnerem premierowym

Nov 2024

Okulary Ray-Ban Meta zyskały tryb dla osób niewidomych

10 linii

pierwsza masowa wieloliniowa wyświetlacz brajlowski z grafiką dotykową

Autor Dział inżynierski Disability World

13 min czytania

Aktualizacja maj 2026

Podstawy

1. Co się naprawdę zmieniło

Przez większą część ery smartfonów technologie wspomagające, na których polegały osoby niewidome, dzieliły się na dwa rodzaje. Były wąskie, drogie urządzenia jednego przeznaczenia — kamera do odczytu tekstu, identyfikator kolorów, jednostka GPS z niezgrabnym głosem — oraz aplikacje łączące użytkownika z człowiekiem, ponieważ żadna maszyna nie potrafiła wiarygodnie opisać nieuporządkowanego świata wizualnego. Pierwsza opcja była kosztowna i zawodna. Druga działała, ale oznaczała konieczność proszenia innej osoby za każdym razem, gdy ktoś chciał sprawdzić, czy mleko nie jest przeterminowane.

Zwrot nastąpił w marcu 2023 roku, gdy OpenAI ogłosiło GPT-4 i wybrało aplikację dla osób niewidomych Be My Eyes jako flagowe wdrożenie demonstracyjne możliwości modelu wizualnego. Po raz pierwszy model ogólnego przeznaczenia — nie wąsko wyspecjalizowany klasyfikator — mógł spojrzeć na dowolne zdjęcie i odpowiadać na pytania o nie w płynnym języku naturalnym. Ta jedna zdolność — opisz cokolwiek, a potem odpowiadaj na pytania uzupełniające — okazała się dokładnie tym, czego w tej dziedzinie brakowało. W ciągu osiemnastu miesięcy została wbudowana w telefony, okulary, czytniki ekranu i laski.

Ten primer przegląda tę falę w sześciu obszarach: aplikacje do asystencji wizualnej, urządzenia do noszenia, narzędzia nawigacyjne, czytniki ekranu systemów operacyjnych, przełomy w dziedzinie brajla i grafiki dotykowej oraz warstwa internetowa pod spodem tego wszystkiego. Przez cały czas zadajemy to samo pytanie, które stawiamy każdemu nowemu narzędziu: nie „czy wygląda imponująco w demonstracji?”, ale „czy osoba niewidoma otrzymuje poprawną, użyteczną odpowiedź wtedy, gdy jej potrzebuje?”. Szczera odpowiedź w 2026 roku brzmi: „znacznie częściej niż w 2022 roku — i nadal nie na tyle często, by ufać bezrefleksyjnie”. Mamy w polu widzenia obie połowy tego zdania.

Co oznacza tu „dostarcza”

Za narzędzie, które „dostarcza”, uznajemy takie, które zwraca odpowiedź, na której osoba niewidoma może polegać bez ponownej weryfikacji przez osobę widzącą. To samo kryterium, jakie stosujemy do opisów obrazów tworzonych przez AI w naszym towarzyszącym primerze o tym, gdzie AI faktycznie dostarcza tekst alternatywny w 2026 roku: pewnie sformułowane zdanie zawierające błąd jest gorsze niż żadne zdanie.

Krajobraz

2. Wzrok na żądanie: aplikacje i usługi

Najważniejsza zmiana jest też najmniej widoczna: żyje w aplikacjach, które ludzie już mieli. Kategoria podzieliła się na dwie warstwy, które teraz współpracują — natychmiastowy opis AI dla rutynowego pytania i człowiek na linii na moment, który ma znaczenie. Najsilniejsze przepływy pracy pozwalają użytkownikowi zacząć od modelu i eskalować do człowieka jednym dotknięciem.

Poniższe karty przedstawiają praktyczne działanie pięciu usług dominujących w codziennym użyciu — nie twierdzenia marketingowe. Kolumna „Zastrzeżenie” to ta, którą należy przeczytać w pierwszej kolejności.

Bezpłatny; domyślny pierwszy wybór milionów użytkowników

Co nowegoAI opisuje dowolne zdjęcie, a następnie odpowiada na pytania uzupełniające w rozmowie

EskalacjaJedno dotknięcie, by połączyć się z widzącym wolontariuszem, gdy AI nie wystarczy

ZastrzeżeniePewne halucynacje; nieodpowiedni do leków i sytuacji zagrożenia bezpieczeństwa

Trafił na Androida pod koniec 2023 roku po latach dostępności tylko na iOS

Co nowegoGeneratywne „rozbudowane” opisy scen i pytania i odpowiedzi do dokumentów, uzupełniające klasyczne kanały

Mocna stronaSzybkie, działające offline odczytywanie krótkiego tekstu i rozpoznawanie walut

ZastrzeżenieRozbudowane opisy dziedziczą to samo ryzyko fabrykowania co każdy model

Przeszkoleni profesjonalni agenci, nie wolontariusze

Co nowegoBezpłatny dostęp sponsorowany na lotniskach, kampusach i w miejscach pracy rozszerzył się w latach 2024–2025

Mocna stronaOdpowiedzialna, spójna pomoc przy zadaniach wysokiego ryzyka

ZastrzeżenieMinuty kosztują poza lokalizacjami sponsorowanymi

Zbudowany wokół kamery telefonu i Gemini

Co nowego„Zapytaj o obraz” pozwala użytkownikom zadawać pytania o zdjęcie i otrzymywać generatywne odpowiedzi

Mocna stronaŚcisła integracja z Androidem i TalkBack

ZastrzeżenieTylko Android; jakość zależy od oświetlenia i bałaganu w kadrze

Aplikacja jest bezpłatna; okulary to osobny zakup

Co nowego„Ally” — konwersacyjny asystent LLM uruchomiony w 2024 roku — można pytać o dowolne sprawy

Mocna stronaDoskonałe odczytywanie dokumentów; ten sam silnik na telefonie i okularach

ZastrzeżeniePełne doświadczenie wymaga zakupu sprzętu

„Najsilniejsze przepływy pracy pozwalają użytkownikowi zacząć od modelu i eskalować do człowieka jednym dotknięciem — maszyna dla szybkości, człowiek na moment, który ma znaczenie.”

— niniejszy artykuł, sekcja 2

Sprzęt

3. Kamera przeniosła się na twarz

Trzymanie telefonu i kierowanie jego kamerą jest wykonalne, ale zajmuje rękę i informuje wszystkich w pobliżu dokładnie o tym, co się robi. Najważniejszą zmianą sprzętową tego okresu było przeniesienie kamery na głowę — tam, gdzie wskazuje kierunek wzroku użytkownika i uwalnia obie ręce. Dwie rzeczy umożliwiły to jednocześnie: tanie, przyzwoite kamery do noszenia na głowie oraz model wystarczająco dobry, by nadawał sens temu, co widzą.

Przełomem był listopad 2024 roku, gdy Meta dodała tryb dla osób niewidomych do swoich popularnych okularów Ray-Ban Meta poprzez integrację z Be My Eyes — funkcję „Zadzwoń do wolontariusza”, która strumieniuje widok z perspektywy pierwszej osoby do widzącego pomocnika, obok własnego AI firmy Meta, które na żądanie może opisać to, co jest przed użytkownikiem. Po raz pierwszy urządzenie wspomagające miało postać okularów przeciwsłonecznych, które ludzie i tak chcieli nosić — nie wyróżniającego się sprzętu medycznego.

Pierwsze „normalnie wyglądające” okulary z trybem dla osób niewidomych

Co nowegoBe My Eyes „Zadzwoń do wolontariusza” + opisy scen AI na żądanie, bez użycia rąk

Mocna stronaSpołecznie niewidoczne; niski koszt w porównaniu z dedykowanymi urządzeniami

ZastrzeżenieNie zaprojektowane przede wszystkim dla osób niewidomych; brak wykrywania przeszkód

Zaprojektowane specjalnie dla osób niewidomych i słabowidzących

Co nowegoAsystent Ally w okularach; natychmiastowe rozpoznawanie tekstu, scen i twarzy

Mocna stronaNajlepsze w klasie odczytywanie tekstu drukowanego i odręcznego

ZastrzeżenieZnacznie droższe niż okulary konsumenckie; starzejąca się baza sprzętowa

Kamera wielkości opuszka palca, którą można przypiąć do dowolnej oprawki

Co nowegoOdczyt i rozpoznawanie na urządzeniu z poleceniami głosowymi „inteligentnego czytania”

Mocna stronaDziała offline; natychmiastowe, prywatne, nie wymaga telefonu

ZastrzeżenieWysoka cena; węższe możliwości niż otwarty asystent AI

Sensoryka pojazdów autonomicznych zaadaptowana dla pieszych

Co nowegoPrzewiduje kolizje i ostrzega przez przestrzenny dźwięk 3D; „Live AI” opisuje otoczenie podczas poruszania się

Mocna stronaCiągła świadomość przeszkód, nie tylko opis na żądanie

ZastrzeżenieUzupełnienie laski i psa przewodnika, nigdy ich zastępstwo

Opis to nie nawigacja

Okulary opisujące scenę doskonale odpowiadają na pytanie „co to jest?” i są bezużyteczne przy pytaniu „czy jest przede mną stopień?”. Opis sceny i omijanie przeszkód to różne zadania wymagające różnych czujników. Każdy wiarygodny producent w tej kategorii mówi to samo: urządzenie uzupełnia białą laskę lub psa przewodnika, a nie zastępuje ich.

Mobilność

4. Orientacja w przestrzeni

Nawigacja to najtrudniejszy problem w tej dziedzinie, ponieważ koszt błędnej odpowiedzi to krawężnik, klatka schodowa lub droga. Omawiany okres przyniósł realny postęp w dwóch odrębnych podproblemach: wykrywaniu tego, co jest bezpośrednio wokół użytkownika, i orientacji w budynku, gdzie GPS przestaje działać.

WeWALK Smart Cane 2

Odświeżona w 2024 roku wersja inteligentnej laski, która mocuje sensoryczny uchwyt na zwykłej białej lasce. Wykrywa przeszkody na poziomie klatki piersiowej i głowy, które omijają ruchy laski — zwisające gałęzie, otwarte drzwi szafy, lusterka samochodów — i ostrzega przez wibracje. Druga generacja poszerzyła kąt wykrywania, dodała wbudowanego asystenta głosowego AI (opartego na GPT-4) oraz ściślejszą integrację z nawigacją i transportem publicznym, a także zdobyła nagrodę Edison Award i King’s Award for Enterprise Innovation. Co kluczowe, zachowuje laskę: sprawdzone narzędzie pozostaje, a sensoryka jest addytywna.

Glidance Glide

Najbardziej nowatorski format urządzenia tego okresu. Glide to małe dwukołowe urządzenie firmy założonej przez Amosa Millera, byłego technologa ds. dostępności w Microsoft. Wystarczy je pchnąć do przodu, a toczy się przed użytkownikiem, fizycznie prowadząc — omijając przeszkody i komunikując się przez teleskopowy uchwyt, stanowiąc coś pomiędzy białą laską a psem przewodnikiem. Pierwsza partia zamówień przedpremierowych otworzyła się w połowie 2024 roku i wyprzedała się przed końcem roku; urządzenie wymaga miesięcznej subskrypcji w wysokości ok. 30 USD, a wysyłka do najwcześniejszych kupujących rozpoczęła się w 2026 roku. Jest to produkt wczesny i najbardziej wart obserwacji.

GoodMaps — nawigacja wewnątrz budynków

Nawigacja krok po kroku na zewnątrz działa od lat; wewnątrz budynków, gdzie GPS zawodzi — nie. GoodMaps wykorzystuje pozycjonowanie oparte na kamerze, by umieścić użytkownika wewnątrz zmapowanego budynku — lotniska, węzła komunikacyjnego, kampusu — i prowadzić go krok po kroku bez beaconów, których wymagały wcześniejsze systemy. Ograniczeniem jest zasięg: działa tylko tam, gdzie obiekt zapłacił za mapowanie.

Apple Door Detection i Magnifier

Pomoc nawigacyjna, którą większość ludzi już posiada. Tryb wykrywania w aplikacji Magnifier znajduje drzwi, odczytuje oznakowanie na nich i informuje, czy są otwarte i jak je otworzyć — używając skanera LiDAR w Pro iPhonach i iPadach. People Detection mierzy odległość do osób w pobliżu, a VoiceOver Recognition opisuje obiekty i sceny na urządzeniu. Żadna z tych funkcji nie wymaga subskrypcji ani dodatkowego sprzętu — wszystko jest dostępne w pudełku.

„Koszt błędnej odpowiedzi nawigacyjnej to nie niezręczne zdanie — to krawężnik, klatka schodowa lub droga. Dlatego każdy poważny producent utrzymuje laskę w obiegu.”

— niniejszy artykuł, sekcja 4

Platforma

5. System operacyjny nadrobił zaległości

Najcichsza rewolucja dokonała się wewnątrz czytnika ekranu. Przez lata największą luką, na którą napotykały osoby niewidome, był nieopisany obraz — zdjęcie, wykres, mem bez tekstu alternatywnego. Między 2024 a 2026 rokiem każda główna platforma dostarczyła wbudowane rozwiązanie: wystarczy skierować czytnik ekranu na obraz, a wbudowany model go opisze, a następnie przyjmuje pytania uzupełniające. To, co wcześniej wymagało aplikacji trzeciej strony, jest teraz kwestią jednego naciśnięcia klawisza.

Poniższa macierz porównuje, gdzie każda platforma wylądowała. Wzorzec jest spójny — opis obrazów przez AI wszędzie, rozumienie obrazu z kamery na żywo najsilniejsze na urządzeniach mobilnych, obsługa brajla pogłębiona w Apple — ale szczegóły decydują, które narzędzie pasuje do danego użytkownika. Metodologię testowania i narzędzia omawia szerzej nasz przewodnik po narzędziach do testowania czytników ekranu, a podstawowym standardem jest WCAG 2.2.

Czytnik ekranu	Opis obrazów przez AI	Scena z kamery na żywo	Nowości w 2025	Koszt
VoiceOver + Magnifier (Apple)	VoiceOver Recognition (na urządzeniu)	Door & People Detection	Braille Access, Accessibility Reader, Magnifier dla Mac	Wbudowany
TalkBack + Gemini (Android)	Gemini opisuje & odpowiada na pytania	przez Lookout	Głębsze pytania i odpowiedzi Gemini do obrazów i pełnego ekranu	Wbudowany
JAWS (Windows)	Picture Smart AI (ChatGPT, Claude)	N/A (komputer stacjonarny)	Szybszy Picture Smart, pytania i odpowiedzi uzupełniające	Licencja płatna
NVDA (Windows)	Wtyczki społeczności (GPT-4 vision)	N/A (komputer stacjonarny)	Dojrzewający ekosystem wtyczek	Bezpłatny + wtyczka

Fala Apple z maja 2025 roku zasługuje na osobną wzmiankę, ponieważ poszerzyła definicję dostępności. Braille Access zamienia iPhone’a, iPada, Maca lub Vision Pro w pełnoprawne urządzenie do notatek brajlowskich komunikujące się natywnie z odświeżalnym wyświetlaczem. Accessibility Reader to ogólnosystemowy tryb czytania dla osób słabowidzących i z dysleksją. Accessibility Nutrition Labels umieszczają informacje o funkcjach dostępności aplikacji bezpośrednio na jej stronie w App Store, dzięki czemu osoba niewidoma może sprawdzić przed pobraniem, czy aplikacja będzie działać — strukturalna zachęta, która wywiera presję na każdego dewelopera, by robił lepiej.

Jedna wcześniejsza funkcja zasługuje tu na wzmiankę: Personal Voice, która pozwala nagrać i zsyntetyzować model własnego głosu. Powstała z myślą o osobach tracących zdolność mówienia, ale wskazuje na szerszą przyszłość, w której syntetyczny głos w uchu użytkownika niewidomego może być głosem, który sam wybrał.

Dotyk

6. Czytanie dotykiem nareszcie otrzymało wykres

Wśród całego AI najbardziej zaległym przełomem był mechaniczny. Odświeżalne wyświetlacze brajlowskie przez dziesięciolecia pokazywały jeden wiersz tekstu — w porządku dla prozy, bezużyteczne dla podręcznika matematyki, mapy czy wykresu. Marzenie o pełnej stronie dynamicznego brajla i grafiki dotykowej miało w branży nawet własną nazwę — „Święty Brajl” — i przez lata pozostawało marzeniem.

W 2024 roku marzenie stało się rzeczywistością. Monarch, owoc partnerstwa American Printing House for the Blind i HumanWare, to pierwsze masowe urządzenie pokazujące dziesięć linii brajla i grafiki dotykowej na tej samej odświeżalnej powierzchni — dzięki czemu uczeń może poczuć wykres słupkowy, diagram geometryczny lub mapę i jednocześnie odczytać jej etykiety brajlowskie. Jest oparty na Androidzie, importuje pliki grafiki dotykowej i obsługuje wschodzący wieloliniowy format eBraille. Cena jest wysoka — rzędu pięciu cyfr — dlatego trafia głównie do uczniów przez finansowanie instytucjonalne, a nie do osób prywatnych. Koreański Dot Pad, tablicowy wyświetlacz dotykowy natywnie obsługiwany przez Apple, atakuje ten sam problem od strony konsumenckiej. Szerszy rynek omawia nasz przewodnik kupującego po odświeżalnych wyświetlaczach brajlowskich.

Dlaczego dotykowy wykres ma znaczenie

Niewidomy uczeń może wysłuchać opisu paraboli, ale nie może jej eksplorować tak jak widzący uczeń śledzi krzywą wzrokiem. Wieloliniowa grafika dotykowa przywraca tę eksplorację. Konsekwencja edukacyjna — szczególnie dla STEM, gdzie ta dziedzina straciła pokolenia talentów przez niedostępne diagramy — jest większa niż sugeruje liczba urządzeń.

Diagnostyka

7. Zastrzeżenia: co nadal jest zepsute

Każda sekcja powyżej zawierała kolumnę „Zastrzeżenie” z określonego powodu. Postęp jest realny, ale primer sprzedający wyłącznie zalety wyrządzałby swoim czytelnikom niedźwiedzią przysługę. Cztery ograniczenia dotyczą całego krajobrazu i każdy rzetelny nabywca powinien je rozważyć przed zapoznaniem się z materiałami marketingowymi.

Pewne halucynacje

Każde narzędzie do opisu AI opisze czasem coś, czego tam nie ma — cenę, która jest błędna, etykietę, której nie mógł odczytać, ale zgadł, datę ważności, którą wymyślił. Robi to tym samym płynnym, pewnym tonem, który stosuje, gdy ma rację. Dla rutynowych pytań jest to tolerowalne; w przypadku leków, alergenów, dokumentów finansowych lub wszystkiego, co jest krytyczne dla bezpieczeństwa, jedyną bezpieczną zasadą jest weryfikacja przez człowieka lub zaufany kanał nieAI. Model tworzy szkic; nie ma ostatniego słowa.

Cena dobrego sprzętu

Bezpłatna warstwa jest naprawdę transformatywna — Be My AI, Seeing AI, Lookout i wbudowane funkcje czytnika ekranu nie kosztują nic. Ale dedykowany sprzęt, który robi więcej lub działa bez użycia rąk, lub czyta dotykiem, kosztuje od setek do wielu tysięcy złotych. Monarch to urządzenie pięciocyfrowe. Rezultatem jest powiększająca się przepaść między tym, co jest teoretycznie możliwe, a tym, na co może sobie pozwolić osoba bez finansowania instytucjonalnego.

Kamera zawsze widzi

Urządzenie przesyłające strumieniowo widok z perspektywy pierwszej osoby do modelu w chmurze lub wolontariusza przesyła również wszystko inne w kadrze — osoby w pobliżu, dokumenty na biurku, wnętrze domu. Kompromis dotyczący prywatności jest realny i w dużej mierze nieuregulowany, a uderza najsilniej w użytkowników, którzy mają najmniej wyboru co do jego akceptacji. Dobre projektowanie minimalizuje to, co opuszcza urządzenie; nie wszystkie projekty są dobre.

Narzędzia to nie szkolenie

Żadna aplikacja nie zastąpi instruktażu orientacji i mobilności, a żaden czujnik nie zastąpi białej laski ani psa przewodnika w wykrywaniu podłoża. Niebezpieczeństwo bardzo dobrego asystenta to fałszywa pewność siebie, jaką może wzbudzić. Urządzenia, które odnoszą sukces, to te zbudowane jako uzupełnienia sprawdzonych umiejętności, nie ich substytuty — dlatego laska pojawia się w każdej sekcji tego artykułu.

Sieć to nadal najsłabszy element

Cała ta wspomagająca inteligencja działa na szczycie sieci, która wciąż jest w większości niedostępna. Czytnik ekranu AI może opisać obraz, ale nie może naprawić przycisku bez etykiety, formularza pułapkującego fokus ani procesu zakupu ulegającego awarii pod czytnikiem ekranu. Narzędzia ulepszały się szybciej niż strony internetowe. Zanim zaufasz, że Twoja własna strona nadąża, przeprowadź przez nią bezpłatne skanowanie dostępności — i traktuj nakładki AI obiecujące natychmiastową zgodność z głęboką podejrzliwością.

Podsumowanie: sufit się podniósł, podłoga się utrzymała

Napisana uczciwie historia lat 2023–2026 to historia dramatycznie podniesionego sufitu i ledwo ruszającej się podłogi. Osoba niewidoma w 2026 roku może robić rzeczy, które w 2022 roku były science fiction — zapytać parę okularów przeciwsłonecznych, co jest na menu, poczuć pod palcami odświeżający się wykres, uzyskać opis dowolnego zdjęcia jednym naciśnięciem klawisza. To realne rozszerzenie niezależności, które dotarło szybciej, niż ktokolwiek w tej branży przewidywał.

Ale podłoga — rzeczy, które muszą działać za każdym razem — utrzymała się. Model nadal halucynuje. Kamera nadal widzi za dużo. Świetna aplikacja nadal nie może naprawić zepsutej strony internetowej ani zastąpić instruktora mobilności. Dojrzałość tego momentu nie tkwi w demonstracjach; tkwi w dokładnej wiedzy, któremu narzędziu zaufać do którego zadania i które wymagają weryfikacji. Najlepsi praktycy i użytkownicy już tak myślą: maszyna dla szybkości, człowiek na moment, który ma znaczenie, i laska w dłoni przez cały czas.

Następne trzy lata będą oceniane według podłogi, nie sufitu. Jeśli wskaźniki halucynacji spadną, jeśli dobry sprzęt stanieje i jeśli leżąca u podstaw sieć w końcu dogoni technologię wspomagającą na jej szczycie, przepaść między tym, co możliwe, a tym, co niezawodne, zamknie się. Do tego czasu obowiązuje zasada przenikająca każdą sekcję tego primeru: narzędzia to niezwykły szkic wzroku na żądanie — a ostatnie słowo należy do użytkownika, nie do modelu.

„Sufit podniósł się dramatycznie, a podłoga ledwo ruszyła. Dojrzałość polega na wiedzy, któremu narzędziu zaufać do którego zadania — i które należy sprawdzić.”

— niniejszy artykuł, podsumowanie