按需获取视觉信息
三年间重塑盲人与低视力人士生活的技术变革

2023至2026年间，盲人及低视力人士日常所用的工具，从一批缓慢迭代的单一功能设备，演变为一波通用人工智能浪潮。手机如今能够”读懂”一个房间，一副外观普通的太阳镜可以接通志愿者，而盲文显示器终于能够呈现图表。本综述梳理真正落地的产品、研发机构，以及——同样重要的——各项技术仍存在的局限。

2023年3月

GPT-4视觉功能上线，Be My Eyes作为发布合作伙伴

2024年11月

Ray-Ban Meta眼镜新增盲人用户模式

10行

首款主流多行盲文与触觉图形显示器面世

作者：Disability World工程编辑部

阅读约13分钟

2026年5月更新

基础

1. 真正发生了什么变化

在智能手机时代的大部分时间里，盲人所依赖的辅助技术分为两类。一类是价格高昂、功能单一的专用设备——阅读文字的摄像机、识别颜色的工具、语音笨拙的GPS——另一类是将用户连接至真人的应用，因为没有机器能够可靠地描述杂乱的视觉世界。前者成本高、脆弱易坏；后者虽然有效，却意味着每次想知道牛奶是否过期，都要向他人求助。

转折点出现在2023年3月。OpenAI发布GPT-4时，以盲人应用Be My Eyes作为旗舰示范，展示具备视觉能力的模型能做什么。这是历史上第一次，一个通用模型——而非专门构建的分类器——能够查看任意照片并用流畅的语言回答相关问题。这一单一能力——描述任何事物，再回答追问——恰好是该领域长期缺失的东西。在此后十八个月内，它被集成进手机、眼镜、屏幕阅读器和导盲杖。

本综述从六个维度审视这波技术浪潮：视觉辅助应用、可穿戴设备、导航辅助工具、操作系统屏幕阅读器、盲文与触觉技术突破，以及底层的网络层。贯穿全文的问题始终如一——不是”演示效果是否令人印象深刻？“，而是”盲人用户在需要时能否获得正确、有用的答案？“2026年的诚实答案是：“远比2022年更常如此——但仍不足以完全信赖。“本文将这个答案的两面都如实呈现。

本文”有效”的标准

本文认定一项工具”有效”，是指它能在无需明眼人复核的情况下，为盲人用户提供可据以行动的答案。与我们在2026年AI替代文本实际效果综述中采用的标准相同：一句措辞自信但内容错误的句子，比没有任何描述更糟糕。

全景

2. 按需视觉：应用与服务

最具影响力的变化也是最不显眼的：它存在于人们已经在用的应用之中。这一类别分化为两个层次，如今协同运作——AI即时描述用于常规问题，真人在关键时刻随时待命。最优的工作流允许用户从模型开始，一键升级到真人。

以下卡片呈现的是主导日常使用的五项服务的实际行为，而非营销宣传。“局限”一列应首先阅读。

免费；数百万用户的默认首选

新增功能AI描述任意照片，并以对话方式回答追问

升级路径AI不足时，一键转接明眼志愿者

局限存在自信幻觉；不适用于药物或安全关键场景

2023年底登陆Android，此前多年仅限iOS

新增功能在原有经典通道基础上，新增生成式”丰富”场景描述和文档问答

优势短文字和货币快速识别，支持离线

局限丰富描述与所有模型一样存在虚构风险

训练有素的专业坐席，而非志愿者

新增功能2024至2025年间，在机场、校园和工作场所的免费赞助访问持续扩展

优势高风险任务的可靠一致帮助

局限在赞助地点之外按分钟收费

以手机摄像头和Gemini为核心构建

新增功能”询问图片”功能让用户就照片提问，获得生成式答案

优势与Android和TalkBack深度集成

局限仅限Android；质量受光线和杂乱程度影响

应用免费；眼镜需另行购买

新增功能”Ally”——2024年推出的对话式大语言模型助手，可回答开放性问题

优势文档阅读能力强；手机与眼镜共用同一AI核心

局限高端体验需购买硬件方可解锁

”最优的工作流允许用户从模型开始，一键升级到真人——机器负责速度，真人负责关键时刻。“

——本文第2节

硬件

3. 摄像头移到了脸上

举着手机对准摄像头虽然可行，但占用了一只手，也让周围所有人都知道你在做什么。这一时期最重要的硬件转变，是将摄像头移到头部——它随视线方向而动，双手得以解放。两件事同时推动了这一转变：廉价且性能尚可的可穿戴摄像头，以及足以理解所见画面的模型。

标志性事件发生在2024年11月。Meta通过与Be My Eyes的集成，在其主流Ray-Ban Meta眼镜上新增了盲人用户模式——包括将佩戴者第一视角画面实时传输给明眼助手的”呼叫志愿者”功能，以及Meta自身AI按需描述眼前景象的能力。这是首次，辅助设备变成了一副人们本就愿意佩戴的普通太阳镜，而非引人注目的医疗器具。

首款具备盲人模式的”外观普通”眼镜

新增功能Be My Eyes”呼叫志愿者”＋按需AI场景描述，全程免手持

优势社交场合无感；相较专用设备价格较低

局限并非以盲人用户为首要设计对象；无障碍物感知能力

专为盲人及低视力佩戴者设计

新增功能眼镜端搭载Ally助手；即时文字、场景和人脸识别

优势印刷体和手写文字识别能力业内领先

局限价格远超消费级眼镜；底层硬件平台渐趋老化

指尖大小，可夹在任何镜框上

新增功能设备端识别与阅读，语音指令驱动”智能阅读”

优势支持离线；即时、私密，无需手机

局限价格较高；功能范围窄于开放式AI助手

将自动驾驶汽车传感技术适配于行人

新增功能通过3D空间音效预测并警示碰撞；“实时AI”在行进中持续描述周围环境

优势持续感知障碍物，而非仅提供按需描述

局限是导盲杖和导盲犬的辅助，永远不是替代

描述不等于导航

能描述场景的眼镜擅长回答”这是什么？“，却无法回答”前方是否有台阶？“场景描述与障碍物规避是两项不同的任务，需要不同的传感器。该领域每一家有信誉的制造商都明确表示：设备是配合白色导盲杖或导盲犬使用的，而非取而代之。

出行

4. 知道自己在哪里

导航是该领域最难解决的问题，因为一个错误答案的代价可能是路沿、楼梯或马路。这一时期在两个不同子问题上取得了切实进展：感知直接周围环境，以及在GPS失效的建筑内定向。

WeWALK Smart Cane 2

智能导盲杖的2024年升级版，在普通白色导盲杖上加装了感应手柄。它能探测杖扫无法触及的胸部和头部高度障碍物——悬垂的树枝、敞开的橱柜门、货车后视镜——并通过振动发出警告。第二代产品扩大了探测角度，新增内置AI语音助手（基于GPT-4），强化了导航与公共交通集成，并荣获爱迪生奖和英国国王企业创新奖。关键在于，它保留了导盲杖：经过验证的工具不变，感应能力叠加其上。

Glidance Glide

这一时期最具原创性的新形态设备。Glide是一款小型双轮设备，出自前Microsoft无障碍技术专家Amos Miller创立的公司。用户轻推它向前，它便滚在前方引路——绕过障碍物，通过伸缩手柄传递信息，介于白色导盲杖与导盲犬之间。首批预订于2024年中开放，年底售罄；设备按月订阅，费用约30美元，最早一批用户将于2026年开始收货。它尚处早期，却是最值得关注的产品。

GoodMaps室内导航

户外逐向导航多年来已运作成熟；室内——GPS失效之处——则不然。GoodMaps利用基于摄像头的定位技术，将用户精确置于已建图的建筑内——机场、交通枢纽、校园——并提供逐步引导，无需早期系统所依赖的信标。覆盖范围是其瓶颈：仅在场馆已付费建图的地点有效。

Apple门检测与放大镜

大多数人已经拥有的导航辅助工具。放大镜应用的检测模式能够找到门、读取门上的标识，并报告门是否开着以及如何开门——借助Pro系列iPhone和iPad上的LiDAR扫描仪。人物检测功能测量附近他人的距离，VoiceOver识别功能在设备端描述物体和场景。这些功能无需订阅或额外硬件——随设备附带。

“导航错误的代价不是一句措辞尴尬的句子——而是路沿、楼梯或马路。这正是每一家严肃的制造商都将导盲杖保留在流程中的原因。“

——本文第4节

平台

5. 操作系统追上来了

最静悄悄的革命发生在屏幕阅读器内部。多年来，盲人用户最常遭遇的障碍是未经描述的图片——照片、图表、没有替代文本的表情包。2024至2026年间，每个主要平台都内置了解决方案：将屏幕阅读器指向图片，板载模型即描述图片，并接受追问。过去需要第三方应用才能实现的功能，现在一次按键即可完成。

下表比较了各平台的落地情况。规律是一致的——AI图像描述已覆盖所有平台，移动端的实时摄像头理解能力最强，Apple在盲文支持上有了新的深化——但细节决定了哪款工具适合特定用户。测试方法和工具详见我们的屏幕阅读器测试工具指南，底层标准参见WCAG 2.2。

屏幕阅读器	AI图像描述	实时摄像头场景	2025年新增	费用
VoiceOver + Magnifier（Apple）	VoiceOver Recognition（设备端）	门检测与人物检测	Braille Access、Accessibility Reader、Mac版放大镜	内置免费
TalkBack + Gemini（Android）	Gemini描述并回答问题	通过Lookout	深化的Gemini图像和全屏问答	内置免费
JAWS（Windows）	Picture Smart AI（ChatGPT、Claude）	不适用（桌面端）	更快的Picture Smart，支持追问	付费许可
NVDA（Windows）	社区插件（GPT-4视觉）	不适用（桌面端）	插件生态日趋成熟	免费＋插件

Apple 2025年5月的一波更新值得单独说明，因为它拓宽了无障碍的定义。Braille Access将iPhone、iPad、Mac或Vision Pro变为能与可刷新盲文显示器原生通信的完整盲文记事本。Accessibility Reader是面向低视力和阅读障碍用户的系统级阅读模式。Accessibility Nutrition Labels（无障碍营养标签）将应用的无障碍功能直接展示在App Store页面上，让盲人用户在下载前就能判断一款应用是否可用——这一结构性机制向每位开发者施加了做得更好的压力。

还有一项早期功能值得在此一提：Personal Voice（个人声音），允许用户录制并合成自己声音的模型。它最初是为正在失去语言能力的人设计的，但它指向了一个更广阔的未来——盲人耳中的合成声音，可以是他们真正选择的那一个。

触觉

6. 触觉阅读终于能看图了

在所有AI进展之中，最迟到的突破却是机械层面的。可刷新盲文显示器数十年来只能显示单行文字——阅读散文尚可，面对数学教科书、地图或图表则无能为力。全页动态盲文加触觉图形的梦想，在该领域有一个名字——“圣杯盲文”（Holy Braille）——多年来始终是梦想。

2024年，它落地了。Monarch是美国盲人出版局（APH）与HumanWare合作推出的产品，是首款在同一可刷新表面同时显示10行盲文和触觉图形的主流设备——学生可以用手指感受柱状图、几何图形或地图，同时阅读其盲文标注。它基于Android系统，支持导入触觉图形文件，兼容新兴的多行eBraille格式。价格不菲，约在五位数，因此主要通过机构资助惠及学生，而非个人购买。韩国的Dot Pad是一款Apple原生支持的针阵触觉显示器，从消费端攻克同一问题。面向更广泛市场的选择，参见我们的可刷新盲文显示器购买指南。

触觉图形的意义所在

盲人学生可以聆听对抛物线的描述，但无法像明眼学生用眼睛追踪曲线那样探索它。多行触觉图形还原了这种探索能力。其教育意义——尤其在STEM领域，因无障碍图表缺失而失去了一代又一代人才——远超设备销量所揭示的程度。

诊断

7. 局限所在：仍然存在的问题

以上每一节都标注了”局限”，这是有原因的。进步是真实的，但一份只渲染正面的综述是在辜负读者。四项局限贯穿整个领域，任何诚实的购买者在被营销打动之前都应权衡它们。

自信的幻觉

这里提到的每一款AI描述工具，有时都会描述根本不存在的东西——错误的价格、无法辨认但被猜测的标签、虚构的有效期。而且它用的是与正确时完全相同的流畅、笃定的语气。对于常规问题，这尚可接受；对于药物、过敏原、财务文件或任何安全关键场景，唯一安全的规则是通过真人或可信的非AI渠道核实。模型只是起草；最终决定权不在它。

好东西的价格

免费层级确实具有变革性——Be My AI、Seeing AI、Lookout以及内置屏幕阅读器功能均不收费。但那些功能更强、支持免持操作或触觉阅读的专用硬件，从数百美元到数千美元不等。Monarch是五位数的设备。结果是理论可能与个人在没有机构资助时实际能负担得起的东西之间，差距正在拉大。

摄像头始终在看

向云端模型或志愿者传输第一视角画面的设备，也同时传输了画面中的一切——周围的人、桌上的文件、家中的内部空间。这种隐私权衡是真实存在的，且基本处于监管空白，代价最终由最没有选择权的用户来承担。良好的设计会将离开设备的数据最小化；并非所有设计都是良好的。

工具不是训练

没有任何应用能替代定向行走训练，也没有任何传感器能在探测地面方面替代白色导盲杖或导盲犬。一个非常优秀的助手的危险，在于它可能制造出虚假的自信。成功的设备是那些作为成熟技能的补充而构建的，而非替代品——这正是导盲杖在本文中一再出现的原因。

网络仍是最薄弱的环节

所有这些辅助智能都运行在一个大体上仍不无障碍的网络之上。AI屏幕阅读器可以描述图片，却无法修复一个没有标签的按钮、一个会困住焦点的表单，或一个在屏幕阅读器下崩溃的结账流程。工具的进步速度远超网站本身。在相信自己的网站能够跟上之前，不妨先进行一次免费无障碍扫描——并对那些承诺即时合规的AI覆盖层工具保持深度警惕。

结论：上限升高了，底线没有移动

诚实地写，2023至2026年的故事是：上限大幅升高，底线几乎纹丝未动。2026年的盲人能够做到2022年还是科幻的事情——询问一副太阳镜菜单上写了什么，用指尖感受图表刷新，一次按键即可获得任意照片的描述。这是独立性的真实扩展，而且来得比该领域任何人预期的都要快。

但底线——那些必须每次都正确的事情——依然坚守。模型仍然会产生幻觉。摄像头仍然看到太多。再好的应用也无法修复一个损坏的网站，也无法替代行走训练师。这个时刻的成熟，不在于演示；而在于清楚地知道哪款工具适合哪项任务，以及哪款需要二次核实。最优秀的从业者和用户已经这样思考：机器负责速度，真人负责关键时刻，导盲杖始终握在手中。

未来三年将以底线而非上限来评判。如果幻觉率下降，如果优质硬件变得更便宜，如果底层网络终于赶上其上承载的辅助技术，可能与可靠之间的差距将会缩小。在那之前，贯穿本文每一节的规则依然有效：这些工具是按需视觉的非凡草稿——而最终决定权，仍在用户，而非模型。

“上限大幅升高，底线几乎纹丝未动。成熟在于清楚地知道哪款工具适合哪项任务——以及哪款需要二次核实。“

——本文结论