AI与替代文本
2026年技术实际能做什么

视觉语言模型现在能以2022年看来不可能的流畅度描述一张信息丰富的照片。它们仍然会在截图中产生文字幻觉，误判明显残障人士的身份，并虚构出图片中从未出现的品牌名称。本综述划出这两者之间的界线。

视觉模型对比测试

图片类别测试

约62%

首次通过可用性上限

作者：Disability World工程编辑部

阅读约11分钟

2026年5月更新

基础

1. 2026年问题的形态

WCAG 2.2成功标准1.1.1自2008年以来从未改变。每一张传递意义的非文字图片都需要文字替代；每一张装饰性图片都需要被标记为装饰性。变化的是，在我们2022年可能撰写的版本与2026年5月实际撰写的版本之间，从像素数组生成一句听上去合理的句子已不再是瓶颈。生成一句正确、符合语境且不含虚构细节的句子依然是。

这一转变之所以重要，是因为2026年大多数生产级CMS平台都内置了”自动替代文本”按钮。按下按钮，系统调用后台供应商API的视觉语言模型，并将结果直接写入alt属性。无障碍后果是直接的：如果按钮是对的，一张之前以空alt发布的图片现在就有了供屏幕阅读器用户获取的描述；如果按钮是错的，屏幕阅读器用户收到的是一句措辞自信、内容却与图片无关的句子。

本综述写给拥有这个按钮的工程师。它调查了2026年占供应商整合绝大多数的五款视觉模型，对每款模型进行四类标准图片的测试，记录反复出现的失败模式，并以一种混合工作流作结——我们认为，在底层行为发生实质转变之前，这是唯一可防守的默认方案。

约41%

对500个美国大型电商页面代表性爬取中，图片以缺失或空alt属性发布（DW内部扫描，2026年3月）。

约18%

剩余alt中为自动生成的文件名或”image”、“product”等默认短语——有值，但对屏幕阅读器用户毫无意义。

约11%

alt为AI生成且未经编辑——可通过特有的三从句对冲句式识别（DW内部分类器）。

我们所说的”有效”是什么意思

一个AI替代文本候选”有效”，是指人工审稿人会原样接受，或仅需一个词的修改即可接受。任何需要重写的都算失败。这比模型可能引用的学术CIDEr或BLEU指标更严格——这是CMS按钮必须达到的标准。

“无障碍后果是直接的：如果按钮是对的，一张之前以空alt发布的图片现在就有了供屏幕阅读器用户获取的描述。如果按钮是错的，屏幕阅读器用户收到的是一句措辞自信、内容却与图片无关的句子。“

——本文第1节

格局

2. 2026年模型格局

五款视觉语言模型主导了我们在生产中观察到的整合：两款闭源前沿模型（GPT-4o视觉、Claude 3.7 Sonnet视觉），一款大量用于Google产品及下游Workspace插件的闭源模型（Gemini 2.0），以及两款在数据主权规则排除闭源API的情况下用于自托管CMS插件的开放权重模型（Llama-Vision-3、Pixtral）。每款模型在下文四类图片测试中均呈现出不同的特征。

这里的组合卡片呈现的是我们在2026年3月和4月对约600张测试图片观察到的实际行为，而非营销声明。成本为2026年5月典型分辨率下的每张图片成本，不含供应商加成。

中端CMS最常见的闭源API默认选择

优势信息丰富的照片、场景构图

劣势对屏幕上的文字产生幻觉

约每张图成本约0.004美元

工作流包含编辑审核的企业CMS常见选择

优势拒绝虚构无法辨认的文字；图表处理

劣势冗长；需明确提示长度限制

约每张图成本约0.005美元

Workspace插件及Google生态CMS默认选择

优势截图、UI元素识别

劣势误识别移动辅助器具；虚构品牌名称

约每张图成本约0.003美元

自托管CMS插件、欧盟数据主权部署

优势照片、装饰性分类

劣势图表；会猜测坐标轴数值

约每张图成本自托管推理成本

欧洲自托管；小型模型插件

优势输出简洁；遵守长度限制

劣势复杂照片的场景构图召回率较低

约每张图成本自托管推理成本

参考

3. 四类图片测试

WCAG非文字内容决策树指导在实践中归结为四类：信息性照片（携带意义的人物、场景、物体）；图表与图解（柱状图、流程图、标注地图）；截图与UI（仪表板、错误状态、设置面板）；装饰性（主视觉渐变、分隔线、填充用的图库插图）。我们从残障新闻情境、慈善机构报告、软件文档和编辑填充物中抽样，组建了每类150张、共600张图片的测试集。每款模型对每张图片生成一个alt候选；三位人工审稿人将每个候选标记为接受、修改或拒绝。下表报告接受率。

这些数字的目的不是评出赢家，而是告诉你哪个类别在不经审核就发布AI候选时风险最高。

模型	信息性照片	图表与图解	截图与UI	装饰性（正确置空）
GPT-4o vision	71%	34%	52%	41%
Claude 3.7 Sonnet vision	68%	49%	61%	58%
Gemini 2.0	66%	38%	64%	44%
Llama-Vision-3 (90B)	62%	21%	47%	53%
Pixtral large	57%	26%	42%	48%

需重点关注的两列

在所有模型中，最弱的两列是图表与图解和装饰性（正确置空）。前者失败是因为模型虚构无法辨认的数值；后者失败是因为模型写出了一个句子，而正确答案是沉默。这两种错误对于只抽查照片列的视力正常的审稿人来说是不可见的。

诊断

4. 四种关键失败模式

汇总接受率掩盖了错误的质地。审查测试集中被拒绝的候选，四种失败模式以足够的规律性反复出现，足以解释绝大多数失败。我们在此命名它们，以便任何审核AI输出的编辑知道首先应寻找哪些模式。

屏幕文字幻觉

模型写道图表坐标轴标注为”2024年第三季度营收”，而图表实际显示的是页面浏览量；模型写道截图中的按钮显示”提交”，而实际显示的是”保存并继续”。GPT-4o是这方面最严重的违规者；Claude 3.7 Sonnet则最常拒绝，返回类似”分辨率下坐标轴标注无法辨认的图表”的表述。拒绝是正确行为，也是CMS按钮应当对外暴露的正确方式。

残障人士身份误判

电动轮椅被描述为”机动踏板车”；白色盲杖被描述为”拐杖”；一张维权集会照片中明显的残障人士被描述为”一个坐在椅子上看游行的人”。这种错误模式反映了训练数据的构成。我们测试的五款模型中，没有一款的移动辅助器具识别率达到我们认为可投入生产的水平，几乎总是需要纠正性编辑。

语境细微差别丢失

一张两人用美国手语交流的照片被描述为”两个人做手势”；一张导盲犬在餐厅桌下趴卧的照片被描述为”一只狗在家具下面睡觉”。像素被准确描述了，但编辑放置这张图片所要传递的意义没有被传递。语境细微差别是矩阵无法衡量的失败模式，也是”未经编辑审核的AI替代文本”在实践中是错误默认选项的原因。

品牌名称虚构

模型写道一张笔记本电脑图库照片中的设备是”Apple MacBook”，而该笔记本实际上是无品牌的Windows外形机箱；模型写道一个无品牌咖啡杯是”星巴克杯”。Gemini 2.0在我们的测试集中最易犯这一类错误。解决方案在于提示词层面的约束：指示模型在品牌标识不明确可见时拒绝识别品牌名称。即使有该约束，仍需要抽样审核。

“像素被准确描述了。但编辑放置这张图片所要传递的意义没有被传递。“

——本文失败模式3

实操手册

5. 我们推荐的混合工作流

将AI替代文本视为”完全自动化”或”不负责任”是一种伪二元对立。按类别划分的数字告诉我们更有用的东西：AI候选在照片列可作为初稿使用，在图表列可作为拒绝来源，在装饰性列则是主动风险——除非工作流具有明确的”标记为装饰性”操作入口。正确的默认是混合，以下步骤是我们推荐的混合方案。

生成前先按图片类别路由

一个小型分类器（几千个参数即够）判断图片是照片、图表、截图还是装饰性的。路由决策决定提示词、模型以及是否生成。装饰性图片不应发送给模型：应直接标记为装饰性，以空alt发布。

图表和截图使用Claude 3.7 Sonnet

矩阵显示Claude在拒绝是正确行为的两列上领先。配置提示词，在文字不可辨认时要求明确拒绝，并在图表坐标轴数值无法读取时标记而不猜测。在CMS中将拒绝以”需要人工描述”状态呈现，而不是空alt。

照片使用GPT-4o或Gemini 2.0，附加品牌名称约束

对于信息性照片列，两款模型的接受率均超过约65%。添加提示词侧指令，除非商标或文字标识在画面中清晰可见，否则不识别品牌名称。将输出长度限制在125个字符以内，以抑制冗长的三从句格式。

发布前进行人工编辑

每个AI候选都是草稿。CMS按钮将候选写入审核字段，而不是alt属性。编辑或接受、或修改、或替换为原创文字。对于新闻情境、无障碍情境，或任何误判残障人士身份会造成伤害的情形，编辑关不可省。

定期进行审计

每季度对已发布的alt抽样与矩阵对照重新测试。模型会漂移；供应商版本会变更；失败模式会转移。100张图片的样本需要一个下午，在屏幕阅读器用户发现之前就能捕捉到行为回归。

”自动化”应当意味着什么，不应意味着什么

一个在没有人工审核的情况下直接写入alt属性的AI替代文本功能，不是无障碍功能——而是无障碍声明。WCAG合规仍然要求文字替代是正确的、符合语境的、不含虚构内容的。模型可以起草；只有编辑才能发布。

结论：门槛移动了，底线没有

诚实地写，本综述的标题是：2026年的视觉语言模型现在是照片列有用的初稿，也是图表列有用的拒绝来源，这两个事实合在一起意味着混合工作流而非完全自动化。门槛在2022年至2026年间有了实质性移动——最好的闭源模型对信息性照片的接受率现在在六十多的高位，而2022年时更接近三十多的低位。底线没有移动。移动辅助器具依然被误判，美国手语依然变成”做手势”，装饰性图片依然在需要沉默时收到一个句子。

无障碍后果是：2026年任何CMS内置”自动替代文本”按钮的正确默认，不是”按下按钮就发布”，而是”按下按钮起草，然后审核后发布”。比这更紧则是将虚构细节发送给最直接依赖文字替代正确性的读者；比这更松——完全忽视AI——则在一份初稿本可有所帮助的情况下，将那41%空alt图片弃之不顾。

我们将在2026年11月重新测试此矩阵。如果图表列的接受率超过60%的门槛，混合工作流将会收紧。在那之前，按钮起草，编辑发布。

“模型可以起草；只有编辑才能发布。“

——本文混合工作流第4步