A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.
Image description: A laptop showing an AI assistant generating alt text for a photograph, with bounding boxes around detected objects — the visual marker for AI-and-alt-text reporting.

工程综述 · AI与替代文本

AI与替代文本:2026年技术实际能做什么

2026年AI生成替代文本现状工程综述。我们测试了GPT-4o、Claude 3.7 Sonnet、Gemini 2.0、Llama-Vision-3和Pixtral对四类图片的表现,并详细记录了技术的可靠之处与仍会产生幻觉之处。

AI与替代文本
2026年技术实际能做什么

视觉语言模型现在能以2022年看来不可能的流畅度描述一张信息丰富的照片。它们仍然会在截图中产生文字幻觉,误判明显残障人士的身份,并虚构出图片中从未出现的品牌名称。本综述划出这两者之间的界线。

5
视觉模型对比测试
4
图片类别测试
约62%
首次通过可用性上限
阅读约11分钟
2026年5月更新

1. 2026年问题的形态

WCAG 2.2成功标准1.1.1自2008年以来从未改变。每一张传递意义的非文字图片都需要文字替代;每一张装饰性图片都需要被标记为装饰性。变化的是,在我们2022年可能撰写的版本与2026年5月实际撰写的版本之间,从像素数组生成一句听上去合理的句子已不再是瓶颈。生成一句正确、符合语境且不含虚构细节的句子依然是。

这一转变之所以重要,是因为2026年大多数生产级CMS平台都内置了”自动替代文本”按钮。按下按钮,系统调用后台供应商API的视觉语言模型,并将结果直接写入alt属性。无障碍后果是直接的:如果按钮是对的,一张之前以空alt发布的图片现在就有了供屏幕阅读器用户获取的描述;如果按钮是错的,屏幕阅读器用户收到的是一句措辞自信、内容却与图片无关的句子。

本综述写给拥有这个按钮的工程师。它调查了2026年占供应商整合绝大多数的五款视觉模型,对每款模型进行四类标准图片的测试,记录反复出现的失败模式,并以一种混合工作流作结——我们认为,在底层行为发生实质转变之前,这是唯一可防守的默认方案。

约41%
对500个美国大型电商页面代表性爬取中,图片以缺失或空alt属性发布(DW内部扫描,2026年3月)。
约18%
剩余alt中为自动生成的文件名或”image”、“product”等默认短语——有值,但对屏幕阅读器用户毫无意义。
约11%
alt为AI生成且未经编辑——可通过特有的三从句对冲句式识别(DW内部分类器)。
我们所说的”有效”是什么意思

一个AI替代文本候选”有效”,是指人工审稿人会原样接受,或仅需一个词的修改即可接受。任何需要重写的都算失败。这比模型可能引用的学术CIDEr或BLEU指标更严格——这是CMS按钮必须达到的标准。

“无障碍后果是直接的:如果按钮是对的,一张之前以空alt发布的图片现在就有了供屏幕阅读器用户获取的描述。如果按钮是错的,屏幕阅读器用户收到的是一句措辞自信、内容却与图片无关的句子。“

——本文第1节

2. 2026年模型格局

五款视觉语言模型主导了我们在生产中观察到的整合:两款闭源前沿模型(GPT-4o视觉、Claude 3.7 Sonnet视觉),一款大量用于Google产品及下游Workspace插件的闭源模型(Gemini 2.0),以及两款在数据主权规则排除闭源API的情况下用于自托管CMS插件的开放权重模型(Llama-Vision-3、Pixtral)。每款模型在下文四类图片测试中均呈现出不同的特征。

这里的组合卡片呈现的是我们在2026年3月和4月对约600张测试图片观察到的实际行为,而非营销声明。成本为2026年5月典型分辨率下的每张图片成本,不含供应商加成。

GPT-4o vision
OpenAI · gpt-4o(2026年5月版本)
中端CMS最常见的闭源API默认选择
优势信息丰富的照片、场景构图
劣势对屏幕上的文字产生幻觉
约每张图成本约0.004美元
Claude 3.7 Sonnet vision
Anthropic · claude-3-7-sonnet
工作流包含编辑审核的企业CMS常见选择
优势拒绝虚构无法辨认的文字;图表处理
劣势冗长;需明确提示长度限制
约每张图成本约0.005美元
Gemini 2.0
Google · gemini-2.0-pro视觉模式
Workspace插件及Google生态CMS默认选择
优势截图、UI元素识别
劣势误识别移动辅助器具;虚构品牌名称
约每张图成本约0.003美元
Llama-Vision-3
Meta · 90B视觉,开放权重
自托管CMS插件、欧盟数据主权部署
优势照片、装饰性分类
劣势图表;会猜测坐标轴数值
约每张图成本自托管推理成本
Pixtral
Mistral · pixtral-large,开放权重
欧洲自托管;小型模型插件
优势输出简洁;遵守长度限制
劣势复杂照片的场景构图召回率较低
约每张图成本自托管推理成本

3. 四类图片测试

WCAG非文字内容决策树指导在实践中归结为四类:信息性照片(携带意义的人物、场景、物体);图表与图解(柱状图、流程图、标注地图);截图与UI(仪表板、错误状态、设置面板);装饰性(主视觉渐变、分隔线、填充用的图库插图)。我们从残障新闻情境、慈善机构报告、软件文档和编辑填充物中抽样,组建了每类150张、共600张图片的测试集。每款模型对每张图片生成一个alt候选;三位人工审稿人将每个候选标记为接受修改拒绝。下表报告接受率。

这些数字的目的不是评出赢家,而是告诉你哪个类别在不经审核就发布AI候选时风险最高。

模型信息性照片图表与图解截图与UI装饰性(正确置空)
GPT-4o vision71%34%52%41%
Claude 3.7 Sonnet vision68%49%61%58%
Gemini 2.066%38%64%44%
Llama-Vision-3 (90B)62%21%47%53%
Pixtral large57%26%42%48%
需重点关注的两列

在所有模型中,最弱的两列是图表与图解装饰性(正确置空)。前者失败是因为模型虚构无法辨认的数值;后者失败是因为模型写出了一个句子,而正确答案是沉默。这两种错误对于只抽查照片列的视力正常的审稿人来说是不可见的。


4. 四种关键失败模式

汇总接受率掩盖了错误的质地。审查测试集中被拒绝的候选,四种失败模式以足够的规律性反复出现,足以解释绝大多数失败。我们在此命名它们,以便任何审核AI输出的编辑知道首先应寻找哪些模式。

1

屏幕文字幻觉

模型写道图表坐标轴标注为”2024年第三季度营收”,而图表实际显示的是页面浏览量;模型写道截图中的按钮显示”提交”,而实际显示的是”保存并继续”。GPT-4o是这方面最严重的违规者;Claude 3.7 Sonnet则最常拒绝,返回类似”分辨率下坐标轴标注无法辨认的图表”的表述。拒绝是正确行为,也是CMS按钮应当对外暴露的正确方式。

2

残障人士身份误判

电动轮椅被描述为”机动踏板车”;白色盲杖被描述为”拐杖”;一张维权集会照片中明显的残障人士被描述为”一个坐在椅子上看游行的人”。这种错误模式反映了训练数据的构成。我们测试的五款模型中,没有一款的移动辅助器具识别率达到我们认为可投入生产的水平,几乎总是需要纠正性编辑。

3

语境细微差别丢失

一张两人用美国手语交流的照片被描述为”两个人做手势”;一张导盲犬在餐厅桌下趴卧的照片被描述为”一只狗在家具下面睡觉”。像素被准确描述了,但编辑放置这张图片所要传递的意义没有被传递。语境细微差别是矩阵无法衡量的失败模式,也是”未经编辑审核的AI替代文本”在实践中是错误默认选项的原因。

4

品牌名称虚构

模型写道一张笔记本电脑图库照片中的设备是”Apple MacBook”,而该笔记本实际上是无品牌的Windows外形机箱;模型写道一个无品牌咖啡杯是”星巴克杯”。Gemini 2.0在我们的测试集中最易犯这一类错误。解决方案在于提示词层面的约束:指示模型在品牌标识不明确可见时拒绝识别品牌名称。即使有该约束,仍需要抽样审核。

“像素被准确描述了。但编辑放置这张图片所要传递的意义没有被传递。“

——本文失败模式3

5. 我们推荐的混合工作流

将AI替代文本视为”完全自动化”或”不负责任”是一种伪二元对立。按类别划分的数字告诉我们更有用的东西:AI候选在照片列可作为初稿使用,在图表列可作为拒绝来源,在装饰性列则是主动风险——除非工作流具有明确的”标记为装饰性”操作入口。正确的默认是混合,以下步骤是我们推荐的混合方案。

1

生成前先按图片类别路由

一个小型分类器(几千个参数即够)判断图片是照片、图表、截图还是装饰性的。路由决策决定提示词、模型以及是否生成。装饰性图片不应发送给模型:应直接标记为装饰性,以空alt发布。

2

图表和截图使用Claude 3.7 Sonnet

矩阵显示Claude在拒绝是正确行为的两列上领先。配置提示词,在文字不可辨认时要求明确拒绝,并在图表坐标轴数值无法读取时标记而不猜测。在CMS中将拒绝以”需要人工描述”状态呈现,而不是空alt。

3

照片使用GPT-4o或Gemini 2.0,附加品牌名称约束

对于信息性照片列,两款模型的接受率均超过约65%。添加提示词侧指令,除非商标或文字标识在画面中清晰可见,否则不识别品牌名称。将输出长度限制在125个字符以内,以抑制冗长的三从句格式。

4

发布前进行人工编辑

每个AI候选都是草稿。CMS按钮将候选写入审核字段,而不是alt属性。编辑或接受、或修改、或替换为原创文字。对于新闻情境、无障碍情境,或任何误判残障人士身份会造成伤害的情形,编辑关不可省。

5

定期进行审计

每季度对已发布的alt抽样与矩阵对照重新测试。模型会漂移;供应商版本会变更;失败模式会转移。100张图片的样本需要一个下午,在屏幕阅读器用户发现之前就能捕捉到行为回归。

”自动化”应当意味着什么,不应意味着什么

一个在没有人工审核的情况下直接写入alt属性的AI替代文本功能,不是无障碍功能——而是无障碍声明。WCAG合规仍然要求文字替代是正确的、符合语境的、不含虚构内容的。模型可以起草;只有编辑才能发布。


结论:门槛移动了,底线没有

诚实地写,本综述的标题是:2026年的视觉语言模型现在是照片列有用的初稿,也是图表列有用的拒绝来源,这两个事实合在一起意味着混合工作流而非完全自动化。门槛在2022年至2026年间有了实质性移动——最好的闭源模型对信息性照片的接受率现在在六十多的高位,而2022年时更接近三十多的低位。底线没有移动。移动辅助器具依然被误判,美国手语依然变成”做手势”,装饰性图片依然在需要沉默时收到一个句子。

无障碍后果是:2026年任何CMS内置”自动替代文本”按钮的正确默认,不是”按下按钮就发布”,而是”按下按钮起草,然后审核后发布”。比这更紧则是将虚构细节发送给最直接依赖文字替代正确性的读者;比这更松——完全忽视AI——则在一份初稿本可有所帮助的情况下,将那41%空alt图片弃之不顾。

我们将在2026年11月重新测试此矩阵。如果图表列的接受率超过60%的门槛,混合工作流将会收紧。在那之前,按钮起草,编辑发布。

“模型可以起草;只有编辑才能发布。“

——本文混合工作流第4步