实时字幕准确率基准测试 ——六项服务、一个专家小组、一位坐在会议室后排的专业CART速记员
我们对六款实时字幕服务进行了三场60分钟的测试:Otter.ai、Google Meet字幕、Zoom字幕、Microsoft Teams字幕、Cisco Webex字幕,以及StreamText(由人工操作员驱动)。每场测试使用相同的准备脚本——八位口音各异的小组发言人(美国口音、英国口音、印度英语、保加利亚口音、新加坡英语、法国口音),十七个命名实体(其中五个为故意使用代码命名的产品),两段密集的工程术语,以及三分钟的脚本化交叉对话。每场测试同时由一位每分钟220字以上的专业CART速记员进行字幕记录,其文字稿作为黄金标准。综合词错误率(WER)从最低的3.1%(人工CART)到最高的14.8%(表现最差的自动化服务)不等。端到端中位延迟从0.9秒到5.6秒不等。两项服务在术语识别率上达到了SAS-LIVE认证的门槛,但大多数服务未能达标。
基准测试揭示的问题
- 014.8×
准确率最高与最低的自动化服务之间的词错误率差距近五倍
Otter.ai在三场测试中的综合词错误率约为6.2%,Cisco Webex约为14.8%。这不是微小差距——这是聋人参与者能够实时跟进的文字稿与需要会后重新整理的文字稿之间的区别。
- 023.1%
人工CART速记员的表现仍大幅领先于所有自动化服务
我们的对照组CART速记员(持有RPR认证,持续输入速度240字/分钟)的综合词错误率约为3.1%——大约是最佳自动化服务错误率的一半,最差服务的五分之一。在命名实体和交叉对话场景中差距进一步拉大:人工速记员会优雅地进行意译,而机器只能猜测。
- 030.9秒
语音到屏幕字幕的中位延迟从不足一秒到接近六秒不等
Google Meet的中位延迟最低,约为0.9秒;Microsoft Teams约为1.4秒;Webex约为2.7秒;StreamText(人工操作)平均约为3.8秒;Zoom的云端字幕(非美国地区)约为5.6秒——慢到聋人参与者试图提出澄清问题时,对话已经推进了两个句子。
- 0447%
代码命名实体在自动化服务中的正确识别率不足一半
脚本中五个故意使用代码命名的产品(如”Halcyon”、“Bramble”、“Crosshatch”),自动化服务整体在约47%的出现场景中正确识别了拼写。人工CART速记员在96%的场景中正确识别——因为我们提前向她提供了词汇表。六项服务中有三项支持自定义词汇,另外三项不支持。
- 056项中仅2项
六项服务中只有两项通过适当的ARIA实时区域向辅助技术通告字幕更新
Otter.ai的网页客户端和Google Meet的字幕面板均通过
aria-live=“polite”区域暴露更新,屏幕阅读器用户可以订阅这些区域。Zoom、Teams、Webex和StreamText将字幕渲染在未被通告的DOM节点中——这意味着使用盲文显示器的聋盲用户无法收到新文本出现的信号。 - 065.4×
交叉对话对准确率的损害超过口音或术语
在三分钟脚本化交叉对话段落中,自动化服务的平均词错误率从约7.9%(单一发言人基准)跃升至约42.6%——降低了5.4倍。口音变化单独使词错误率增加1.8倍,术语密度增加2.1倍。双人重叠发言是目前没有任何商业自动化服务能够解决的失败模式。
- 073
三家服务商持有SAS-LIVE认证,但只有其中一家在准确率排名中位居榜首
SAS-LIVE(实时字幕语音无障碍标准,2024年批准)依据已公布语料库中8%的词错误率门槛对服务商进行认证。截至撰写时,Otter.ai、StreamText和Microsoft Teams的一项配置持有该认证。Otter.ai在综合排名中位居第一,StreamText位列第三,经认证的Teams配置位列第四。
来源 ——2026年5月4日至6日录制的三场60分钟测试,八位脚本化小组发言人,三场测试使用相同脚本,同时进行人工CART对照。音频通过Loopback路由至各平台原生字幕路径。文字稿使用NIST sclite对照CART对照组计算词错误率。
方法论与测试条件
实时字幕基准测试的成败取决于对照组的质量。我们在三个不同日期委托进行了三场相同的60分钟测试。每场测试遵循相同的准备脚本:主持人开场、四段约七分钟的脚本化发言、共计十一分钟的两段开放讨论、一段三分钟的脚本化交叉对话(两至三位发言人重叠发言),以及结尾总结。
八位远程小组成员按脚本发言。他们获得了节奏方面的指导,但未被告知测试目的。涵盖的口音包括:标准美式英语(两位)、标准英式英语(一位)、印度英语(一位)、保加利亚口音英语(一位)、新加坡英语(一位)、法国口音英语(一位)、苏格兰英语(一位)。脚本包含十七个命名实体——十二个真实名称(联合国机构、法规引用、公共领域产品名称)和五个为本次基准测试专门虚构的代码名称。
每场测试同时通过全部六项服务进行字幕处理。音频通过Loopback聚合设备路由至各平台的原生字幕路径,未插入任何第三方语音识别层。专业CART速记员以隐藏线路作为参与者加入,其文字稿与同一音频进行时间戳对齐。词错误率使用NIST sclite在不区分大小写的评分方式及标准替换/插入/删除权重下,与CART文字稿进行对比计算。
综合排名
综合词错误率为三场测试中各场词错误率的未加权平均值,以CART对照组为评分基准。按词错误率从低到高排列的头条排名如下:
在两个企业级会议平台之间做出选择,可能意味着词错误率从6%到15%的差距。这不是工具差异,这是包容性差异。
按发言人条件划分的词错误率
综合词错误率隐藏了细节。为了了解各项服务的薄弱环节,我们将音频分为四种条件:纯正美式英语单人发言、混合口音单人发言、术语密集段落,以及脚本化交叉对话。同一音频、相同的六项服务,按条件分类显示如下:
图表将核心发现压缩成一幅图像:口音变化是实际的惩罚项,术语密度的影响更大,而重叠发言则是一道悬崖。在交叉对话段落中,表现最差的自动化服务词错误率超过了60%——在此情况下,SAS-LIVE评估标准的礼貌说法是,文字稿”不具有沟通可靠性”。
商业语音识别流水线假设每位发言人对应一条音频流。现代系统使用说话人分离技术将音频片段分配给发言人标识符,但分离在分段之后运行——而在重叠发言时,分段本身就会失效。结果是两段话语被合并到单一输出通道中,产生语法上正确但在”谁说了什么”方面事实有误的文字稿。人工CART速记员通过意译其中一位重叠发言者,并为另一位添加姓名标签来解决这个问题。2026年,没有任何已部署的自动化服务能做到这一点。
传输延迟
延迟的测量方式为:从发出音节的波形峰值,到对应词语出现在平台字幕DOM中的时间差,通过与音频波形对齐的高帧率屏幕录制捕获。三场测试的中位延迟如下:
延迟至关重要,因为对话修复有时间窗口。聋人研究领域关于实时字幕的文献普遍认为可用的上限约为两秒——超过这个时间,聋人参与者将无法在问题仍具相关性时提出澄清。以此标准衡量,Google Meet、Teams和Otter达标;Webex处于边界;StreamText和Zoom则未达标。
StreamText较高的延迟部分源于其架构——它由人工操作,因此有人工击键环节——部分也是其在术语方面较低词错误率的代价。Zoom在我们测试环境中的延迟更难辩护:在美国地区启用云端字幕的情况下,此前公布的基准测试报告中位延迟低于三秒,因此我们在欧洲地区测试中得到的5.6秒中位延迟反映的是区域基础设施问题,而非该平台的能力上限。
姓名、术语与词汇表问题
脚本中十七个命名实体里,五个是为本次基准测试专门虚构的代码名称。这五个名称被选定为貌似合理的产品名称,但不存在于任何公开语料库中:Halcyon、Bramble、Crosshatch、Sandstorm、Verity。前三个是常见英语词汇,后两个则较为罕见。我们预期即使是最佳自动化服务也会在罕见词汇案例中表现不佳,结果确实如此。
结论具有操作意义。自定义词汇是会议组织者能够控制的最大单一准确率杠杆。三项接受预加载词汇表的服务(Otter、Teams,以及我们未测试的Webex的Azure云配置)的表现可靠地优于不接受预加载词汇表的服务。当听众中包含聋人或听障参与者,且会议涉及术语或专有名词时,缺乏自定义词汇功能是一项实质性的无障碍限制,而非缺失的便利功能。
SAS-LIVE依据已公布语料库和已公布词错误率门槛(截至撰写时为8%)对字幕服务商进行认证。认证作为门槛具有意义——它表明服务商已证明其流水线能够在认证音频上达到8%以下——但这不是上限。本次基准测试使用了不同的语料库(含交叉对话的混合口音小组发言),经认证的服务在我们的音频上词错误率从6.2%(Otter)到9.6%(Teams)不等。应将SAS-LIVE视为采购筛选工具,而非实际测试所在机构实际产出音频的替代品。
辅助技术集成
词错误率衡量文字稿是否正确。辅助技术集成衡量使用屏幕阅读器、盲文显示器或低视力放大器的用户是否能够实时使用文字稿。两者并不相同。一份完全准确的文字稿,如果渲染在没有aria-live属性的DOM节点中,对使用盲文显示器的聋盲用户来说是不可见的,因为辅助技术永远不会收到新文本出现的信号。
我们审计了各平台字幕面板的四项辅助技术集成属性:实时区域通告、会议结束时的文字稿导出、可聚焦控件,以及切换字幕的键盘快捷键。矩阵如下:
辅助技术集成这一维度以有趣的方式改变了排名顺序。Otter仍居首位;但在词错误率排名第四的Teams,在辅助技术集成方面并列第二。Webex在两项指标上均垫底。对于使用盲文显示器的聋盲用户而言,当前一代产品中最佳选择是Otter或Google Meet。
人工CART速记员仍做得更好的方面
对照组CART速记员在所有测量维度上均优于每项自动化服务。词错误率3.1%,对比最佳自动化服务的6.2%。代码名称识别率96%,对比最佳自动化服务的71%。交叉对话词错误率约9%——没有任何自动化服务能接近这一数字三十个百分点以内。
但人工优势不仅仅是机械层面的。有几种编辑行为仍然是人类独有的。CART速记员会对磕绊的发言人进行意译,在牺牲逐字逐句的前提下保留含义——自动化服务要么丢弃磕绊的词组,要么将其渲染为无意义内容。她在每次发言人切换时都会在文字稿中加上姓名前缀——自动化服务在没有归属信息的情况下交替显示。当发言人提到在场听众无法看到的幻灯片时,她还会在方括号内插入澄清说明。这些操作都不会体现在词错误率分数中,但它们正是为什么经专业CART速记的会议在无障碍体验上优于自动化字幕会议的原因。
基准测试的背景意义
核心发现并不是某项服务获胜。而是最佳与最差之间的差距已大到足以使平台选择本身成为一项无障碍决策。一个因为已在采购目录中而默认使用Webex的机构,将交付词错误率超过两倍于默认使用Otter的机构的文字稿——对于相同的发言人、相同的脚本、相同的音频。这不是微小差异。
第二个发现是:在准确率真正重要的场景中——法律程序、医疗咨询、董事会会议、课堂教学——自动化字幕尚无法替代人工CART速记员。3.1%与6.2%的差距在数字表格上看起来很小,但对于一位试图跟随快速对话的聋人参与者来说感受巨大。在利害关系足以承担成本的场合,人工CART速记员仍是黄金标准,SAS-LIVE认证框架明确保留了这一层级关系。
第三个发现具有操作意义。自定义词汇是会议运营中最未被充分利用的无障碍杠杆。我们测试的六项服务中有三项接受预加载词汇表。我们在本次基准测试设计阶段接触的机构中,几乎没有哪家在使用这项功能,即使他们已经付费的版本中提供了该功能。在会议前将专有名词和产品名称加载到字幕服务中,是一项五分钟的任务,却能填补命名实体识别的大部分差距。