2026年有声教材制作：从DAISY到AI朗读

作者 Disability World阅读时间：10分钟

图片说明：专业录音麦克风旁摆放着一本打开的教材，配有耳机和音频控制设备——有声教材制作的视觉标志。

教材不是播客。它有标题层级、编号练习、脚注、索引、方程式、带说明文字的图表，以及一个在复习课中间需要找到第217页的学生。将它制作成有声内容，意味着要制作所有这些——而不只是正文。2026年，两条平行流程承担着这项工作：服务专业有声出版商长达四分之一个世纪的传统DAISY链，以及在过去三年将每小时制作成本大约降低一个数量级的新兴AI朗读链。两者并不能相互替代。它们的交汇之处——DAISY留存了什么，什么交给合成器，什么仍留给人工——正是2026年有声教材的故事所在。

本文是一篇面向委托、资助和使用这些书籍的人群的制作入门：特殊教育协调员、大学残障事务办公室、替代格式图书馆员，以及在无障碍教育边缘工作的组织出版团队。文章将依次介绍生产一本无障碍有声教材的DAISY流程、重塑上游经济的AI朗读转变、双方正在谈判的成本与质量权衡、尚无人完全解决的准确性问题（数学、专有名称、语码转换语言）、2025年发布的DAISY 4.0规范，以及塑造哪些书籍真正能到达学生手中的主要生产商。

“DAISY”的实际含义

DAISY——数字无障碍信息系统——是一项规范、一个联合会，也是一个文件格式族。它于1996年首次发布，由一批有声书图书馆组成的联盟创立，这些图书馆需要一种磁带无法实现的可导航、有结构的音频传输方式。目前仍支撑该格式的两项规范是：DAISY 2.02，发布于2001年，至今仍是大多数传统有声书图书馆实际提供服务的格式；以及DAISY 3，2002年作为ANSI/NISO Z39.86正式确立，并于2012年和2024年两次修订。2024年更新版——Z39.86-2024——是大多数当前制作工具所针对的版本，也是传统世界与DAISY 4.0之间的桥接规范。

DAISY能做到而MP3无法做到的事：它承载结构化导航（跳至第4章第2节第3题）、SMIL同步（音频文件与文本轨道保持同步，使任一内容的播放位置始终对应另一内容的相同位置），以及足够丰富的元数据层，可描述脚注、侧栏、页码、表格单元格，以及可开关跳过的元素（如页眉页脚）。DAISY播放器——Dolphin EasyReader、Voice Dream、AMIS参考播放器、Victor Reader Stratus硬件设备——将这些结构转化为一个按键：学生可以在同一本书中按句子、段落、第3级标题或页码逐步前进。

传统DAISY制作流程

在传统流程中制作一本DAISY教材需要六个不同阶段，对于一本400页的教材，在Learning Ally或英国皇家盲人援助协会（RNIB）这样的制作商处，每本书的完成需要约六至十二周的时间。

阶段1——原稿准备。出版商提供印刷PDF或（日益增多的）EPUB。制作团队清理文件，将正文与页眉页脚分离，标注标题层级，并导出结构化的XHTML阅读顺序。图表和方程式单独标记处理。
阶段2——朗读录制。经过培训的人工朗读员按照出版商的风格指南在录音室录制正文，内容涵盖如何朗读表格、如何描述图表、如何发音学科专用术语，以及如何处理未翻译的外语段落。
阶段3——剪辑与质量保证。第二次处理去除呼吸噪音、重录错误发音，并将录制音频与原始文本进行对齐。QA校对员对照印刷版逐字核听准确性。
阶段4——SMIL同步。制作软件生成一个SMIL（同步多媒体集成语言）文件，将音频中每个句子边界的时间戳与XHTML中对应的文本片段进行对应，产生DAISY导航所依赖的逐时刻文本—音频映射。
阶段5——打包。将音频、SMIL轨道、XHTML文本和导航清单打包为DAISY 2.02或DAISY 3格式，通过格式合规性检查器进行验证，并上传至制作商的发行目录。
阶段6——发行。通过制作商专属应用或依据《马拉喀什条约》的全球跨境交换机制，向授权读者提供该包。

该流程生产出权威的、可导航的、课堂级别的书籍。但代价高昂。在传统人工朗读DAISY链中，每完成一小时音频的成本，在主要制作商处约为45至75美元——这一数字自2010年代中期以来基本未变，几乎完全由录音室时间、朗读员酬劳和编辑QA驱动。

AI朗读流程

推动2024—26年有声教材讨论的变革，是神经文本转语音音色的出现——这些音色首次与人工朗读员足够难以区分，以至于是否使用它们的问题不再被自动回答为”不”。2026年主导制作决策的短名单明确且清晰：ElevenLabs（其2025年发布的多语言v3模型，是目前大多数讨论中英语教材朗读的参考标准）；Speechify（其2024年企业版专门面向教育领域，具有长篇模式和预设的学术风格音色）；Amazon Polly Neural（规模化使用时成本最低，具有强大的SSML支持）；以及OpenAI TTS HD（在2025年无障碍研究团体开展的对比听力测试中，叙事感最强的通用音色）。

AI朗读有声教材流程与传统流程的形状，在阶段上的差异少于在经济上的差异。原稿准备、结构标注和打包均保持不变。阶段2和阶段3——朗读和剪辑——合并为单一的自动化步骤：结构化文本配合SSML提示（涵盖重音、发音和停顿时长）输入合成器，合成器返回音频。随后进行精简化的人工QA检查，扫描合成器在无辅助情况下仍无法解决的失效模式（见下文）。

成本变化是最重要的进展。传统链每完成一小时音频的成本约为45至75美元，而2026年AI朗读在主要服务提供商处，规模化制作时的费用为每小时约3至7美元——降低了10倍。正是这一数字，将问题从”我们能否负担得起制作这本书”转变为”我们不应该制作哪本书”。一家此前在固定预算下每年遴选800个新品种的国家替代格式图书馆，在相同预算下可以遴选6,000至8,000个——前提是质量在真正重要的类别中经得住考验。

成本与质量的权衡取舍

有声教材制作中的”质量”不是单一维度，而至少有四个：清晰度（听者能否解析音色所说的内容）、自然度（持续聆听是否会引起疲劳）、准确性（页面上的文字是否就是被朗读的文字），以及结构保真度（表格、方程式和脚注是否在音频中得以保留）。现代神经TTS目前在清晰度上已达到与人类相当的分数，在语音合成研究界使用的标准5分制平均意见分（MOS）测试的自然度上，与人类相差不超过一分。差距仍然可见的地方在于准确性和结构保真度。

2025年美国盲人基金会对比聆听研究——迄今为止该问题上最大规模的公开发表证据——招募盲人大学生聆听化学、历史和西班牙语文学教材中匹配段落的朗读，分别由人工和ElevenLabs v3音色交替演绎。核心结论是：在句子层面，对于以散文为主的学科（历史、哲学、英语文学），AI朗读在71%的测试中被认为更优或同等。对于符号密集型学科（化学、数学、物理），AI仅在28%的测试中被认为更优或同等，差距主要由数学符号渲染和AI音色处理下标公式的方式驱动。该研究的建议不出所料，且现已被运营实践引用：AI朗读优先，对符号密集型章节进行人工处理。

教育上有趣的问题不再是”人工还是AI”——而是”哪些句子需要人工，哪些可以规模化合成”。答案越来越明确：一本教材的80%—90%可以被合成，但剩余的10%—20%——方程式、陌生语言的专有名词、古老拼写的一手文献引文——正是教材与播客的分野所在。
80/20制作规则，2026年

数学、专有名称与语码转换问题

当前神经TTS尚未解决的准确性失效模式是可以预测的，制作商现在在原稿准备阶段就已为其做好规划，而不是在QA阶段才发现。

数学。以MathML编码的方程式有其规范的语音形式——从a到b对x平方dx积分——任何通用TTS引擎都无法正确生成。制作流程现在将MathML通过专用数学转语音引擎（MathSpeak、MathJax无障碍扩展，或Math-in-DAISY项目维护的开源SRE引擎）处理，然后将生成的英文文本交给朗读音色合成器。DAISY 4.0规范将此路由作为推荐的制作模式正式确立。

专有名称。人名、地名、机构名称和学科专用术语的发音错误是可预测的。DAISY联合会2024年对50小时AI朗读教育内容的审计发现，历史文本（其中名称跨越多种语言）的名称误读率约为14%，外语教材（其中名称本身就是内容）约为22%。应对措施是为每个品种建立发音词典——一本400页教材通常有50至300个词条——在原稿准备阶段构建，并以SSML词典提示形式提供给合成器。

语码转换语言。历史教材中引用拉丁语的西塞罗，文学教材中引用俄语的普希金，经济学教材中引用法语的皮凯蒂——这些句子是单语言TTS音色最明显失败的地方。ElevenLabs v3和OpenAI 2025年TTS更新都推出了在单次发音中切换语言的多语言单一音色模型，但切换质量参差不齐。2026年可靠的制作模式是：明确标注外语文本片段，将其路由至特定语言的音色，然后在SMIL层将音频重新拼接在一起。

DAISY 4.0：2025年规范的变化

DAISY 4.0由DAISY联合会于2025年底以草案形式发布，是十年来首次在格式层面进行修订。其设计出发点是：制作的对象不应在有声书和图文书之间做出选择——它应该同时兼而有之，由播放器决定向读者呈现什么。

对教材制作而言最重要的有四项变化。第一，EPUB 3对齐：DAISY 4.0在结构上是一个添加了音频的EPUB 3包，而不是以EPUB为导出目标的平行格式。维护EPUB 3教材的制作商，只需添加音轨即可制作其DAISY 4.0音频版，而无需转换文件。第二，原生MathML：方程式以MathML形式传递至播放器，播放器在运行时决定是进行视觉渲染、朗读，还是两者兼顾。第三，多音色来源元数据：DAISY 4.0包可以承载混合了人工朗读、AI朗读和数学引擎渲染的片段，每个片段在元数据中注明其制作方式——一批新兴国家采购规则开始要求这一透明度。第四，针对教材历来承载但DAISY 3处理起来较为笨拙的结构项目的导航扩展：编号练习、习题集、词汇表反向引用和跨卷引用。

大多数制作商公开引用的过渡时间表是保守的。DAISY联合会预计大多数新教育品种将在2027—28年前以DAISY 4.0格式发行，而传统DAISY 2.02目录将在播放器端无限期存续，因为已安装的专用硬件播放设备无法远程升级。

主要制作商及其产品

Learning Ally，1948年以”为盲人录制”之名成立的美国非营利机构，持有全球最大的英语有声教材目录——截至2026年约80,000个品种——并在很大程度上仍采用人工朗读，拥有约1,000位活跃音色的志愿者朗读员网络。其2025年战略文件承诺对学校级数学和科学品种采用AI辅助流程（AI优先朗读，符号密集型章节由人工QA把关），同时为文学经典保留人工朗读。

Bookshare，由Benetech运营，提供EPUB优先的目录——2026年超过130万个品种，涵盖大众读者和教育类别——配合由用户播放器在播放时合成音频的模式，而非在制作阶段预先制作。该模式在规模化使用时成本最低，也最符合DAISY 4.0的”播放器决定”架构。

RNIB有声书在英国服务约25,000名活跃会员，每年制作约1,500个新品种，主要采用人工朗读，并于2024—26年针对非虚构类别开展AI朗读试点。其目录是英国课程教材受众的参考标准。

IFLA视障服务图书馆（LPD）分部负责协调全球制作商网络，并依据《马拉喀什条约》运营无障碍图书联合会（ABC）跨境目录——这一机制使一个缔约国制作的图书可以跨境借阅给另一缔约国的授权读者。ABC 2024年目录交换报告超过85万次跨境品种传输，比五年前增长一个数量级，增长集中在教育材料领域。

这对2026年的学生意味着什么

2024—26年变化的实际效果是：主要英语司法管辖区的盲人或低视力学生可获取的目录，大约比本十年初大出一个数量级，印刷版出版与无障碍音频版之间的时间差从一年以上压缩至数周。教材这一类别——历史上由于数学和结构复杂性而是速度最慢的——的时间差收缩得更慢，但正在收缩。

没有改变的是可接受质量的底线。教材仍然必须可导航、准确，并与原始文本保持同步。DAISY 4.0的设计和AI朗读流程的经济性，使得达到这一底线比以往任何时候都更便宜。在本十年剩余时间里最有可能表现出色的制作商，是那些停止将选择定格为”人工还是AI”、开始思考”哪些句子需要哪种方法”的制作商——以及那些停止接受”我们无法承担制作这本书”为最终答案的大学和学校残障服务部门。

从Disability World了解更多：全球聋人教育无障碍现状、各国无障碍法规，以及更广泛的2026年无障碍报道记录。