现代网络上的一次点击隐藏着一个假设:点击者拥有一只手、一个手腕,以及一个能在两个轴向以亚像素精度移动并带有独立可靠按键的指针设备。一旦缺少其中任何一个条件,交互就会发生本质变化。对于通过眼动追踪器操控页面的用户而言,“光标”是一个 1 度弧的凝视锥,会漂移和抖动。对于使用头部指针的用户而言,光标是摄像头追踪的鼻尖,需要通过悬停来触发点击。对于使用单开关扫描界面的用户而言,根本没有光标——只有一道扫描高亮,停在用户按下开关时恰好处于焦点的位置。这些都是 2026 年真实存在的输入方式,使用人群的规模足以令”现代网络”应当了解。但大多数现代网络并不了解。
本文是关于运动障碍用户最常依赖的三种替代输入方式——眼动追踪、头部指针和开关输入——的概念入门介绍,并探讨标准层面(WCAG 2.2 成功标准、W3C 指针事件规范)与实际生产环境中用户界面模式的交汇。本文的报道框架是编辑性的而非诉讼导向的:我们关注的是哪些有效、哪些无效,以及设计者明天就可以停止做的事情。
谁在使用这些输入方式,以及为什么
依赖替代输入方式的人群规模并不小。世卫组织《残疾人健康公平全球报告》(2022 年,附 2024 年监测更新)和美国 CDC 残疾与健康数据系统的估算显示,高收入国家中患有显著上肢运动障碍的成年人约占成年人口的 8%,无法可靠使用标准鼠标或触控板的成年人约占 3% 至 4%。在这 3% 至 4% 中,有几个不同的用户群体,其首选输入方式由生理条件而非个人偏好决定。
最典型的群体是肌萎缩侧索硬化症(ALS)患者,他们逐渐丧失对四肢、最终对面部肌肉的自主控制。对于许多晚期 ALS 患者而言,眼动追踪是实现自主使用计算机的唯一剩余通道。美国 ALS 协会估计,在美国任意时间点,约有 3 万名 ALS 患者;欧洲 ALS 登记数据显示欧盟各国的年龄调整患病率与之相近。第二个群体是高位脊髓损伤患者——尤其是 C1—C4 四肢瘫痪患者——其双手和手臂功能丧失,但眼部和头部运动能力保存完好。第三个群体是患有脑瘫的儿童和成年人,其输入策略因人而异:部分用户手指控制能力尚可,使用开关界面;其他人使用头部指针或下颌操纵的操纵杆。第四个群体是患有进行性神经肌肉疾病的人群——肌肉营养不良症、晚期多发性硬化症——他们往往随时间推移在多种输入方式间切换。
在这些群体中,有两条原则贯穿始终。首先,几乎所有使用替代输入的人,都是因为标准的鼠标加键盘组合已经在生理上无法实现,而非因为偏好新颖方式。其次,输入方式在某种关键意义上通常是单轴的:一次凝视固定、一个头部指向方向、一次开关按压。那些假设两个协调通道的设计——指针加修饰键、拖动动作加精确投放目标——对这一受众而言是最难以应对的。
2026 年的硬件现状
过去三年,硬件领域发生了显著变化。以下是用户实际使用情况的大致梳理,而非完整目录。
眼动追踪器
Tobii Dynavox 仍是临床眼动追踪领域的主导厂商。当前一代产品——PCEye 和 I-Series——使用安装在显示器下方或集成于专用平板中的红外传感器条,将凝视位置作为系统级指针报告给宿主操作系统。校准约需 30 秒;在良好条件下,精度约为 0.5 至 1.0 度视角,在典型观看距离下相当于约 30 至 60 像素的凝视锥。EyeGaze Edge(LC Technologies)和 EyeTech VT3 是临床替代产品。在消费者端,Tobii Eye Tracker 5 主要面向游戏玩家销售,但被广泛用作低成本无障碍输入设备。
2024 年,首款将眼动追踪集成至通用计算设备的主流消费者产品面世:Apple Vision Pro 以眼动追踪作为主要导航方式,结合捏合手势进行选择。visionOS 将凝视位置暴露给系统级悬停选择无障碍功能,从开发者角度看,凝视固定后跟随捏合动作被报告为标准点击事件。无障碍用户群体对 visionOS 的热情在意料之中,原因与 2008 年 iPhone 问世时如出一辙:一种为主流使用设计的内置方式,恰好也能服务于残障使用场景。Vision Pro 的定价超出许多用户的承受范围,但这一先例——眼动追踪作为非医疗设备计算机的主要输入方式——本身才是最重要的。
头部指针
头部指针软件通常使用设备内置摄像头追踪一个基准点——通常是鼻尖或用户额头上贴的小反光贴纸——并将头部转动转化为光标移动。Camera Mouse(波士顿学院,免费)是历史最长的实现,至今仍在积极使用。Glassouse 提供一款可穿戴的头戴式陀螺仪控制器,通过蓝牙与操作系统配对,作为蓝牙鼠标使用。macOS 内置头部指针无障碍功能;Windows 11 通过与兼容硬件配对的”眼部控制”提供同等功能。头部指针的选择操作几乎总是基于悬停:光标在目标上停留一段可配置的时间——通常为 0.5 至 2.5 秒——然后触发点击事件。
开关输入
开关输入是三种方式中最简单也最多样的。硬件是一个单一按钮——大型圆形机械开关、吸吹管、下颌操纵杆、脚踏板,或处于后期研究阶段的脑机接口——通过标准化开关接口(如 AbleNet Hook+、Pretorian J-Pad、Tecla 盾牌)连接至操作系统,以 USB 或蓝牙按键形式呈现。软件随后运行扫描界面:焦点指示器自动遍历屏幕上的可用目标,用户在焦点落到所需目标时按下开关。单开关扫描用一个按钮驱动一切;双开关扫描通常将一个开关映射为”前进”,另一个映射为”选择”。iOS 内置Switch Control 无障碍功能;Android 14 及以上版本内置 Switch Access;macOS 和 Windows 均提供类似功能。开关输入本质上是串行的——用户无法指向目标,只能等待扫描到达目标——这一特性决定了以下所有设计模式。
它们与网络的交汇:标准层面
从浏览器的角度来看,眼动追踪器和头部指针都像标准指针设备:它们通过 W3C 指针事件规范发出 pointermove、pointerdown 和 pointerup 事件,与鼠标或触摸屏使用的 API 相同。而开关输入在浏览器看来像键盘输入:焦点遍历可聚焦元素,开关按压触发 Enter 或 Space 的 keydown 事件。这种差异是设计者必须内化的第一件事——眼动追踪用户会触发你的 :hover 状态和指针事件处理器;开关用户只会遇到你的可键盘聚焦元素和你定义的焦点顺序。
WCAG 2.2 包含若干专门为保障这些输入方式正常运作而编写的成功标准。其中三条承担了大部分重量。
SC 2.1.1 键盘(A 级)是基础要求:页面上的每个功能元素必须仅通过键盘界面即可操作。开关用户对此绝对依赖。仅响应鼠标点击的元素——一个带有 click 处理器但没有 tabindex、没有 role、没有 keydown 处理器的自定义 div——对开关用户而言是不可见的。对于那些在页面某些区域因悬停点击过慢而退回到键盘导航的头部指针用户,这同样适用。
SC 2.5.1 指针手势(A 级)要求任何通过多点或路径手势操作的功能,也必须可通过单指针操作实现。该标准的存在是因为眼动追踪、头部指针和许多替代输入无法可靠地执行多指手势或精确拖动路径。捏合缩放却没有替代按钮。滑动删除却没有屏幕上的删除控件。拖动排序的列表却没有键盘等效操作。每一种都是 2.5.1 的失败案例,每一种都切断了用户实际拥有的输入方式。
SC 2.5.2 指针取消(A 级)要求对于任何单指针激活操作,该操作要么不在按下事件时执行(而在抬起事件时执行),要么在按下事件时执行但允许用户在抬起事件前通过移开来中止操作。该标准是为手颤或漂移导致误触目标的用户而写,对基于悬停的头部指针和眼动追踪界面尤为重要:一个在光标落下瞬间即触发的点击,让用户没有机会从凝视漂移中恢复。将处理器绑定到 mousedown 而非 click 的按钮违反此标准。
SC 2.5.7 拖动动作(WCAG 2.2 新增)将手势保护扩展至专门针对拖放操作:任何可拖动的内容也必须可通过单指针替代方式实现,通常是按钮驱动的上移/下移控件。SC 2.5.4 运动驱动(A 级)保护无法可靠晃动或倾斜设备的用户。SC 2.2.1 可调节时限(A 级)和 SC 2.2.2 暂停、停止、隐藏(A 级)保护所有人免受在扫描界面到达相关控件之前就超时的界面的干扰。
这些标准构成一个单一的、整合的框架:用户只有一个输入轴,输入速度慢,设计不能做出其他假设。
生产网站上的常见故障
将这些标准对照生产网站的实际情况,就会出现一组反复出现的故障模式。这些都不是罕见情况,全部出现在与眼动追踪、头部指针和开关用户进行的常规用户测试中。
无键盘替代方式的拖放操作。项目管理工具、文件管理器和排名列表界面中的常见模式:将卡片从一列拖到另一列。对开关用户而言,该操作不可能完成——扫描中没有拖动。对头部指针和眼动追踪用户而言,拖动本身比按钮驱动的移动方式慢约 4 至 5 倍,通常在拖动途中就会松开。解决方案很直接:为每个拖放操作配套一个按钮驱动的移动动作,并置于键盘 Tab 顺序中。Trello 风格的”向上移动卡片 / 向下移动卡片 / 移至另一列表”菜单模式是参考实现。
仅通过悬停触发的导航。仅在 :hover 时出现、光标离开即消失的下拉菜单、工具提示和展开控件。对眼动追踪用户而言,当他们试图查看子项时,凝视锥会从菜单触发元素上漂移,菜单在他们到达前就关闭了。处理此问题的 WCAG 2.2 标准是 1.4.13 悬停或焦点时的内容(AA 级):悬停触发的内容必须可关闭、可悬停(用户可以移入而不会使其消失),且持续存在。许多生产菜单三项全部不满足。
点击目标过小。SC 2.5.8 目标尺寸(最小值)(AA 级,WCAG 2.2 新增)要求交互目标至少为 24×24 CSS 像素(有例外情形)。该标准是为触控和指针不精确用户——眼动追踪、头部指针、手颤——而写。模态框角落 16 像素的关闭图标,在实践中几乎无法用眼动追踪器可靠地点击。解决方案是机械性的:放大目标,或在界面其他位置通过更大的控件提供相同操作。
有时间限制的点击。每 5 秒自动切换的轮播、“您有 30 秒确认”对话框、任务进行中触发的会话超时。对于以每目标 1.5 秒扫描速率导航扫描界面的开关用户,30 秒超时约等于 20 个可触及目标的有效空间——通常不足以到达确认按钮。SC 2.2.1 可调节时限要求任何时间限制必须可延长、可调整或可取消。大多数生产超时均不满足上述任一条件。
仅手势确认。滑动确认滑块、签名板确认、需要追踪路径的验证码。每一种都是 2.5.1 的失败案例,除非配套了按钮替代方式。
在 mousedown 上触发操作。将处理器绑定到 mousedown 而非标准 click 事件的按钮,让用户无法在误触时中止操作。相关标准是 SC 2.5.2 指针取消;解决方案是绑定到 click,或绑定到 pointerup 并添加显式取消检查。
无 ARIA 的自定义控件。视觉上看起来像按钮但缺少 role=“button”、tabindex=“0” 以及 Enter 和 Space 的 keydown 处理器的 <div>。该控件对开关和键盘回退均不可达。相关标准是 SC 4.1.2 名称、角色、值(A 级)。解决方案是尽可能使用原生 <button> 元素,在无法使用时采用完整的 ARIA 模式。
有效的设计模式
能够在眼动追踪、头部指针和开关扫描中存活的模式,具有少量共同的结构特征。每种模式在 ARIA 创作实践指南和 WCAG 2.2 理解文档中均有详细记录,并在面向主流受众的网站上常规生产使用,没有人注意到任何不同。
尽可能使用原生 HTML 元素。最可靠的无障碍举措,是将 <button>、<a>、<input>、<select> 和 <textarea> 用于其语义目的。原生元素内置了正确的键盘处理、正确的 ARIA 角色、正确的焦点行为和正确的指针取消语义。用自定义 <div> 重新实现上述任何功能的复杂度,约为原来工作量的 10 倍,而结果几乎总是更差。
具有足够对比度的可见焦点指示器。对开关用户而言,焦点环就是光标。2 像素蓝色环与周围背景的对比度达到 4:1,是程序性最低要求(SC 2.4.7 焦点可见,AA 级;以及 SC 2.4.11 焦点不被遮挡,WCAG 2.2 新增)。在不替换的情况下去除浏览器默认焦点环的网站,会让开关用户迷失。
可预期的焦点顺序。开关扫描默认按 DOM 源顺序(由 tabindex 调整)遍历。在页面中跳跃的扫描顺序会使界面无法使用。相关标准是 SC 2.4.3 焦点顺序(A 级);实际含义是,在用户执行一系列操作的地方,视觉顺序与 DOM 顺序应尽量一致。
宽裕的激活区域。SC 2.5.8 的 24 像素最小值是底线,而非目标。2022 年以来发布了无障碍测试模式的许多设计系统——Adobe Spectrum、IBM Carbon、GOV.UK Design System、美国网页设计系统——默认采用 44 像素触控目标,对指针不精确用户效果良好,同时不会干扰视觉布局。
带有明确按钮的确认流程。任何破坏性或不可撤销的操作都应要求通过明确的确认按钮确认——而非滑动、长按,或”点击外部任意位置以关闭”。该模式适用于所有人,并在所有替代输入下均能存活。
宽裕的超时,或不设超时。如果出于安全原因(银行、医疗)必须设置超时,用户必须能够在超时触发前通过单指针操作延长时限。常见模式是在超时窗口的 75% 处显示”您还在吗?“提示,并附上一个大型单按钮供延长。
跳过链接和地标导航。一个必须遍历整个导航菜单、整个头部区域和整个广告位才能到达文章正文的扫描界面,是无法使用的。将”跳至内容”链接作为页面第一个可聚焦元素是最低要求;地标区域(<main>、<nav>、<aside>)让开关用户可以按结构跳转而非逐一线性遍历。
尊重用户的 prefers-reduced-motion 设置。自动切换的轮播和持续动画的背景会让眼动追踪器无法在稳定目标上定焦。CSS 媒体查询(@media (prefers-reduced-motion: reduce))可让同一界面为需要关闭动效的用户提供服务。
这对设计师、工程师和产品团队意味着什么
替代输入方式的报道记录,落在一个对读过本站其他无障碍入门文章的人而言应该熟悉的地方。技术已经成熟。标准已经成熟。用户群体已经有充分的描述。剩余的工作在于采购、培训,以及每天养成构建不默默假设双轴、双手、亚秒延迟输入的界面的习惯。
对设计师而言:用键盘来验证原型。如果你的设计在仅使用 Tab 键导航且焦点环可见的情况下能正常运作,它就能为开关用户正常运作;如果不行,视觉设计已经超越了交互模型。Apple Vision Pro 眼动追踪加捏合手势的先例,将替代输入重新定义为设计基准而非补救措施。能在 Vision Pro 上运行的设计,往往也能在 Tobii 上运行。
对工程师而言:绑定到 click 而非 mousedown。使用原生 HTML 元素。测试 Tab 顺序。在页面发布前进行仅键盘审计。上述大多数故障是工程惯例问题,而非工程难度问题。
对产品团队而言:在常规用户测试中纳入替代输入方式的用户。上述障碍不是边缘案例;它们是常规故障,在与 Tobii 传感器或开启了 Switch Control 的 iOS 设备进行 30 分钟测试时就会浮现。在测试计划中纳入该输入方式的成本很小。不纳入的代价,就是上述故障被大规模发布,影响到一个本已选择有限的群体。
当网络接受”点击”不是通用动词时,它才真正有效。将 Tobii 传感器架在显示器下方的用户、用摄像头追踪鼻尖的用户、将单个机械开关固定在桌角的用户——每个人都在执行与使用触控板的用户相同的操作。标准层认可这一点。上述设计模式尊重这一点。工作就是持续按这一前提构建。
欲了解更多,请阅读 Disability World 关于 WCAG 2.2 成功标准、2026 年更广泛报道记录和我们持续更新的辅助技术报道的内容。