在大流行之前,超过40%的新互联网用户是儿童。现在的估计表明,对于12岁以下的儿童,每天在屏幕上的花费不足五个小时(包括所有相关的好处和风险),儿童的放映时间增加了60%或更多。

尽管很容易惊叹于数字原住民的技术实力,但教育工作者(和父母)都痛苦地意识到,年轻的“远程学习者”经常难以导航以实现教育技术的承诺所需的键盘,菜单和界面。
在这种背景下,启用语音的数字助理寄希望于与技术进行更流畅的交互。但是虽然孩子们喜欢问Alexa或Siri 对于节拍器,讲笑话或发出动物的声音,父母和老师都知道,一旦他们偏离了可预测的要求,这些系统就很难理解他们的最小用户。
挑战来自这样一个事实,即为Alexa,Siri和Google等流行语音助手提供支持的语音识别软件从未设计用于与儿童一起使用,他们的声音,语言和行为比成年人的要复杂得多。
孩子的声音不仅发出嘶哑的声音,声带变细和变短,声带变小,喉部还没有完全发育。这导致与较大的儿童或成人不同的语音模式。
从下面的图形可以很容易地看出,仅仅改变用于训练语音识别的成人声音的音调并不能重现理解儿童语音所需要的信息的复杂性。儿童的语言结构和方式差异很大。它们使语法,发音和语法有了飞跃,语音识别系统的自然语言处理组件需要考虑这些飞跃。这种复杂性是由于儿童在不同发展阶段的各个年龄段中的说话人间差异而加剧的,而成人语音并不需要考虑这些差异。
声调随年龄变化
改变用于训练语音识别的成人声音的音调无法重现理解儿童语音所需的信息的复杂性。图片来源:SoapBox实验室
儿童的言语行为不仅比成年人的言语行为多变,而且还很不稳定。孩子们会大声念出单词,拉长某些音节,在大声思考时标出每个单词或完全跳过某些单词。他们的语音模式不符合为成人用户构建的系统所熟悉的普通节奏。作为成年人,我们已经学会了如何与这些设备进行最佳交互,如何引起最佳响应。我们站出来整理自己的头脑,根据学习到的行为来修改请求,然后大声说出自己的请求,深吸一口气……“ Alexa……”孩子们简单地脱口而出,就像Siri或Alexa人,而且常常会收到错误或罐头的回复。
在教育环境中,语音识别不仅要克服环境噪声和教室的不可预测性,还要克服全年儿童语音的变化以及典型基础语言中的重音和方言的问题,从而加剧了这些挑战。学校。儿童和成年人之间在身体,语言和行为上的差异也大大增加了儿童的年龄。这意味着从语音识别中受益最大的年轻学习者是开发人员最难的目标。
要说明和理解儿童语言的各种怪癖,需要语音识别系统,该系统旨在有意地从孩子的说话方式中学习。不能将儿童的语音简单地当作语音识别的另一种口音或方言来容纳。它在本质上和实践上都不同,并且随着孩子的成长和发展以及语言技能的变化而变化。
与大多数消费者情况不同,准确性对儿童具有深远的影响。一个告诉孩子正确时是错的系统(错误否定)会损害他们的自信心;告诉他们,当他们错了(假阳性)时,他们是对的,这会带来社会情感(和心理上的)伤害。在娱乐环境中,在应用程序,游戏,机器人和智能玩具中,这些错误的消极因素或积极因素会导致令人沮丧的体验。在学校中,错误,误解或罐头回应可能会对教育和公平产生深远的影响。
有据可查 的语音识别偏见可能会对孩子产生不良影响。对于具有特定人口统计学或社会经济背景的孩子,产品以较低的精度工作(传递错误的肯定和否定)是不可接受的。一个研究越来越多 表明,声音可以为孩子们一个极有价值的接口,但我们不能让或忽略了潜在的它放大已经流行的偏见和不平等现象在我们的学校。
语音识别有可能成为家庭和教室中孩子的强大工具。它可以在识字和语言学习的各个阶段填补支持儿童的关键空白,帮助孩子更好地理解周围的世界,并为周围的世界所理解。它可以为即使在遥远的环境中也能可靠工作的“ 隐形 ”观测措施的新时代铺平道路。但是,当今大多数语音识别工具都不适合该目标。Siri,Alexa和其他语音助手中使用的技术有一项工作要做-了解能清晰且可预测地说话的成年人-并且在大多数情况下,他们会做得很好。如果语音识别适用于儿童,则必须针对其独特的声音,语言和行为建模并做出响应。