
如果您发现语音助手令人沮丧,那么您就不会孤单。人工智能驱动的语音便利的大肆宣传很快就落到了机器人学究的裂缝中。
不得不再次(有时又再次)要求额外输入来执行您的请求的智能AI显得特别愚蠢-例如,当没有得到您要问的最有可能的维修店是不是其中任何一个,而是您现在停在外面的那一个stylechina.com。
在研究人机交互研究所在卡耐基梅隆大学,有工作Gierad Laput,在苹果机器学习的工程师,设计了一个演示软件附加语音助手,可以让智能手机用户通过提升的设备上AI的精明给它伸出援助之手-或者更是一个帮助的头。
该原型系统可同时使用智能手机的前后摄像头,从而能够在物理空间中,尤其是在周围环境中定位用户的头部-使用计算机视觉技术对其进行解析,以识别附近的物体。
然后,用户可以用他们的头作为指针,将视线对准他们正在谈论的任何内容(即“那个车库”),以研究人员认为更自然的方式无语地填补AI理解中的上下文空白。
因此,您无需像机器人一样说话才能利用语音AI的效用,而是可以听起来更人性化。问诸如“' Siri,的确,当这星巴克关门?” 或者-在零售环境中-“ 该沙发还有其他颜色选择吗?” 或要求在“ 这把椅子和那把椅子”之间进行即时价格比较。或将一盏灯添加到您的愿望清单中。
在家庭/办公室场景中,该系统还可以使用户远程控制其视野范围内的各种设备,而无需对其进行超级详细的说明。相反,他们可以朝智能电视或恒温器看,然后说出所需的音量/温度调节。
该团队整理了一个演示视频(如下),演示了原型-他们称之为WorldGaze-的实际应用。“我们使用iPhone的前置摄像头以3D方式跟踪头部,包括其方向矢量。由于前置和后置摄像头的几何形状是已知的,因此我们可以将后视摄像头看到的头部向量光线投射到世界中,”他们在视频中解释道。
“这允许用户使用头部凝视直观地定义感兴趣的对象或区域。然后语音助手可以使用此上下文信息来进行更精确和自然的查询。”
在介绍原型的研究论文中,他们还建议将其用于“ 帮助社交化移动AR体验,目前以走在街上看着他们的设备的人们为代表。”
当被问及对此进行扩展时,CMU研究员克里斯·哈里森(Chris Harrison)告诉TechCrunch:“人们总是走来走去,看着手机,这不是很社交。他们没有与其他人互动,甚至没有看着周围的美丽世界。借助WorldGaze之类的工具,人们可以看到世界,但仍然可以向智能手机提问。如果我走在街上,则可以查询和收听有关餐厅的评论,也可以在购物清单中添加内容,而不必低头看手机。但是手机仍然具有所有的功能。我不必购买额外或特殊的东西。”
他们在论文中指出,针对以交互目的跟踪用户的注视,已有大量研究–但他们在此工作的主要目的是开发“功能齐全的实时原型,将自己局限于商品智能手机上的硬件。” (尽管后座摄像头的视野是他们讨论的一个潜在限制,包括建议对任何不足的硬件进行部分解决。)
他们还写道:“尽管WorldGaze可以作为独立的应用程序启动,但我们认为WorldGaze更有可能被集成为可在语音助手触发(例如'Hey Siri')后唤醒的后台服务。” “虽然同时打开相机和执行计算机视觉处理会消耗大量能源,但占空比很低,因此不会严重影响当今智能手机的电池寿命。甚至可能两台摄像机都只需要一帧,之后它们可以关闭(WorldGaze启动时间为7秒)。使用台式设备,我们估计每个查询的功耗约为0.1毫瓦时。”
当然,对于一个人将屏幕举在脸前并与之交谈还有些尴尬的事-但Harrison确认该软件可以在一对智能眼镜上轻松地免提工作。
“两种都是可能的,”他告诉我们。“我们之所以选择专注于智能手机,是因为每个人都拥有一个(而WorldGaze可以说是一种软件更新),而几乎没有人拥有AR眼镜。但是在您要使用的地方为语音助手增压的前提对这两者都适用。”
“越来越多的AR眼镜包括用于跟踪注视位置的传感器(例如Magic Leap, 出于对焦的原因而使用它),因此在那种情况下,只需要一个向外的摄像机即可。”他补充说。
以进一步跃升这是可以想像这样一个系统中结合面部识别技术-允许一个聪明的规范佩戴者悄悄地倾斜他们的头,问“谁是那个?” —假设必要的面部数据在AI的存储库中合法可用。
然后可以解锁诸如“添加到联系人”或“我们上次见面的时间”之类的功能,以增强网络或社交体验。尽管在这一点上,将这样的系统释放到现实世界中的隐私隐患看起来比将工程结合在一起更具挑战性。(例如,参见苹果因违反其规则而禁止Clearview AI的应用程序。)
哈里森在询问这种可能性时表示同意:“与此同时,必须具有一定的安全性和权限级别,这不是我们现在正在考虑的事情,但这是一个有趣的(并且可能令人恐惧的想法)。”
该小组原定在ACM CHI上展示研究成果,但由于冠状病毒而取消了会议。