进行对话并精确转录是人工智能(AI)研究中的最大挑战之一。目前,卡尔斯鲁厄技术学院(KIT)的研究人员首次成功开发了一种计算机系统,该系统在以最小的等待时间识别这种自发的语言方面表现优于人类。这是在arXiv.org上报告的。
KIT信息学教授亚历克斯•韦贝尔(Alex Waibel)表示:“当人们交谈时,会出现停顿、结巴、犹豫,比如‘呃’或‘嗯’,还会大笑或咳嗽。”“单词通常发音不清楚。”这使得人们甚至很难准确地记录谈话内容。“到目前为止,这对人工智能来说更加困难。”KIT公司旗下的初创公司kite的科学家和员工现在已经编写了一套计算机系统,该系统能比人类更好地执行这项任务,而且比其他系统更快。
威贝尔(Waibel)已经开发了一种自动实时翻译器,可以直接将德语或英语的大学讲座翻译成外国学生使用的语言。自2012年以来,该“演讲翻译器”已在KIT的演讲厅中使用。“对自发语音的识别是该系统的最重要组成部分,” Waibel解释说,“由于识别过程中的错误和延误使翻译难以理解。 ,人为错误率约为5.5%。我们的系统现在达到5.0%。” 但是,除了精度外,系统产生输出的速度同样重要,因此学生可以实时听课。研究人员现已成功减少了这种延迟一秒钟。Waibel说,这是迄今为止语音识别系统所达到的最小延迟。
错误率和等待时间是使用标准化的、国际认可的科学“交换机基准测试”测试的。该基准(由美国国家标准与技术研究院(NIST)定义)在国际AI研究人员的竞争中被广泛使用,以构建一种在可比条件下甚至更胜一筹的条件下,能够识别人类自发言语的机器。
Waibel认为,快速,高精度的语音识别是进一步下游处理的重要步骤。它使对话,翻译和其他AI模块能够提供更好的基于语音的与机器的交互。
免责声明:文章内容来自互联网,本站不对其真实性负责,也不承担任何法律责任,如有侵权等情况,请与本站联系删除。
转载请注明出处:人工智能在语音识别方面胜过人类 https://www.yhzz.com.cn/a/14317.html