IBM的人工智能可执行最先进的广播新闻字幕

2019年05月15日 IBM 语音识别

  两年前,IBM的研究人员声称,他们用机器学习系统训练了两个公共语音识别数据集,取得了最先进的转录性能。人工智能系统不仅要应对训练语料库音频片段的失真,还要应对一系列的演讲风格、重叠的演讲、中断、重启和参与者之间的交流。

  为了开发一种更强大的系统,这家总部位于纽约阿蒙克的公司的研究人员最近在一篇论文中设计了一种架构,该论文名为《人类和机器对英语广播新闻语音识别》(English Broadcast News Speech Recognition by Humans and Machines),将于本周在布莱顿举行的声学、语音和信号处理国际会议上发表。他们说,在初步实验中,它在播放新闻字幕任务上取得了行业领先的结果。

  做到这一点并不容易。该系统本身也面临着一系列挑战,比如带有大量背景噪音的音频信号,以及主持人就各种新闻话题发表演讲。虽然大部分培训语料库的演讲都很清晰,但其中包含了现场采访、电视节目剪辑和其他多媒体内容等材料。

  正如IBM研究人员Samuel Thomas在一篇博客文章中所解释的那样,人工智能利用了长短时记忆(LSTM)(一种能够学习长期依赖关系的算法)和声学神经网络语言模型,以及互补的语言模型的组合。声学模型包含多达25层的节点(模拟生物神经元的数学函数),它们通过语音谱图或信号频谱的视觉表示进行训练,而六层的LSTM网络学习了“丰富”的各种声学特征,以增强语言建模。

  在为整个系统提供1,300小时的广播新闻数据后,研究人员将人工智能放进了一个测试集,测试集包含6个节目的两个小时数据,总共有近100名重叠的演讲者。(第二个测试集包含12个节目的四个小时广播新闻数据,大约有230名重叠的演讲者。)该团队与语音和搜索技术公司Appen合作,对语音识别任务的识别错误率进行了测量,并报告说,该系统在第一组测试中达到6.5%,在第二次测试中达到5.9%,比人类的表现略差一些,分别为3.6%和2.8%。

  托马斯写道:“(我们的)新结果……是我们在这项任务中所知的最低水平,(但)在这个领域仍有新技术和改进的空间。”

  原文出自:https://venturebeat.com/2019/05/14/ibms-ai-achieves-state-of-the-art-broadcast-news-captioning/