24小时联系电话:185 8888 888

科技
您现在的位置: 首页 > 科技 > Speechmatics 推动英语口音识别
  • “酷”大脑研究的扭曲观念扼杀了心理治疗

    “酷”大脑研究的扭曲观念扼杀了心理治疗

    发布时间:2020/03/31

      ‘对于人类的每一个问题,总是存在着众所周知的解决方案-简洁,合理和错误。” 人类从来没有遇到过比了解我们自己的人性更复杂的问题。而且,不乏任何试图探究其深度的简洁,合理和错误的答案。 在我职业生...

  • SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关

    发布时间:2020/03/31

      美国国家航空航天局(NASA)挖掘出一种尚未建造的SpaceX货运飞船,用于向尚未发射的绕月轨道前哨基地运送补给品。 SpaceX的机器人Dragon XL是其主力Dragon太空船的圆柱形超大型版本,将作为第一批从NASA获得...

  • Spaces应用程序使人们可以参加VR中的Zoom会议

    Spaces应用程序使人们可以参加VR中的Zoom会议

    发布时间:2020/03/30

      一个名为Spaces的新PC VR应用程序使用户可以从VR内部加入Zoom会议和其他视频通话。 该应用是根据最近发生的COVID-19大流行而开发的,该大流行已经使世界各地许多人在家中工作并使用诸如Zoom之类的虚拟会议...

  • 汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%

    发布时间:2020/03/30

      总部位于中国惠州的医疗设备公司慧英医疗声称已开发出一种AI成像解决方案,该解决方案使用CT胸部扫描来检测COVID-19的存在。该公司断言,如果不使用逆转录聚合酶链反应(RT-PCR)(COVID-19的标准测试方法),...

Speechmatics 推动英语口音识别

发布时间:2021/10/28 科技 浏览次数:313

据报道,在过去的几年里,随着智能扬声器和驾驶辅助模式的兴起,语音识别已经从方便变得至关重要——但并不是每个人的声音都能得到同样的识别。Speechmatics声称拥有最全面和最准确的模型,在最常见的美国口音之外的语音方面击败了亚马逊、谷歌和其他公司。

该公司解释说,2019年斯坦福大学的一项题为“语音识别的种族差异”的研究指导它解决准确性问题,该研究正是发现了这一点。来自亚马逊、苹果、谷歌、IBM和微软的语音引擎“表现出巨大的种族差异,黑人说话者的平均单词错误率(WER)为0.35,而白人说话者为0.19。”不是很好!

这种差异的根源可能部分归因于用于训练这些系统的数据集缺乏多样性。毕竟,如果数据中的黑人说话者很少,模型也不会学习这些语音模式。对于具有其他口音、方言等的演讲者来说也是如此——美国(更不用说英国)到处都是口音,任何声称为“每个人”提供服务的公司都应该意识到这一点。

无论如何,总部位于英国的Speechmatics将准确转录带口音的英语作为其最新模型的优先事项,并声称已将其他模型吹出水面。基于斯坦福研究中使用的相同数据集(但使用最新版本的语音软件),“与谷歌(68.7%)和亚马逊(68.6%)相比,Speechmatics记录的非裔美国人语音的总体准确率为82.8%,”该公司在其新闻稿中写道。

该公司将这一成功归功于创建语音识别模型的一种相对较新的方法。传统上,机器学习系统提供有标记的数据——想想带有元数据的语音音频文件或包含所说内容的文本文件,通常由人工转录和检查。对于猫检测算法,您将有图像和数据说明哪些包含猫,猫在每张图片中的位置,等等。这是监督学习,其中模型学习两种形式的准备数据之间的相关性。

Speechmatics使用自监督学习,这种方法近年来随着数据集、学习效率和计算能力的增长而变得流行。除了标记数据,它还使用原始的、未标记的数据以及更多的数据,在更少的指导下建立自己对语音的“理解”。

在这种情况下,该模型基于大约30,000小时的标记数据以获得某种基本的理解水平,然后输入来自YouTube、播客和其他内容的110万小时公开可用音频。这种类型的集合有点灰色地带,因为没有人明确同意将他们的播客用于训练某人的商业语音识别引擎。但它被许多人使用,就像“整个互联网”被用来训练OpenAI的GPT-3一样,可能包括我自己的数千篇文章。(虽然它还没有掌握我独特的声音。)

除了提高美国黑人说话者的准确率之外,Speechmatics模型还声称可以为儿童提供更好的转录(准确率约为92%,而Google和Deepgram的准确率约为83%),并且在英语方面有微小但显着的改进,包括来自世界各地的口音:印度、菲律宾、南部非洲人和许多其他人——甚至是苏格兰人。

它们支持数十种其他语言,并且在其中许多语言中也具有竞争力;这不仅仅是一个英语识别模型,而且考虑到该语言被用作通用语言(如今是一种非常不恰当的成语),口音对其尤为重要。

Speechmatics可能在它引用的指标上领先,但AI世界的发展速度非常快,我不会对明年进一步跨越式发展感到惊讶。例如,谷歌正在努力确保其引擎为有语言障碍的人服务。包容性是当今所有人工智能工作的重要组成部分,很高兴看到公司试图在其中超越对方。

姓 名:
邮箱
留 言: