-
全国人大代表张淑琴、兰山区人大代表全传晓建议:完善商业信用体系建设 切实保护中小企业利益
发布时间:2025/03/06
2025年3月6日,金融时报社刊载全国人大代表张淑琴、兰山区人大代表全传晓关于“完善商业信用体系建设 切实保护中小企业利益”的署名文章。人大代表围绕构建商业信用展开,分析其在实体经济中的作用、存在问题,探讨...
-
@全体毕业生,这4万份打包胶带为你送上毕业祝福!
发布时间:2024/06/28
蔓蔓日茂,蝉鸣渐起,夏日正当时。 拨穗礼成,当毕业典礼徐徐落幕,也宣告着大学四年的故事将要落下帷幕。在这个充满意义的时刻,淘宝联合全国100多所高校菜鸟驿站,为即将踏上新旅程的毕业生们精心准备了4万份打...
-
贵阳市云岩区溯源纠纷调解服务所暨“矛盾纠纷多元化解联合体”成立
发布时间:2024/06/11
2024 年 6 月 7 日,贵阳市云岩区溯源纠纷调解服务所暨“矛盾纠纷多元化解联合体”成立大会盛大举行。此次大会参会人员包括阎毅、杨健铭、丁鲁黔等在内的 30 余位各界人士。 身为金牌调解员的阎毅,凭借其丰富的调...
-
新起点,新力量:贵阳市云岩区诉源纠纷调解服务所挂牌成立
发布时间:2024/05/31
5月27日,贵阳市云岩区诉源纠纷调解服务所(下简称诉源纠纷调解所)正式挂牌成立。 诉源纠纷调解所,系在贵阳市云岩区法学会一届二次会长会议审核通过,经贵阳市云岩区法学会批准设立的一家民办非企业性质的调解...
-
“酷”大脑研究的扭曲观念扼杀了心理治疗
发布时间:2020/03/31
‘对于人类的每一个问题,总是存在着众所周知的解决方案-简洁,合理和错误。” 人类从来没有遇到过比了解我们自己的人性更复杂的问题。而且,不乏任何试图探究其深度的简洁,合理和错误的答案。 在我职业生...
-
SpaceX赢得NASA合同,使用新型Dragon XL工艺将货物运送到月球网关
发布时间:2020/03/31
美国国家航空航天局(NASA)挖掘出一种尚未建造的SpaceX货运飞船,用于向尚未发射的绕月轨道前哨基地运送补给品。 SpaceX的机器人Dragon XL是其主力Dragon太空船的圆柱形超大型版本,将作为第一批从NASA获得...
-
Spaces应用程序使人们可以参加VR中的Zoom会议
发布时间:2020/03/30
一个名为Spaces的新PC VR应用程序使用户可以从VR内部加入Zoom会议和其他视频通话。 该应用是根据最近发生的COVID-19大流行而开发的,该大流行已经使世界各地许多人在家中工作并使用诸如Zoom之类的虚拟会议...
-
汇盈医疗声称其AI可以从CT扫描中检测冠状病毒,准确率达96%
发布时间:2020/03/30
总部位于中国惠州的医疗设备公司慧英医疗声称已开发出一种AI成像解决方案,该解决方案使用CT胸部扫描来检测COVID-19的存在。该公司断言,如果不使用逆转录聚合酶链反应(RT-PCR)(COVID-19的标准测试方法),...
Speechmatics 推动英语口音识别
发布时间:2021/10/28 科技 浏览次数:434
据报道,在过去的几年里,随着智能扬声器和驾驶辅助模式的兴起,语音识别已经从方便变得至关重要——但并不是每个人的声音都能得到同样的识别。Speechmatics声称拥有最全面和最准确的模型,在最常见的美国口音之外的语音方面击败了亚马逊、谷歌和其他公司。
该公司解释说,2019年斯坦福大学的一项题为“语音识别的种族差异”的研究指导它解决准确性问题,该研究正是发现了这一点。来自亚马逊、苹果、谷歌、IBM和微软的语音引擎“表现出巨大的种族差异,黑人说话者的平均单词错误率(WER)为0.35,而白人说话者为0.19。”不是很好!
这种差异的根源可能部分归因于用于训练这些系统的数据集缺乏多样性。毕竟,如果数据中的黑人说话者很少,模型也不会学习这些语音模式。对于具有其他口音、方言等的演讲者来说也是如此——美国(更不用说英国)到处都是口音,任何声称为“每个人”提供服务的公司都应该意识到这一点。
无论如何,总部位于英国的Speechmatics将准确转录带口音的英语作为其最新模型的优先事项,并声称已将其他模型吹出水面。基于斯坦福研究中使用的相同数据集(但使用最新版本的语音软件),“与谷歌(68.7%)和亚马逊(68.6%)相比,Speechmatics记录的非裔美国人语音的总体准确率为82.8%,”该公司在其新闻稿中写道。
该公司将这一成功归功于创建语音识别模型的一种相对较新的方法。传统上,机器学习系统提供有标记的数据——想想带有元数据的语音音频文件或包含所说内容的文本文件,通常由人工转录和检查。对于猫检测算法,您将有图像和数据说明哪些包含猫,猫在每张图片中的位置,等等。这是监督学习,其中模型学习两种形式的准备数据之间的相关性。
Speechmatics使用自监督学习,这种方法近年来随着数据集、学习效率和计算能力的增长而变得流行。除了标记数据,它还使用原始的、未标记的数据以及更多的数据,在更少的指导下建立自己对语音的“理解”。
在这种情况下,该模型基于大约30,000小时的标记数据以获得某种基本的理解水平,然后输入来自YouTube、播客和其他内容的110万小时公开可用音频。这种类型的集合有点灰色地带,因为没有人明确同意将他们的播客用于训练某人的商业语音识别引擎。但它被许多人使用,就像“整个互联网”被用来训练OpenAI的GPT-3一样,可能包括我自己的数千篇文章。(虽然它还没有掌握我独特的声音。)
除了提高美国黑人说话者的准确率之外,Speechmatics模型还声称可以为儿童提供更好的转录(准确率约为92%,而Google和Deepgram的准确率约为83%),并且在英语方面有微小但显着的改进,包括来自世界各地的口音:印度、菲律宾、南部非洲人和许多其他人——甚至是苏格兰人。
它们支持数十种其他语言,并且在其中许多语言中也具有竞争力;这不仅仅是一个英语识别模型,而且考虑到该语言被用作通用语言(如今是一种非常不恰当的成语),口音对其尤为重要。
Speechmatics可能在它引用的指标上领先,但AI世界的发展速度非常快,我不会对明年进一步跨越式发展感到惊讶。例如,谷歌正在努力确保其引擎为有语言障碍的人服务。包容性是当今所有人工智能工作的重要组成部分,很高兴看到公司试图在其中超越对方。