在通话中使用说话者搜索为多个发言者打标签 商业生产力
在通话中标记多个发言者:speaker search 功能
关键要点
实时识别:在多方语音通信中,实时识别和标记发言者至关重要。speaker search 功能:这是 Amazon Chime SDK 中的一个新功能,用于识别发言者并标记,他们的发言可以通过音频样本与语音数据库比对。应用场景:可用于财报会议、交易员的即时沟通等场景。准确率:演示中 speaker search 的识别准确率达到 88。在许多多方语音通信的使用场景中,实时识别和标记活跃发言者非常重要,以便了解发言者表达了什么。此信息在通话后也具备很大的价值,尤其是在转录过程中进行身份归属。在这篇文章中,我们将演示如何使用 Amazon Chime SDK 的通话分析 和其 speaker search 功能,将发言者身份标签实时附加到通话中,并在通话结束后获取相关见解。
此类多发言者标记功能有很多实际应用案例,例如:
转录执行人员的财报电话,并在转录中标记“谁说了什么”。实时识别和标记在交易员使用的喊话盒沟通平台中的活跃发言者。什么是 speaker search?
speaker search 是 Amazon Chime SDK 通话分析中的一项新功能,基于机器学习技术。它能够从通话音频中提取短语音样本,并从注册发言者的声音嵌入voice embeddings或声音档案数据库中返回一组最接近的匹配项。此功能通过 Amazon Chime SDK Voice Connector 的 speaker search API 提供。
解决方案概述
在这个简单的演示中,我们将定期调用 speaker search 服务,在通话过程中显示如何标记不同的活跃发言者。
在本次演示中,我们召集了四位 AWS 员工“Alice”,“Bob”,“Charlie”和“David”,通过音响电话拨打与 Voice Connector 关联的电话号码。作为呼叫者,我们使用运行自动应答系统的 Asterisk 服务器。我们仅对呼叫者的部分应用了 speaker search,所有四位志愿者在之前都通过提供短音频样本注册了他们的声音嵌入,并且他们均同意根据相关隐私和生物识别法律的要求创建和处理声纹,这是使用该服务的条件。
在演示中,我们使用脚本每 30 秒左右触发 speaker search API 调用,提供大约 10 秒的无静音语音样本,并将 speaker search 结果记录到为此 Voice Connector 配置的 SNS 通知目标中。每位发言者顺序发言大约两分钟。
当使用推断语音样本调用 speaker search API 时,它生成一个嵌入向量,捕捉发言者声音的一些特征。这一嵌入与嵌入数据库中所有注册发言者的嵌入进行比较,并返回最多 10 个置信度最高的匹配结果,按置信度分数排名。出于本次演示的目的,我们仅保留了置信度最高的匹配结果,并将其用作发言人身份的估计。
结果
以下是会议的音频记录,并注释了估计的发言人身份及真实的发言人身份。通过在通话过程中将估计与真实身份进行对比,我们得到一个准确性分数,该分数定义为估计身份与真实发言人身份匹配的搜索百分比。
pioneer加速器下载安装此次演示的准确率为 88。在大部分时段,speaker search 能够准确识别发言者,但在一些情况下,发言者未被高置信度匹配以超过我们设定的阈值。
该测试展示了即便是如此简单的实现也能有效应对发言者标记的需求。提高标记准确性的方法包括:
增加 speaker search API 调用的频率调整推断语音样本长度调整匹配置信度阈值利用 Amazon Transcribe 集成提取发言者端点,从而对分割后的发言进行 speaker search 查询。开始使用 Amazon Chime SDK 通话分析和 speaker search
首先,您需要配置一个启用语音分析的 Amazon Chime SDK Voice Connector,其中包括创建语音配置域和一组接收 speaker search 结果的通知目标,此外还需配置 speaker search 工作流。有关详细信息,请参见 Amazon Chime SDK 开发者指南。要使用 speaker search 功能,您需打开 SLI 票据。有关请求配额增加的文档,请查看 此处。了解更多
要了解更多关于 Amazon Chime SDK 语音分析的信息,可以参考以下资源:
Amazon Chime SDK 控制台在 Amazon Chime SDK 管理员指南 中启用语音分析在 Amazon Chime SDK 开发者指南 中使用语音分析Amazon Chime SDK API 参考
标签 Amazon Chime SDK、Amazon 机器学习、Amazon Transcribe
作者介绍
Narasimha ChariChari 是 Amazon Chime SDK 服务团队的首席产品经理,专注于音频和视频通信以及分析中的机器学习应用。工作之外,Chari 喜欢与家人共度时光和在山中跑步。
Mike GoodwinMike 是 Amazon Chime SDK 的应用科学高级经理。他的团队专注于音频和视频工作负载中的机器学习和信号处理解决方案。在业余时间,他喜欢跑步、皮划艇和弹吉他。
Zhihai XiangZhihai 是 AWS Chime SDK 科学团队的一名软件工程师,专注于后端和前端开发、云基础设施和机器学习等领域。