您的位置: 新闻中心 >文章正文

更好精准识别人声和静音的临界点 百融云创智能语音新专利问世

近日,作为人工智能领先企业,百融云创又在智能语音领域获得一项发明专利“一种智能外呼打断方法及系统”,该专利有望对精准识别人声和静音的临界点,发挥重要作用。

  我们知道理想的交互流程是一问一答,问完即答,答完再问,但现实终归不是理想,之所以出现静默、突然打断等情况,究其原因在于在智能外呼过程中,智能机器人无法精准识别用户语音状态的开始和结束,使得人机沟通总显得不是那么自然。

  百融云创打断技术增强的关键就是要找出人声和静音的临界点,对输入的音频流进行分析,分析到底是人声还是非人声——即为开始说话事件还是静音事件,然后通过语音识别(ASR)获得识别结果,之后开始准备下一轮话术。打断是否智能取决于两个因素:端点检测技术是否可靠和系统可否依据具体环境,对端点检测效果完成自我优化(智能反馈)。在上述两个场景中,前者是端点检测过于敏感产生的错误打断;后者则是端点检测漏过了事实上的语音部分,导致系统响应迟钝,影响了识别的准确度。

  那么该专利的技术逻辑是怎样的呢?首先抽取WebRTC的VAD模块移植至UniMRCP,获得第一移植结果;根据第一移植结果进行单Package数据检测分析,获得第一检测分析结果,从而获得第一累加计数规则;再根据第一累加计数规则进行第一检测分析结果的累加,获得第一人声累加结果和第一非人声累加结果;然后根据第一人声累加结果和第一非人声累加结果进行内部状态转换,获得第一事件判断结果;最后通过FreeSwitch根据所述第一事件判断结果进行打断控制。

  总体来看,打断技术增强的功能具有如下特征:端点检测精确度高;对背景噪声以及非语音声音有很好的拒绝功能;系统可以根据通话环境调节相关参数,改善端点检测效果。从商业化的角度看,打断越智能,使得机器在与人交互的过程中,更能清晰传达外呼目的,精准理解用户语义,在及时、流畅的双向沟通中,帮助用户解决问题,同时也高质、高效完成服务、营销的外呼目的。从系统层面看,外呼过程所依赖的语音识别,语音合成,都是高消耗资源,高成本的计算。通过打断技术的过滤,能够大大减少资源浪费,比如静默时,暂停语音识别调用。

  在该技术的加持下,上述所提到的智能外呼的一些问题将得到有效的改善。此外,在商业应用方面该技术同样能大显身手,提高核心竞争力。


(免责声明:本网站内容主要来自原创、合作媒体供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )

相关阅读

网站简介 - 网站声明 - 合作伙伴 - 联系我们

中文科技视界网    www.ctechw.com

Copyright © 2016-2020 中文科技视界网

网站备案号:鄂ICP备18014829号-1