在灵伴AI开放平台上展开ASR功能,构筑智能生态未来
浏览:166 时间:2022-12-23

近日,ASR功能模块在灵伴AI开放平台上线,在TTS赋予机器说话能力后,ASR功能的开放将使用户的产品具备听觉感知能力,使其能够轻松理解人类语音,与TTS形成语音交互的核心环节,让更多的产品和用户在零技术门槛下完成整体交互方案。

近年来,语音交互被视为连接各种智能服务的入口。虽然在很多工业应用场景中得到了应用,但仍有很多不尽人意的地方。就ASR技术而言,业界普遍宣称的97%的识别准确率,多指局限于安静房间的近场识别。在实际使用场景中,用户复杂的口音、与麦克风的距离以及周围环境的噪音都会严重影响语音识别的准确性,从而大大降低交互体验。

灵伴AI开放平台ASR功能界面展示

灵伴ASR技术作为整体交互服务方案中的重要一环,经历了来自市场的严苛测试,并在实践中不断迭代完善,能够高标准满足实际业务场景的需求。

国际领先的识别技术

灵伴ASR算法模型具有较强的鲁棒性和复杂环境识别能力。基于自主研发的抗噪和远场处理技术,能够有效分离噪声和混响,大大提高了室外、室内、车内等复杂环境下语音识别的准确率,让用户无论在什么嘈杂环境下都能得到最大程度的识别;独创说话人识别和语音识别同步处理技术,实现实时说话人区分和语音内容识别;先进的深度学习算法模型保证了系统具有较高的准确率、识别效率和较低的计算成本;

20域识别引擎

得益于长期专注语音交互的优势,灵伴智能服务解决方案已落地银行、保险、教育、医疗等20多个行业,积累了海量的业务数据和经验。经过实际业务场景的应用反馈和算法模型的迭代优化,灵伴ASR作为单一技术能力的识别准确率高于行业平均水平;

出色的产品性能

灵伴的ASR不仅支持识别中文,的普通话、混合汉语和英语,还支持识别带有方言口音的普通话。这种能力在实际落地过程中不断得到提升。因为大多数企业为全国各地的用户提供服务,而方言口音是实际应用中影响ASR准确率的主要因素之一。基于先进的算法模型、多年的业务积累和庞大的数据库支持,灵伴ASR对不同方言口音的普通话识别准确率较高;

支持个性化定制

灵伴ASR技术还支持个人或企业用户的个性化需求定制,提供基于细分、方言、语言等需求定制的行业模型定制。

作为智能语音交互领域的先行者,灵伴是业内少有的拥有语音交互全栈技术的企业。在AI商业化的过程中,能够根据实际业务情况快速调整和响应,不依赖他人,这也是灵伴AI技术产品能够渗透到业务场景的重要因素之一。ASR功能的开放,意味着灵伴AI开放平台将更全面、更深入地赋能全行业,也表达了灵伴未来愿意与更多企业携手共建智能生态的美好愿景。