近日,小米推出完全支持情感语音交互的小米萧艾音箱艺术,小米成为行业内第一家大规模推出情感TTS的企业。
该音箱基于快乐、关心、害羞等有限但不同的情感音频数据,通过不同的技术训练和迭代声学模型,支持情感TTS合成,实现“小爱同学”的声音影响和拟人化。
随着人工智能技术的发展,在实现人机对话的基础上,各大AI企业都在积极探索情感语音交互领域。
比如在智能客服领域,当用户的问题无法解决或者问题不明确时,智能客服很可能无法识别用户的情绪并进行进一步的操作,从而引起用户的不满和投诉。
针对这种情况,日本NTT研究院开发了客服电话情绪识别系统,对用户的电话语音进行采集和处理,如果没有检测到用户的愤怒情绪,则继续当前的语音服务;如果检测到愤怒情绪,会转入人工服务进行业务处理。
语音情感识别通常是指机器从语音中自动识别人类情感和情感相关状态的过程。通过分析说话人的情绪,使机器进行拟人化交互,识别说话人的情绪,是语音技术的新热点。
语音情感识别有两种,NTT的客服电话情感识别系统只通过语音分析情感。这种情感语音识别模型的应用离不开训练数据的支持。
Data Hall深耕AI数据领域近十年,一直致力于为全球人工智能企业提供专业的数据服务。业内高标准的语音情感识别训练数据《20人英文情感语音麦克风采集数据》和《30部电影语音视频标注数据》广受重视和好评。
语音情感识别的另一个模型是结合语音和图像的多模态情感分析。
机器人辣椒是应用多模态情感分析的典型案例。
Pepper是由日本软银集团和法国,阿鲁迪巴机器人公司共同研发的一款能够综合考虑周围环境并主动响应的仿人机器人。
Pepper配备了语音识别技术和情感识别技术,用于分析表情和音调。经过定制化开发,Pepper可以通过表情、动作、声音,甚至舞蹈、笑话等方式与人类进行交流和反馈。
如今,在商业领域,全球已有2000多家企业应用了辣椒,服务于零售、金融、医疗等多个行业。
麻省理工大学媒体实验室衍生公司Affectiva通过语音和面部数据创建情感文件,其神经网络SoundNet只需1.2秒就能识别音频数据中的愤怒。
人的情绪除了愤怒之外,还可以分为喜、悲、失望、惊讶等面部情绪,内心情绪又可以细分为尴尬、犹豫、赞许、羡慕。这些情绪可以通过VAD方法进行量化和评分。
所谓VAD指的是三个测量维度:效价、唤醒和支配。
化合价(Valence)是指为满足个人需求而实现目标的价值。同一个目标可能对每个人都有三个价:正、零和负。
觉醒(积极程度),即精神和身体共同反映的积极程度,如活力或昏睡。
支配(优势),表示个人对形势和他人的控制。例如,愤怒是一种高支配性的情绪,而恐惧是一种低支配性的情绪。
Data Hall一直致力于开发个性化的机器训练数据,为AI产品和业务带来数据和服务,为人们带来更好的产品体验,让每个人都能享受人工智能带来的美好生活。