宜人贷——宜人蜂巢金融科技AI实践:蜂巢机器人(2)
NLU主要是理解ASR转换的文本,同时结合用户画像等数据来挖掘用户此时的真实意图。此模块三大功能是:领域识别、意图识别和槽位提取(如图4)。 图4:意图识别实例 NLU是将文本归一化计算成机器可以理解的语义表示。NLU可以使用语义解析或语义标注的方式获得,也可以把它分解为多个分类任务来解决。蜂巢机器人在NLU部分在冷启动阶段,采用基于正则表达式的规则方法和无监督学习的语句相似度方法来实现。随着数据的积累以及对数据标注,在用户领域识别和意图识别上采用了分类算法,例如:机器学习中的SVM以及深度学习领域的CNN和RNN。槽位提取其实是通过学习一系列标注序列数据来预测新标注序列,是一个序列标注问题,主要采用的方法是BLSTM+CRF。由于意图和槽位具有较强的关联关系,所以尝试采用同一个网络来完成意图识别和槽位提取。 4. 对话管理(DM): 用户的需求较复杂,单轮对话不能够很好的获取用户的真实意图,通过对话管理实现用户与机器人的多轮对话,机器人就能够通过询问、澄清或确认来获取更多的用户信息,从而帮助用户明确需求。对话管理的主要任务是维护用户和机器人的对话状态,并且与知识库产生信息交互,从而选择下一步最优的动作。蜂巢机器人在早期采用了基于议程(agenda)的对话管理,利用图数据库存储层次结构分明且有序的话术内容和关系,这样整个用户与机器人的对话实质上是对树的遍历,并且较容易的支持话题切换、回退和退出。随着场景的增加,用户的实际需求变得多样性,其中有些质询问题的多样性导致基于议程的对话管理过于复杂,而且难以管理。因此,结合了基于议程的对话管理和基于槽位的对话管理,在正常业务流程中使用于议程的对话管理;而在质询业务问题方面,采用了填槽的对话管理方式,整个对话过程就是一个不断填槽的过程。而整个槽位信息的获取就是NLU阶段的信息输出。在对话管理中,话术的管理利用分布式图数据库,同时采用图的遍历技术寻找下一节点以及最优问题检索的相似度重排序。 5. 语音合成(TTS): 语音合成模块是蜂巢机器人最后的一个重要模块。语音合成就是把寻找出的最优话术文本转换成语音音频通过电话通道播放给用户。语音音频主要解决发声和语气两个大问题:清晰的发声解决了用户是否听清机器人,而语气主要是让机器人更像有感情的真人。蜂巢机器人在语音合成阶段利用了拼接法,根据机器人的最优文本在语音库中找去不仅在语言学特征上,还在声学特征上也是类似的音素 。在实际的业务中,有些话术存在参数变量,这个变量随着用户的本身信息的不同而不同,所以通过拼接发很容易解决这个问题。语音拼接法虽然听起来很自然,但是在前期语音的录制和裁剪中需要花费大量人工,而且系统扩展性很差。在后期,打算利用建立基于参数的语音合成系统,它其实是一个文本抽象成语音学特征,再用统计学模型学习出来语音学特征和其声学特征的对应关系后,再从预测出来的声学特征还原成音频的过程。这个技术主要是基于统计的模型完成,现阶段主流深度学习模型。 三、未来展望 蜂巢机器人整个链路设计到了大数据、云计算、人工智能等诸多前沿技术,特别在某些领域还没有完美的解决方案。蜂巢机器人作为AI技术的实践者,为了更好的落地,蜂巢机器人有如下的展望:
【本文是51CTO专栏机构宜信技术学院的原创文章,微信公众号“宜信技术学院( id: CE_TECH)”】 戳这里,看该作者更多好文 【编辑推荐】
点赞 0 (编辑:ASP站长网) |