基于深度学习的人机对话系统原理及应用

客户世界 | 2021年10月27日 | 2021年, 客世原创 | 评论已关闭 | 2393

摘要：深度学习不断的取得新突破，基于深度学习的人机对话系统广泛应用于各个领域，赋能各个行业。目前的人机对话多数基于人为假设或者预测的对话流设计，对话系统一般包含三个基本的模块，自然语言理解、对话管理、自然语言生成；对话机器人也一般分为三种闲聊、问答、任务型机器人，主要应用于客服、营销、企业服务等场景。本文首先从对话系统的实现原理以及核心技术出发，然后梳理现有对话机器人解决的关键问题，总结并分析现有对话系统的的局限性和改进方案。最后，对人机对话进行展望。

1、引言

人机对话系统经历了三个阶段的发展。

第一代人机对话时代，人机交流使用的语言全部是经过定义并有数量限制由字符集组成的被双方牢记的密码式语言，在此体系外的人基本不了解语言含义。

第二代人机对话时代，则采用的是接近人类自然思维的“所见即所得”的图形式交流方式，可以说在交流的内容上已经非常接近人类的自然交流习惯（以类似人类书写形式的视觉交流为主），但其交流方式仍主要是通过按键（键盘、鼠标等）实现，而不是按照人类本来得交流方式进行。

第三代人机对话则完全与第一第二代人机对话方式不同，人机交流的内容主要是人习惯的自然交流语言，交流方式也是人习惯的自然语言交流方式（包括智能语伴、语音和手写等，甚至包括人的表情、手势、步态等）。

2、实现原理

对话机器人的基本原理是基于自然语言处理技术、语音识别、语音合成等人工智能技术实现的一类产品，使得用户与机器之间实现交流，理解人类的表达从而实现机器与人的有效沟通。目前机器人分类闲聊型、任务型、问答型三种模式，问答机器人是基于信息检索的一种，可以通过连接的知识方式，检索到用户问题的答案，问答系统与信息检索检索的方式类似，将用户输入的问题转化为有结构的表达方式，然后从知识库中寻找答案的方式。

对话机器人的核心技术是自然语言处理，所谓的“理解”与“处理”，它包含的基本处理方法有分词、词性标注、语法分析、语义分析、实体抽取等技术，然后抽取出关键词进行相似度计算，处理流程主要有行业语料库、语料预处理、特征工程、特征选择与模型训练，最终实现人机交互。

自然语言理解（NLU），将用户的输入映射到预先设置的场景语义槽中，让机器理解语言的意思，整个句子理解的流程按照如下表示，它展示了自然语言表示的示例，其中“添添向上”是指定为slots的值，并且为这句话指明了域和意图，按照域进行分类，明确之后接将进行知识类别匹配（图1）。

图1 自然语言理解实例

对话管理（DM）实际上是一个决策过程，对话机器人在服务过程中不断的根据当前状态，选取下一步动作的最优选择，一般包括对话跟踪状态（DST）和对话策略学习。它的基本思想是使用神经网络去学习会话的对话状态，并作出会话决策，即通过NLU输出的模块等其他重要特征，作为神经网络的输入，将动作的选择结果输出。

自然语言生成（NLG），可以将机器输出的抽象表达转换为合法的句子，以文本的形式回复用户，它将输入语义符号映射到代表话语的中介形式，如树状或模板结构，然后通过表面实现将中间结构转换为最终响应。目前比较成熟的方法是基于LSTM的encoder-decoder，将对话管理输出的结果结合起来生成答案，利用注意力机制处理解码器当前的关键状态信息，根据不同类型信息返回答案。

下面是自然语言处理的核心技术以及处理流程（图2），并结合了核心技术给出了对话的实例（图3）。

图2 自然语言处理流程

图3 对话流程实例

3、AI有多远

基于NLP的核心技术，搭建的对话机器人一般可分为闲聊型、问答型、任务型，任务型对话多为多轮对话的方式。应用场景的选择，技术发展的瓶颈等都会影响机器认的服务指标，主要的问题总结主要有：

（1）场景界限，建设AI场景和应用，不应对AI期望过高，最初的企业引入对话机器人为了降低人工重复性劳动的额成本，但现在要求替代人工打营销战，其实营销学是一门比较复杂的学科，涉及到心理学、情商、谈话技巧等学问，可能连营销序列员工在提高营销转化率上都有难度。需要理解机器人和人之间的差距，以及机器人处理问题的边界。如果一定使用对话机器人开展营销，要避免发散的场景，减少对话轮次来提高营销转化率。

（2）技术瓶颈，深度学习和预训练的风口，NLP带来了质的飞越，让对话机器人的能力在一定程度上有所提升，但是距离商用仍然有一段距离，目前所谓的人工智能更多的是通过挖字典和规则，不断的标注数据实现智能服务。NLP的技术不应仅局限于学术上意图识别模型提升了1%，训练了更大的对话模型等而是真正能够从对话框架层架解决存在的问题，实现大规模的对话机器人孵化，这可能才是对话机器人追求的目标。

（3）除了技术瓶颈限制了对话机器人的发展，还需要后台运营人员，知识训练师，数据分析师等共同优化知识，语义模型，即便市场AI能力比较强的腾讯、百度等头部公司，也很难做好细分的每一个赛道，每一个细分的领域都需要从算法模型的实验阶段走到工程实现阶段，而实现工程的过程需要层层流程性处理，工程的效果也不是一蹴而就需要不断的迭代优化效果可能才会达到预期。

4、未来展望

深度学习已成为对话系统的一项基本技术，为各项业务赋能有瓶颈也有发展。首先，对话机器人的模型能否快速的大规模生成，一方面需要通过人工的方式建立模型，另一方面可以通过对话产生的优质历史数据自动迭代对话节点和流程，有能力从与人的交互中主动去学习。其次，对话机器人的模型能否共用，比如外呼营销模型能否复制到呼入、质检等其他渠道，需要提高营销转化率以及效率，减少重复性搭建模型。

现阶段通过深度学习，神经网络实现的对话机器人，依赖人工标注数据优化训练语义模型，提高语义模型的泛化能力，行业多数采用结构化的知识库以及大量的语料提高回答的准确率，但缺少问题回复的多样性，似乎没有任何情绪和情感的对话，服务模式很冰冷，所以未来的对话系统应该有深度理解、感知、情绪等能力来面向真实世界。

不仅要考虑人工智能技术提供的智能服务，还要考虑在享受服务的同时解决AI可信问题，即隐私问题。目前对话系统的应用领域越来越广泛，机器人可以通过互动、理解、推理，了解用户，对话机器人无意中隐蔽着敏感信息。因此，在搭建对话场景时，考虑精准的服务的同时，用户的隐私信息也不可忽略。

5、总结

本文从对话机器人应用实现的基本原理角度出发，探索了对话系统的应用场景，以及在搭建对话场景过程遇到的问题，需要考虑业务场景的壁垒，NLP技术的瓶颈，AI的效果需要逐渐迭代等问题，针对这些问题，提出了如何提高机器人服务的准确率方法，同时对话机器人的规模化服务、深度学习技术未来的发展，以及用户关注的隐私问题角度思考未来的对话机器人的服务形态，对服务机器人提出了更高的期望。

参考文献

[1] Chen, H., Liu, X., Yin, D., & Tang, J. (2017). A survey on dialogue systems: Recent advances and new frontiers. Acm Sigkdd Explorations Newsletter, 19(2), 25-35.

[2] http://report.iresearch.cn/report_pdf.aspx?id=3808

[3] https://www.leiphone.com/news/201703/6PNNwLXouKQ3EyI5.html

作者：宁雪莉；就职于浙江泰隆商业银行；

本文刊载于《客户世界》2021年9月刊。