智能服务实施——知识到智能（上）

客户世界 | 2022年3月9日 | 2022年, 客世原创 | 评论已关闭 | 2077

原文再续，书接上回。

在上一章节我们一同迈入智能服务的实施工作，人工智能的基础是数据，智能服务的基础就是服务相关的数据——客服中心各种各样的原始语料。我们把智能服务产品类比成一道菜，训练实施工作就是做菜，那么各种原始语料就是我们到市场购买的食材，食材买到手后需要进行菜品材料的清洗、切菜、分类归档等实施与管理相关工作，接下来就是正式烹饪智能服务这道菜品，本章节将重点聚焦于知识到智能中的问法标准化部分与各位训练师展开探讨。

1．服务场景问题标准化

当我们完成了语料的归档后，训练师们其实能够得到已经梳理完成的场景及这个场景下大量的用户相似问法。但如果直接让在线机器人识别相似问法，很容易导致识别错误，在线机器人正确的运转逻辑是将千奇百态的客户问法匹配到一个具有概括性的标准问上去。所以，针对归档后的语料进行标准化，本质上是将客户的原始语料相似问转化成标准问的一个过程，即：

客户原始语料=相似问

客户原始语料标准化=标准问

标准化的过程，一般由训练师根据客服中心相关的知识进行标准化的编写，标准问编写相对于相似问来说对于训练师要简单得多，因为对于客服中心的服务人员来说，服务的第一要求就是标准化和一致性。比如我们的标准问法为：“如何修改密码？”客户的问法会有：“我想要修改密码怎么办？”“我怎么才能修改密码？”“我该如何修改密码？”在标准问的编写上，建议训练师们可以借鉴6W3H的方法，对中文语言结构常见类型进行标准问整理。

What：是什么，常见于政策类、问答类的解释。例如：“退货险是什么？”

where：常见于操作路径引导。例如：“运费险在哪里下单？”

who：常见于对象引导。例如：“这个基金的经理是谁？”

when：常见于时间政策解释。例如：“你们的促销活动多久开始？持续多长时间？”

why：常见于一些失败操作解释。例如：“为什么我不能参加活动？”

whether：常见于问题判断。例如：“我能参加300–60的活动吗？”

how：常见于操作方式引导。例如：“怎么退款？”

how much：常见于数量相关内容。例如：“这个库存还有多少？”

how many：常见于价格相关内容。例如：“华为P40多少钱？”

除此以外，训练师们还需要注意的是在撰写用户常见标准问的过程中，需要遵循完全覆盖的原则，即有些服务场景中没有原始语料对应覆盖，但也同样需要进行标准问撰写。

2.服务场景问题相似问补充

当训练师完成在线机器人相似问的场景归档即标准化之后，有些机器人会对场景下的相似问的具体数量有要求和限制，如对于退款时效场景，需要训练师们准备一定数量的相似问法，这个过程即补充相似问的过程。

其实在前面的章节中已经说过，相似问本质上就是一个一个的练习题，机器人做的练习题越多，考试的时候回答正确的概率也就越大。但是，相似问的编写也受到一些因素的限制：工作量大，相似问补充工作需要庞大的训练师人力支撑；相似问补充因人而异，如果只让固定人员进行相似问补充，很容易形成思维定式，导致最后的可用性差；相似问补充标准规则不统一(如针对退款时效场景，相似问一：“退款多久能到账？”相似问二：“退款多久能够到账呢？”相似问三：“退款后，钱多久到账？”其中，相似问二的编写几乎是失败的)；同一个问题的相似问是无穷无尽的，相似问难以完全覆盖用户的真实问法。这些限制会导致相似问补充后实际作用较小等问题。

下面是一些训练师团队常见的相似问编写方法。

方法一：人工编写相似问

人工编写相似问流程，如图1所示。

图1 人工编写相似问流程

(1) 训练师们可以将目光聚焦在需要补充场景的用户原声相似问，因为客户的原声相似问结合原声的数量可以非常简单高效地判断出在这个场景下，用户的常见问法是什么样的。但如果原声中的相似问数量不够，这个时候训练师们也可以结合原声来源记录表分析是否能够进行原声获取范围的扩充。同时阅读大量原声后，训练师也能够更好地将自己的思维带入客户的思维去模拟客户提问的方式，这样用以保证撰写出来的相似问是最符合客户问法的相似问。

(2) 训练师需针对相似问进行分词操作，包括去除停用词、词语切割、实体确认、词性标注等工作。

① 去除停用词。停用词一般是指在机器人信息检索中，为节省存储空间和提高搜索效率，在处理自然语言数据(或文本)之前或之后会自动过滤掉某些字或词，这些字或词即被称为停用词。需要注意的是，训练师不要将停用词与口语化搞混，以下面的问题为例。

相似问一：“退款到账需要多久？”

相似问二：“退款到账需要多久呢？”

相似问三：“我的东西已经退了，钱多久能到账？”

其中相似问二就是带有停用词的，前文我们已说过这样的相似问对于在线机器人可以说意义不大，而相似问三才是相似问一的口语化表达。

② 词语切割。所有的中文语言都是由字组成词、词语，最终连成句子，所以要把句子进行切分。例如，将“退款到账需要多久？”切分为“退款到账|需要|多久？”

③ 实体确认。命名实体就是人名、机构名、地名，以及其他所有以名称为标识的实体。更广泛的实体还包括数字、日期、货币、地址等。实体一般都是固定的不需要在相似问中变幻的部分，但如果对于同一实体有多种命名和表达方式时就需要注意，如人民币和¥。另外，需要处理一些方言业务的在线机器人，方言在同一个实体的表达上也可能存在差异，这个差异同样也会体现在口语化和词语近义词的表达上，如“如何进行转账？”在粤语上的口语表达是“占样转账？”

对于命名还需要注意一些相似问题的区分，如“手机银行转账手续费是多少？”和“ATM转账手续费是多少？”需要额外注意。

④ 词性标注。对句子划分完成的词语的词性进行标注，如名词、动词、形容词、副词、语气词，这样能够确保相似问补充后，句子意图的一致性。

(3) 针对已经划分完成的句子进行相似词语的补充和扩充，即将句子成分中各个词按照词性结构进行相似词的补充，如退货—退钱，快递—物流，喜欢—钟意等。

(4) 按照句法结构进行相似问的生成。在中文表达中，句法结构有主谓句、省略句、陈述句、疑问句、祈使句、感叹句等。例如，“如何退款？”的相似问补充为“怎么样退钱？”“怎么样退款？”“帮我退款！”等。

在人工编写相似问的过程中，训练师们还在参考一种基于编程规则的方法进行相似问补充，即正则表达式编写，因为相似问编写完成后，在线机器人的训练是一个动态发展的过程，如果相似问的数量过于庞大，未来是非常不利于训练师进行管理工作的。因此，运用基于规则的相似问补充方式可以很好地解决这个问题。例如，“我想查询天气情况。”使用正则编写其相似问为：[请问|查下|告诉我]${date}${city}[的]天气[预报|情况|状况][如何|怎么样|好不好]。

方方二：客服中心知识竞赛

相似问补充工作需要大量的人力且最好不能由单一人员进行(单一人员很容易受到思维定式的干扰，导致相似问不可用的概率大大提升)，通过发动客服中心的人工客服参与相似问的补充工作，即举办人工客服针对在线机器人的知识竞赛，对客服中心的人工客服进行相似问编写培训，规范相似问的编写原则。在提供常见的相似问错误编写示例后，由人工客服在工作闲暇之余，通过与在线机器人进行规定场景的对话交流，或直接给出标准问、人工客服进行补充等方式，从而达到最佳效果、最低成本的相似问补充的目标。

这是一种较为常见的做法，但在编写之前需要明确相似问编写原则和规范，并提供出错误相似问编写示例，确保相似问补充工作的高效性。

方案法：人机耦合编写相似问

以上的相似问编写方法都是依靠训练师人工进行操作，那能否让机器人帮助我们进行相似问的编写呢？答案是肯定的。在训练研发相似问自动生成系统前，训练师团队负责人需要考虑以下问题：

我们训练的机器人未来是否会进行对外商业推广？

推广受众的行业是否多种多样？

首先，如果需要对外进行商业推广，那么就要考虑购买机器人的用户的训练能力，尽量保障在线机器人能够开箱即用，减少人工操作；其次，注意推广受众的行业跨度，如果是在本行业进行推广，根据本行业中已经累积的相似语料进行自动相似问系统的研发成本较低，同时相似问自动生成系统可以帮助一些需要快速训练的场景得到很高的识别准确率，如针对电商的大促，需要在很短的时间内完成知识问答的创建。基于上述两个条件的成立，研发相似问自动生成系统是非常划算的，自动相似问生成系统的本质是上述提及的人工编写相似问流程的自动化。

3.语料检查与确认

上述内容处理完成后，还需要进行内容的检验和确认。

(1) 语料准备完成后，需要确认语料的数量、质量是否已经足够覆盖全部的已梳理业务场景。

(2) 如果要建立定制化的算法模型，还需要和算法工程师确认语料的数量、质量是否符合模型训练的需要。

(3) 语料是搭建在线机器人“大脑”的基础，语料的丰富性一定程度上决定了在线机器人的“智力水平”。因此，语料的收集应尽量丰富、全面。

4.本章小结

数据是人工智能引擎的燃料，客户原始语料则是在线机器人引擎的燃料，燃料的数量和质量都是非常重要的。在获取燃料的过程中，需要训练师与在线机器人研发团队，包括算法工程师、产品经理等角色不断沟通，以达到在线机器人预期搭建水平，并能够持续提高在线机器人的智能化。获取燃料后，训练师团队负责人需要更多地把注意力放在团队知识沉淀机制中，通过工作流程、相关机制确保训练过程中产生的知识能够最大限度地沉淀和留存下来，做到铁打的知识、流水的团队，避免因各种内外部突发情况、员工离职等对训练工作的影响。

作者：苏钰；为客户世界机构首席AIT专家；

本文刊载于《客户世界》2022年1-2月合刊。