智能服务实施——数据到知识

客户世界 | 2022年1月19日 | 2021年, 客世原创, 文库 | 评论已关闭 | 2026

原文再续，书接上回。

在上一章节中我们讲到了智能服务的实施工作开始之前，训练师心中应该要能够明确整个训练路线的全貌，并且要知道几个关键节点与关键的里程碑。不同的里程碑涉及不同的工作，不同工作节点之间可能是一个“紧前或紧后”的关系，即前者没有完成，后者就无法进行。不同的工作之间需要由不同岗位的训练师承接，不同岗位之间又是有不同的工作流程等。作为训练师尤其是训练师团队的负责人，清晰明了的知道整个实施路线图至关重要。本章节将以在线文本机器人为案例一同进行探讨“数据到知识”这个方向上的一些工作内容。

人工智能技术一般是由数据、算法、硬件设施三部分构成，算法训练数据形成特定的模型，模型在硬件设施(服务器)上进行运转，人工智能方能为人类提供相应的智能化服务。如果引申到在线机器人当中，可假设训练一个在线机器人做一道菜，那么蔬菜瓜果鱼肉就是数据，也就是训练师们常说的用户原始语料。数据清洗人员需要根据训练师、产品经理的要求使用不同的工具，如标注工具进行数据清洗与加工。训练师根据不同人工智能模型处理方式的要求，采用不同的算法在不同的硬件设施，如人工智能图像技术、GPU、图形处理器中训练在线机器人，完成后由训练师进行各类功能的测试，如果没有达到要求，将再次对在线机器人进行训练，直到达到要求后在线机器人才可上线。从上述的步骤中，我们可以看出对于在线机器人来说，未来识别与功能的好坏，数据至关重要。对于客服机器人(涵盖在线、语音、各类服务型机器人)，企业的期望是机器人能够“听懂”客户的问题，快速、有针对性地及时响应客户，以达到更好的服务体验和更低的服务成本。在线机器人想要听懂客户的问题，需要结合大量的数据训练模型，让服务机器人一看到、听到客户发来的问题就能明白这是什么意思。而这些数据来源于客户的问题，我们也常常把它称为原始语料。

综上，客服机器人生产的原始生产资料就是客服中心的语料。

1、原始语料的获取

如果说我们将训练师训练文本机器人的过程比喻成厨师制作一道道菜的过程，那么数据就是那些所有未加工的原材料的“鸡鸭鱼肉”，对于在线服务机器人这道菜，首要的工作就是去买菜（原始语料）。语料是在线机器人的训练数据，训练师们在算法工程师的要求下对语料进行有监督的学习标注，但在数据被标注之前，我们把所有语料数据称为原始语料。在客服中心中，常把那些服务聊天对话、提问记录、用户和服务人员的闲聊(非业务聊天)等素材作为文本机器人的原始语料。从来源来看，语料一般来自客服中心的各个服务渠道：在线服务渠道、语音服务渠道、自助服务渠道、其他服务渠道(根据企业客服中心的特点，不同语料来源渠道也会有所不同)。

训练师们可以借助原始语料来源记录表作为原始语料获取过程中的辅助。来源记录表不仅可以帮助训练师们明确语料的来源、具体内容、获取方法，也能在未来训练过程中发现原始语料数量不够之后进行语料来源范围的扩充，如在线机器人需要针对某个标准问题列举用户的相似问题，相似问题的最佳来源是用户的原始问法，若原始问法数量不够，则需训练师站在客户的角度编写，但如果能够扩展原始语料的来源范围，也能在一定程度上解决原始问法数量不够的问题；但除此以外该表还能解决很多原始语料获取过程中因为多人协同问题而导致的采集效率或者质量低下的问题。原始语料来源记录表样表，如表1所示。

表1 原始语料来源记录表样表

常见的文本机器人获取原始语料的方法一般有如下两种。

方法一：服务系统中的记录抽取。

训练师们可以从客服中心的各个座席系统(在线、语音座席系统、工单系统、自助服务中心等)中抽取所有用户和人工客服之间的对话语料。从在线座席系统中获取文本聊天记录的文档；从语音座席系统中获取语料聊天记录录音；从自助服务中获取客户建议和求助内容。

方法二：人工生成。

有些客服中心使用的三方座席系统不支持原始语料的获取，或者以往没有能够累积下大量的原始语料，这个时候可以选择人工服务经验丰富的资深人工座席代表，模拟客户思维进行客户语料编写，编写的过程中需要遵循“MECE原则”，尽可能完全穷尽原始语料。

除开上述两种方法以外各位训练师还可以结合企业与客服中心的实际情况进行原始语料的获取。

2、原始语料的处理

当我们购买到制作文本机器人这道菜所需要的原始数据（原材料菜）之后，接下来我们就需要将购买到的菜进行清洗，洗掉里面的脏东西（脏数据）、按照目标（制作文本机器人这道菜）切菜，并按照不同菜品的部分将切好的菜进行归档、装盘等待制作备用。

步骤一：原始语料粗分类。

原始语料获取后训练师需要将收集好的原始语料进行一个简单的粗分类，将语料分为业务语料(所有和业务内容相关的语料)、闲聊语料(纯粹聊天语料)。对粗分类的语料，训练师们需要注意可以进行适当的存档保留，如当下在线机器人的训练主要围绕客户某个场景的识别进行，但是情绪语料也应该进行保留，未来在训练在线机器人识别客户情绪能力时就能够派上用场。除此以外在对原始语料处理的过程中还需要注意语料的时效性和场景特点。客服中心的一大特点就是有非常多的原始数据，但这些原始数据往往是具备时效的，比如10年前的语料数据其对于底层算法识别训练是有意义的，但如果是从将其转化为标准问或相似问的角度来看，10年前的语料数据就是无意义甚至会降低文本机器人识别准确率的；又如对于一些本地生活类的场景，其原始语料的时效可能周期差别只有1年甚至只有1个月，但同样存在无法使用的问题。另外就是对于场景的考虑，训练师往往会下意识认定语料就应该来自于人工客服与客户之间的对话日志，但对于电子商务场景，有时候评价语料或者帮助论坛的语料甚至价值要远远地超过了人人对话日志。

步骤二：语料清洗。

语料清洗的重点是要去除粗分类语料中的无用部分，语料因为工作量较大的原因一般需要依赖语料清洗的程序和工具，如果是简单的清洗，训练师可以通过Excel、Python、Tmxmall等工具对需清洗语料的一些基础共性进行清洗操作，包括筛选关键词、校验句子长度、批量删除、重复句子剔除等。

1）常见语料清洗

以下为语料清洗的一些常见共性，供训练师参考。

(1) 去除停用词。原始语料中一般会包含一些停用词，如啊、呢、嗯，这些都可以去除。

(2) 删除标签。原始语料中通常会包含一些不必要的内容，如HTML标签，表情符号、图片符号等。

(3) 删除多余的空格。

(4) 删除重复性语料，这里的重复是指完全重复而非意图相似，对于在线机器人来说，重复性的语料是没有用的。

（5）结合业务特性，梳理一些无用语料的特征，然后使用特定工具进行处理。例如，太短(3个字以内)或太长的句子，可使用Excel的函数删除太长或太短的内容。

2）针对性语料清洗

根据已有的业务场景及算法模型的要求进行针对性的清洗，如敏感词识别、情绪识别、转人工、售前场景推荐识别。可以结合这些场景中原始语料的特点，例如，转人工、脏话、购买、下单等关键词进行清洗和筛选操作。

3）业务范围外语料清洗

可以结合在线机器人的边界说明书进行清洗，将不需要在线机器人解决的业务场景的语料进行清洗。

3、语料的归档

语料归档是指根据已有的业务场景或者算法工程师的需求，对清洗完成的语料进行归档。

训练师首先需要对已经清洗好的语料进行分类与归档工作，分类规则一般由训练师根据业务特点向算法和工程团队提供。很多刚刚接手训练工作的训练师往往不知道该怎么编写分类规则，建议训练师团队负责人需要建立训练知识文档沉淀、管理机制。通过训练师对业务和人工智能理解程度的加深，小步快跑迭代分类规则，并沉淀规则，即使未来训练师出现岗位变动，也能够将这些知识沉淀下来。知识管理机制同样适用于其他岗位和训练工作，要做到铁打的知识，流水的训练师，建立训练运营机制可以防范环境风险，保证训练工作的正常开展。关于企业数据的沉淀。因为很多企业大都是外采机器人系统，当业务成熟后可能由于内部原因，如企业认识到机器人价值，因此更换为更有实力的供应商；外部原因，如供应商因为经营不善，无法继续提供服务等情况导致需要更换系统；特殊原因，如系统供应商的服务器受到攻击，导致数据和训练模型全部丢失。往往各家机器人之间的兼容是非常困难的，无法做到像更换手机一样，通过数据传输就能将原手机的数据信息完全复制，很多时候更换系统意味着在线机器人的训练需要从0开始。所以，在数据管理过程中一定要注意重要数据的沉淀，最大限度降低因机器人系统更换带来的数据丢失的影响。

在完成简单的分类后，还可以按照问题和答案之间的关联度进行分类，这个分类也将有助于在线机器人对于客户意图的识别。包括以下两种类型：

(1) 语料的聚类。语料的聚类是指训练师或算法工程师直接将已经处理完成的原始语料投入特定的聚类算法之中，根据算法自动找出语料之间的规律所在。聚类方法一般用在在线机器人构建的初期，知识场景划分不够详细的阶段，直接采用聚类算法，训练师通过针对原始语料的聚类分布情况，反向研究并结合聚类语料的数量，综合评估排序在线机器人需要解决的问题。例如，聚类发现用户原始语料大都聚焦于咨询物流问题，可将物流咨询作为优先重点场景进行训练。

(2) 语料的分类。语料分类的过程实质上是对语料与业务之间的关系进行一个映射匹配，其主要根据待分类数据的某些特征来进行匹配，必须(根据某种评价标准)选择最优的匹配结果。这里的特征其实就是业务上的定义，是之前已经做好的业务场景分类。最简单的做法是根据业务场景中特定的关键词或者特定的规则进行筛选，如转人工场景分类，那么将所有的语料中具有人工或者转人工等关键词字样的问题对都归为一类。其实上文中提及训练师的归档工作，本质上也是在进行原始语料的分类，但如果具备编程能力，则能极大提升分类的效率。

针对分类的编程构建一般有两个方向：一种是基于规则和特征的知识工程方法，其可以为每个类别的文本语料定义大量的推理规则，如果语料能满足这些推理规则，则可以判定属于该类别。但在构建过程当中，需要投入大量专业度较高的人力进行类别规则和特征的制定和标注，其对于标注的人力的素质(专业程度)和标注的数量都有一定的要求，其优点则在于准确度较高。另一种是基于统计学的自主学习判断，即将语料交给机器人后，通过统计和计算让机器人自动寻找特征，自主掌握分类能力。目前较为成熟的分类方式都是知识工程与统计相结合，即专业人工标注加上机器自主学习。

对于分类和聚类的区别，我们抛开较为复杂的算法内容，简单来说：分类是一个有监督学习，需要训练师进行标注处理；聚类是一个无监督学习，不需要训练师进行标注，直接由计算机去处理。分类和聚类本质上都是对语料进行处理的工具，最大的作用就是尽可能把我们收集并且清洗完成的原始语料归档到最正确的业务场景中，为后面在线机器人能够更加准确识别客户问题打下坚实的基础。

写在后面：

本章节聚焦于智能服务实施中的数据到知识部分，重点向各位训练师们描述了烹饪文本机器人这道菜之前，作为厨师（训练师）需要根据目标去购买原始材料、原始菜品，然后进行菜品材料的清洗、切菜、分类归档等，各位训练们除了关注以上实施内容本身的工作，还需特别注意这些实施工作之间的一些管理工作内容。

作者：苏钰；

本文刊载于《客户世界》2021年12月刊。