AI 建模实际应用场景及效益

panjl | 2020年4月23日 | 文库 | 评论已关闭 | 2135

随着 AI 科技的发展，过去很多无法应用计算机算法分析的场景现在已经成为可能，并且能经由 AI 的算法带来实际的业务效益，提升营收。本文将以普强的 AI 建模、语义理解、语音识别等相关技术为核心所建立的一套优化商业场景机制，在行业中的实际应用所产生的效益做详细阐述。

国内一名列世界 500 强的保险公司（以下简称“A 保险公司”），拥有庞大的电销团队，雇佣了上万名电销人员，每月电销电话拨打量达到千万通。由于客户名单基本为白名单，即没有客户的信息，传统的格式化维度分析无法应用，所以A保险公司在没有客户信息的情况下，实行全量拨打，这样的拨打效果成交率在千分之一以下。另一方面，全量拨打的电销电话也给客户带来不良的印象，对客户造成不必要的干扰。近年来，监管力度逐年上升，对电销电话管控严度加大。为能有效运营电销就需要有特定对象，向有购买保险意愿的客户精准的拨打。

AI 建模实际应用场景及效益

随着 AI 科技的进步，普强 AI 建模产品的核心运用了最新的 AI 语音转译和语义理解技术，为这样的场景提供了一个极佳的解决方案，能够让 A 保险公司和有类似业务场景公司的电销人员将资源集中在有潜在购买意愿的客户。一方面，避免拨打全量的电话，减少人力资源和电信话费，另一方面，能有效减少对没有购买意愿客户的干扰。当客户有意愿和需求购买保险时，电销的外呼电话不被认为是干扰；相反，对没有购买意愿或能力的人，这样的电话即成为客户的干扰。

事实上，经过 AI 建模的分析，在数百万的客户名单中，有购买意愿的大约在 15% 左右，因此 80% 以上的电话都是不必要拨打的。这样的应用给 A 保险公司和有类似应用场景的公司省下巨大的成本。接下来，将会对此做详尽的描述。

一、语音语义理解可获取有价值的客户特征

虽然没有客户的固定维度信息，但是有许多已拨打过的录音，A 保险公司拥有海量的客户通话录音，录音内含有宝贵的客户信息、客户特征等。这些数据都可以作为筛选客户的依据，例如在电销的过程中可以得知：

买过保险：“谢谢，我已经有保险了”。
可能有车：“对不起，我正在开车，不方便讲话”。
有房人士：“我目前房贷压力大，没有闲钱买保险”。

还有许多类似的特征都可以从电销人员和客户的通话中获取，做成客户画像。普强过去积累了许多成功案例，其中就包含大量这样有价值的客户特征。从各样的案例中，电销人员重点关注拥有这些特征的客户，拨打给这类有较高意愿的客户并提高销售力度，增加拨打次数和跟进，从而提升销售成交率。因此，若能将这些宝贵的客户信息特征挖掘出来，也就能更进一步找出潜在客户，从而将电销团队的大量资源（人力、时间、电话费用……）做最有效的运用，达到最大收益。

二、AI语音转译和语义理解

自从 2010 年苹果电脑、手机发布 Siri 应用后，语音识别技术不断的更新、突破。其主要是源于一种计算机算法架构的技术突破：深度神经网络。使用神经网络的技术，研究人员不断推进许多人工智能以前不能突破的障碍，例如语音识别、图像识别、语义理解等三大领域。借助神经网络架构，这些领域里的问题都大大提升了应用上的效果。这样的突破主要由以下几个因素造成：

数据量徒增：借着互联网的发展，大量的用户将语音、图像、照片、文字上传到大型的数据中心。
大型云计算中心超级的运算能力：能储存、处理、分析这些海量的数据。
算法突破：借助前两项，算法得以不断的被验证、优化、迭代更新，创新的神经网络架构不断的被提出并被验证。

在语音识别方面，2017 年微软研究院的技术达到了与人翻译的结果相同的里程碑。在电话对话的数据集（Switchboard），微软的研究员们使用了多个神经网络模型来翻译使结果达到最优，翻译的字错误率与4位专业翻译人士共同翻译的错误率基本相同。2018 年谷歌的 DeepMind 使用了大型的 CNN-RNN-CTC 神经网络架构，翻译结果比翻译专家好六倍。同时在图像识别方面，也同样有重大突破，使得自动驾驶这样复杂的工作，变得可实现。

AI 建模实际应用场景及效益

语音、图像识别持续突破，在语义理解方面，使用神经网络架构的算法也突破了人的水平。著名的史丹佛大学语义理解竞赛的文本问答数据集，内有 10 万条问答，都是从维基百科摘选的文章片段，然后对每一片段由真人提出问题，并在文章片段内找出答案的位置。准确率由 2017 年前的 60% 迅速攀升到最新的 90% 以上，远远超过人的水平，人的水平为 86.8%，而准确率最高的神经网络是 94.6%。它所使用的神经网络架构为一种称为 Transformer 的网络，叠加 24 次，形成一个深度大型的网络（BERT），并使用了兆级数量的词汇做训练。在其它常用的语义任务上，神经网络也都极大的提升了准确率，例如命名实体识别（NER）、关系识别、文本蕴含（text entailment）等。

这些人工智能的科技突破，让许多以往计算机不能应用到的场景成为新的应用。在语音方面，企业存储的海量录音，以往是黑盒子，无法进行分析整理。不像结构化的数据，使用大型的数据库，可以做查询、统计、分析、图表化等工作。如今，可以经由语音识别成为文字，然后再经由语义理解做分析，产生实际的应用效益。接下来将对最新的语音、语义技术在人工智能科技的应用作案例分析。

三、语音语义分析现行科技状况

语音识别相对比较容易理解和定义，其任务就是将声音转成文字，而转化的效果可以简易的用字错误率来界定。但是识别的准确率与诸多因素相关，可以用人的体验来做比喻，因为人工智能基本就是模仿人的智能：

专业领域：如果在一个不同的专业领域，例如医学，许多的用语不是一般常用的，一个非医学专业的人士不容易理解这些医学的用语，做文字转化的也会出错。
口音/方言：严重的方言口音或是方言。
传播媒介：如电话信道。
背景声音：如吵杂的环境。

这些都会影响识别的结果，就像人需要时间适应后才能听懂一个新环境里的对话交流。所以要降低语音转译的错误率，必须要能对专业或应用领域有足够的认识，熟悉地域的口音、方言等。

普强的语音转译专注于固定领域来积累领域的专业话语，也同时积累了大量的语音覆盖了口音、方言、传播媒介特性、背景声音等因素，来优化语音转译的正确率。

另一方面，语义理解任务相对的就比较不容易定义和理解，有一组学术界定义的语义理解相关的问题（GLUE）：

CoLA：单句的二分类问题, 判断一个英文句子在语法上是不是可接受的。
SST-2：单句的二分类问题, 句子的来源于人们对一部电影的评价, 判断这个句子的情感。
MRPC：句子对来源于对同一条新闻的评论，判断这一对句子在语义上是否相同。
STS-B：这是一个类似回归的问题，给出一对句子，使用 1~5 的评分评价两者在语义上的相似程度。
QQP：这是一个二分类数据集，目的是判断两个来自于 Quora 的问题句子在语义上是否是等价的。
MNLI-m：语型内匹配。推断两个句子是意思相近, 矛盾，还是无关的。
MNLI-mm：跨语型匹配。推断两个句子是意思相近，矛盾，还是无关的。
QNLI：也是一个二分类问题，两个句子是一个(question,answer)对，正样本为 answer 是对应question的答案，负样本则相反。
RTE：是一个二分类问题，类似于 MNLI, 但是数据量少很多。
WNLI：推断两个句子是意思相近，矛盾，还是无关的。
AX：QA型图像数据库。

这些任务都有许多应用场景，但是语义理解的应用范畴也有很多不能直接应用这些任务，例如从一段对话文本中来判断一个人是否结婚，如下面的对话：

A：您好，我想跟您谈下我们公司最近的一个产品的活动，这个产品能够……

B：嗯，谢谢，不过我需要和我老婆商量商量….

明显的从这段对话里，可以判定B是已经结过婚的人。再例如，服务业里常有禁忌的用语如：

A-先听我说or A-是谁说or A-怎么知道or A-谁告诉你or A-有没有搞错or A-你弄错了or A-说重点or A-你必须or A-本来应该or A-这个部门很差劲or A-这个部门差劲or A-到底需要不需要or A-你不要跟我喊or A-你明白了吗or A-那您觉得呢or A-我说的很清楚了or A-刚才不是对你说了

这样的语义理解应用均不是 GLUE 里面的任务能够直接应用的，并且在 GLUE 里表现良好的神经网络架构也不能保证在真实应用的场景里达到产生业务价值的效果。

2018 年底，谷歌发布了一种神经网络架构 BERT，一种基于 Transformer 架构的多层叠加的神经网络，BERT 提出两种版本，基本版（BASE）和大型版（LARGE），参数如下：

BERTBASE: L=12, H=768, A=12, Total Parameters=110M
BERTLARGE: L=24, H=1024, A=16, Total Parameters=34

使用了 3.3Giga 的词汇作预训练，然后再按任务作微调训练，硬件使用了谷歌 TPU V2.0 的处理器，BERT 的基础版（BASE）需要 16 个 TPU 芯片，BERT 的 LARGE 版使用了 64 个 TPU 芯片，预训练需要 4 天。

AI 建模实际应用场景及效益

在 GLUE 的许多任务上均优于此前的神经网络架构（如上表所列）。BERT 在语音识别和图像识别突破后带来了语义理解的突破。此后在 BERT 的基础上，在语义理解的许多应用上都带来了突破。然而由于 BERT 和后续的神经网络都需要庞大的计算资源和时间，给私有化部署的应用带来高昂的成本，除非能够使用云端共享的 BERT 计算资源。由于数据保密的要求，许多应用的数据无法上传到云端，例如金融业的客户数据等。

如前所述，这样的科技还需要经过再创新才能应用在实际的商业场景里。普强在这个方面做了十年的科研投入，不断的将最新的科技应用在实际的商业场景上。

四、普强语音语义框架

当前人工智能算法均属在高维度的空间中寻找线性/非线性复合函数的最优值点，其最核心的架构设计实为设计此高维度空间里的数学复合函数，许多的复合函数/神经网络框架都在不同的任务中被验证有应用的效益，下面列举了几个重要的类别：

全联多层的神经网络：每层的神经元均与下一层的所有神经元相连，逻辑回归等算法均使用此种网络。
卷积神经网络（Convolutional Neural Networks, CNN）：是一类包含卷积计算且具有深度结构的前馈神经网络（Feedforward Neural Networks），是深度学习（deep learning）的代表算法之一。卷积神经网络具有表征学习（representation learning）能力，能够按其阶层结构对输入信息进行平移不变分类（shift-invariant classification），因此也被称为“平移不变人工神经网络（Shift-InvariantArtificial Neural Networks, SIANN）。卷积神经网络架构在视觉辨识里达到了极优的效果。
循环神经网络（Recurrent Neural Network, RNN）：是一类以序列（sequence）数据为输入，在序列的演进方向进行递归（recursion）且所有节点（循环单元）按链式连接的递归神经网络（recursive neural network）。循环神经网络的研究始于二十世纪 80-90 年代，并在二十一世纪初发展为深度学习（deep learning）算法之一，其中双向循环神经网络（Bidirectional RNN, Bi-RNN）和长短期记忆网络（LongShort-Term Memory networks，LSTM）是常见的的循环神经网络。循环神经网络具有记忆性、参数共享并且图灵完备（Turing completeness），因此在对序列的非线性特征进行学习时具有一定优势。循环神经网络在自然语言处理（Natural Language Processing, NLP），例如语音识别、语言建模、机器翻译等领域有应用，也被用于各类时间序列预报。引入了卷积神经网络（Convoutional Neural Network,CNN）构筑的循环神经网络可以处理包含序列输入的计算机视觉问题。
Transformer神经网络：抛弃了传统的 CNN 和 RNN，整个网络结构完全是由 Attention 机制组成。更准确地讲，Transformer 由且仅由 Self-Attenion 和 Feed Forward NeuralNetwork 组成。一个基于 Transformer 的可训练的神经网络可以通过堆叠 Transformer 的形式进行搭建，作者的实验是通过搭建编码器和解码器各6层，总共12层的 Encoder-Decoder，并在机器翻译中取得了 BLEU 值得新高。
CTC（Connectionis ttemporal classification）：传统的语音识别的声学模型训练，对于每一帧的数据，需要知道对应的 label 才能进行有效的训练，在训练数据之前需要做语音对齐的预处理。而语音对齐的过程本身就需要进行反复多次的迭代，来确保对齐更准确，这本身就是一个比较耗时的工作。与传统的声学模型训练相比，采用 CTC 作为损失函数的声学模型训练，是一种完全端到端的声学模型训练，不需要预先对数据做对齐，只需要一个输入序列和一个输出序列即可以训练。这样就不需要对数据对齐和一一标注，并且 CTC 直接输出序列预测的概率，不需要外部的后处理。

以上仅就目前人工智能应用领域里经常使用并产生实际应用效益的网络做了简介，当应用到各个实际场景里时，还有基于上述网络衍生的众多版本和彼此之间的结合版，不能一一详述。

深度学习里的神经网络架构及其参数和超参数均需按实际场景和数据的情况作调试优化，方能达到理想的效果以产生实际应用价值。然而实际的场景虽然都有相似之处，但也有诸多不同的细节，为能满足每一应用场景的应用效益要求，以过往往需要由资深的算法工程师做深度的调试，此种模式耗时且效率低，常常不能满足客户快速的迭代需求。

AI 建模实际应用场景及效益

大型人工智能科技公司提倡将大量的数据存储在它们的云计算平台上，并同时按采集到的海量数据调试一个能广泛应用的平台。此种商业模式，虽有可行性，但同时也面临着一些根本的挑战。例如如何能保证数据的安全，特别是金融行业和其它对数据保密要求高的行业，同时这些大型的人工智能公司现今也不断的扩张他们的业务领域，将数据提供给此类的云平台，也加速了他们的竞争力来切入不同的商业领域，这样的担忧也是使得这样的方法无法获得更多商业应用的数据，从而不能提供一个通用的应用人工智能系统。

据此普强提出发展一种可重复复用的机制，将这个机制灵活的应用到每一个客户业务场景上，当这个机制应用到特定场景上时，会按已成功的案例，做梳理业务逻辑并同时在客户内的私有云上采集数据，再用成功案例的深度学习神经网络，机器学习算法架构来训练、测试、验证模型，最终上线运行业务逻辑，提升业务价值及效益。这样的机制主要包含两项重要元素，方法论和计算技术框架：

方法论：对行业及业务场景整理出流程和规则，并按此流程和规则采集积累海量的数据。
计算技术框架：按实际应用场景，建立算法框架，框架是由各类已验证后的神经网络和机器学习算法构成的体系，对每一应用场景作全框架计算测试评估，研判出最优的神经网络架构和机器学习算法，并同时调试参数和配置。

普强在金融及相关领域，积累十年以上的人工智能行业落地经验，专注于垂直领域，归纳成功的案例、相关的业务流程规则和算法算力需求，建立起一套完整的机制。随着客户的业务需求变化和成功案例积累，不断的扩充加强优化此机制，作快速的迭代。

五、成功案例分享

A保险公司为名列世界500强的保险公司（在本文开头已有提及），普强将语义分析机制应用在A保险公司的电销业务里，项目一期应用在A保险公司两个主要的业务区：BJ市和TJ市。对大约250万的客户电销通话录音（约400万通录音）作落地实施，其中包括了下列的步骤：

业务梳理：与客户业务人员交流，以对客户的业务做深度的了解，与普强机制框架对接。
分析流程建立：分析客户业务，建立流程，优化流程。
客户特征筛选：基于普强的业务成功案例，使用大数据分析，抽取潜在具有购买意愿客户特征。
成交相关度计算：经由普强大数据分析框架计算客户特征与成交的相关度，排序客户特征的优先顺序。
模型建模/训练：普强计算技术框架对最优最先进的神经网络架构和机器学习算法，作架构和算法评估，测试不同架构和算法的效益优劣，及计算资源需求以及是否能达到客户的时效要求等工作，最终推荐最优的架构/算法。
测试：使用海量的数据不断的测试，并调优参数，达到准确率、召回率等测试标准的要求，并依照业务模式计算相对的业务效益。
验证：实际推送普强业务流程算法推荐的潜在客户，验证成交率。
上线：将最终验证通过的整体机制上线，进入实际业务运行。

与使用普强机制前业务情况对比的成效如下：