本文由B端技术中心分享，原题“从0到1:哔哩哔哩智能客服系统的设计与实现”，本文有修订和改动。

本文将要分享的是哔哩哔哩从0到1自研智能客服IM系统的技术实践过程，包括整体架构设计和主要核心功能的技术实现思路等，希望带给你启发。

* 推荐阅读：《得物从0到1自研客服IM系统的技术实践之路》。

2、本文作者

小雄：哔哩哔哩客服业务技术负责人；
乐文：哔哩哔哩资深开发工程师；
镇宇：哔哩哔哩高级开发工程师；
四百块：哔哩哔哩高级开发工程师；
JasonQian：哔哩哔哩高级开发工程师；
宇琪：哔哩哔哩资深开发工程师。

3、技术背景

3.1为什么要做新系统

B站过去的客服系统是通过外部采购获得的，已经使用了几年。

然而，这个外购的系统存在一系列问题：

1）稳定性低，缺乏良好的拓展性和伸缩性，经常出现bug，难以应对突发的流量高峰；
2）与B站产品体系无法打通，难以根据业务需求进行定制化；
3）由于系统逻辑老旧，稳定性不佳，导致效率低下，已经不再能满足进一步提升客服效率的要求。

虽然曾考虑过采购新的客服系统，但也面临一些问题。

比如：

1）昂贵的价格，特别是在当前降本增效的大背景下，这是一个重要因素；
2）更重要的是，该系统仍然无法与内部系统进行良好的整合，无法支持业务定制化。

因此，B站决定开展新客服系统的自研工作。

3.2怎么做新系统

在面对如何打造一个全新的客服系统的挑战时，我们首先开始了调研、访谈和体验。

1）业内调研

我们访问了一些在客服系统领域表现优秀的知名公司，从业务和技术的角度进行了深入调研。

总结下来，目前客服系统比较重视以下三个关键指标：

1）智能问答拦截率（也对应人工处理率）；
2）用户满意度；
3）平均处理时长：主要指客服人员处理一次会话所需的平均时长。

对于一个客服系统来说，良好的智能问答功能至关重要：

1）提供7*24小时在线服务，无需排队等候，确保用户在任何时间都能够得到及时响应；
2）对于用户频繁问到的问题，可以快速回答，提高效率，降低成本，从而实现更好的客户体验和更高效的资源利用；
3）能够快速解答大部分简单问题，同时让复杂问题有机会被人工高效解决，从而提升整体解决问题的效率和效果。

这些核心的指标为后续的研发指明了方向。

2）内部访谈和体验

我们对负责客服流程运营的团队以及各项功能团队（质检、舆情、机器人、工单、二线、数据等）和一线客服同学进行了访谈，同时也全面体验了现有的系统。

特别是从各个团队的访谈中，我们获得了许多细节性的宝贵经验和一系列建议，这对我们如何具体做好产品和之后推动系统的落地起到了巨大的作用。这些经验和建议将在工作台一节中详细展示，在这里就不再展开。

3.3新系统落地效果如何

在核心指标上，新客服系统都取得了显著的提升：

1）智能问答拦截率：与原有系统相比，新系统的智能问答拦截率有了巨大的提升，达到了业内先进水平；
2）用户满意度：也有显著的提升，表明用户对新系统的满意度较高；
3）平均处理时长：尽管新系统需要适应的过程，但平均处理时长仍有减少，这一点非常不易。

（保密考虑，不暴露具体数字）

此外，新客服系统的落地还提高了客服工作效率，实现了与内部业务系统的无缝对接，优化了客服功能工具，验证了自主研发的能力。

接下来，我们将从技术角度，整体和分细节方面对新客服系统进行介绍。

4、客服系统整体架构和核心业务流程

4.1概述

客服系统主要功能：

1）C端入口：进入客服的入口；
2）智能问答：通过机器人与用户进行会话，解决用户的问题；
3）客服坐席调度：给用户选择合适的客服人员同时兼顾客服人员的工作平衡；
4）客服工作台：为客服人员提供便捷的工作界面和工具；
5）知识库：汇集各类常见问题和解决方案，供客服使用；
6）IM聊天基础能力：负责构建用户和客服之间的聊天，进行对话操作（发送文字、图片、视频）等；
7）客服工单：用于跟踪和解决用户提出的问题和需求；
8）权限管理：确保客服系统数据和功能的安全性；

还有一些其他的功能如：质检系统，舆情系统，客服工时系统，监控系统等等。

4.2总体功能架构

在上述描述中，我们可以认识到客服系统具有一定的复杂性。

为了帮助大家从宏观上理解客服系统，以下列出了整体功能的架构图：

4.3核心流程

同时，为了帮助大家进一步了解，这里列出了客服系统的核心流程。

5、核心功能设计和实现1：用户入口

首先简单看一下哔哩哔哩客服的用户入口。

当用户进入聊天框，首先会进入智能问答环节，如果智能问答无法帮助用户解决问题，用户可以选择进一步联系人工客服来解决问题。

6、核心功能设计和实现2：智能问答

6.1概述

在客服的业务场景中，智能问答是一个非常重要的需求。

它具备了人工不可比拟的优势：

1）提供7*24小时的在线服务；
2）高峰时期无需排队等候；
3）用户频繁问到的问题，可以快速回答；
4）大部分简单问题得以快速自助解决。

从而从整体上提高效率，降低成本，实现更好的客户体验和更高效的资源利用。

下面，我们将简要介绍哔哩哔哩客服系统的智能问答。

6.2智能问答系统概览

目前，哔哩哔哩客服系统在执行智能问答任务时，会根据匹配度的不同提供两种回答方式。

分别是：

1）当匹配度较高时，系统会直接给出答案；
2）当匹配度只是中等时，系统则会提供一个“您想咨询的问题可能是”的列表。

这个策略的目的是为了提供更准确、更有用的回答，以帮助用户更快地找到他们需要的信息。

6.3机器人问答技术调研

机器人问答技术在实现上主要分为两种类型：检索式和生成式。

1）检索式：检索式模型通常利用神经网络技术，将大量的预训练语料数据输入到模型中进行训练。在完成训练后，模型能够对新的输入进行分类、匹配和回答问题。这种方案的实现主要依赖于大规模的预训练数据和高效的检索算法。

2）生成式：另一种类型的是生成式模型，它主要采用深度学习技术以及最新的大语言模型，通过学习大量数据来生成文本。这种方案通常使用循环神经网络（RNN）或变换器（Transformer）等结构，能够处理序列数据并生成新的序列。与检索式模型不同，生成式模型在训练过程中会直接生成目标文本，而不是通过检索匹配。

总的来说，检索式和生成式两种模型各有特点，各有优势，在机器人问答系统中都有应用。具体选择哪种模型，往往需要根据具体的应用场景和需求来决定。

方案对比：

在电商客服场景下，回答用户问题的准确性至关重要，宁可选择不回答也不能够回答错误。相比之下，生成式答案会受到多种因素的影响，导致结果不可控。而检索式答案来源于知识库，可以提供更加准确的问题解答。虽然检索式在处理一些长尾问题或者冷门领域的问题时表现不佳，但是可以通过人工干预来丰富知识库进行优化。综合考虑到这些因素，最终选择了检索式实现。

6.4向量搜索和基于Faiss实现的智能问答

1）向量搜索基本原理：

给定一个向量集合：

和一个待查询的向量：

从 N 个向量里面找到距离 X 某种距离（比如 L2 距离）最近的 K个向量。

其应用包括：

1）从语料库里面找到距离某个语句最相近的一句话；
2）从图片库里面找到距离某张图片最类似的一张图片；
3）还能查找别的，比如视频、音频、动图、基因序列、搜索条目等。

这些东西（图片、词语、句子、视频等）都可以用向量表示出来，如下图：

这个事情看起来很简单，但是当我们的数据库变得特别大时，这件事情就变得比较困难了。因此这里就专门来研究如何做这样的向量搜索。

2）Faiss简介：

Faiss（Facebook AI Similarity Search）是 Facebook AI 开发的用于高效相似性搜索和向量聚类的库。

Faiss 总体使用过程可以分为三步：

1）构建训练数据（以矩阵形式表达）；
2）挑选合适的 Index （Faiss 的核心部件），将训练数据 add 进 Index 中；
3）Search，也就是搜索，得到最后结果。

详细解释，即为：首先根据原始向量构建一个索引文件，再根据索引文件进行查询。初次查询前需要进行train和add过程，后续若要进行索引的添加可以再次使用add添加索引。

如下图所示：

3）基于Faiss实现的智能问答：

在实现检索式的过程中，主要任务是找到与用户提问语句最相似的问法，从而获取对应的答案。

这个过程包括以下步骤：

1）数据准备：建立知识库，包含标准问、相似问以及对应的答案。每个标准问有多个相似问，并对应唯一的答案：
2）文本向量化：使用BERT模型将问题和相似问转化为向量表示。BERT模型采用预训练方式，能够将输入的文本转化为对应的向量表示。公司已有基于社区数据训练的bert-embedding服务，体验效果满足需求，因此使用该服务进行文本向量化；
3）相似度计算：使用Faiss库进行相似度计算。Faiss库是一种针对聚类和相似性搜索的工具，为稠密向量提供高效相似度搜索和聚类，支持十亿级别向量的搜索，是目前最为成熟的近似近邻搜索库；
4）搜索匹配：将用户问题向量传入Faiss库中，使用相似度计算方法对问题进行匹配，找到最相似的TopN问题向量(或者说相似问)；
5）答案选取：根据相似度结果高低，直接给出问题对应的答案或者“您想咨询的问题可能是”列表。如果相似度很低，则会转接人工。

基于Faiss的智能问答如下图所示：

4）Faiss索引选择实践：

Faiss提供的索引很多，需要根据数据集的大小和机器的性能来选取合适的索引。

基于准确查找：

仅有IndexFlatL2索引可以提供确切的结果，但是性能上会比较差，仅适用数据量比较少的情况，通常为其他索引准确度提供基准。

基于内存限制：

1）由于所有的Faiss索引都将向量存储在内存中，如果内存是限制因素，那么就需要将准确度和性能进行折衷：
2）不关心内存则使用"HNSWx"，通过"efSearch"参数平衡准确度和性能，该参数越大越准确，同时性能越差；
3）有一点关心内存则使用"..,Flat"，"..."的含义是聚类，聚类后，"Flat"的含义是不压缩，存储大小与原始数据集相同，通过"nprobe"参数平衡准确度和性能；
4）很关心内存则使用"PCARx,...,SQ8"，PCARx指将维度降x，SQ8指将每8bit向量压缩到1bit；
5）非常关心内存则使用"OPQx_y,...,PQx"，PQx使用输出x-byte的量化器压缩向量。x通常<= 64，对于较大的代码，SQ通常是准确和快速的。OPQ是向量的线性转换，使它们更容易压缩。

基于数据集限制：

1）如果低于1M个向量： "...,IVFx,..."，直接倒排索引，x范围在 4*sqrt(N)~16*sqrt(N)之间，N是数据集大小，x是k-means聚类后的数量；
2）如果1M - 10M："...,IVF65536_HNSW32,..."，结合IVF和HNSW，用HNSW进行聚类；
3）如果10M - 100M： "...,IVF262144_HNSW32,..."；
4）如果100M - 1B： "...,IVF1048576_HNSW32,..."。

由于我们数据集在10M以内，最终选取了"IVF{IVFK}_HNSW32,Flat"，如果小于10M，IVFK根据依据4*sqrt(N)~16*sqrt(N)动态算，如果大于10M，则IVFK为65536。

部分代码如下：

iflen(x) < 1000000:
ivfK = findIVFK(len(x))
else:
ivfK = 65536
factory_str = f'IVF{ivfK}_HNSW32,Flat'

def findIVFK(N: int):
    sqrtN = math.sqrt(N)
    print(sqrtN, 4 * sqrtN, 16 * sqrtN)
    while True:
        if4 * sqrtN <= i <= 16 * sqrtN and N // 256 <= i <= N // 30:
            returni
        ifi > 4096:
            return512

7、核心功能设计和实现3：客服坐席调度

7.1什么是客服坐席调度

客服坐席调度主要涉及为用户提供选择人工客服的一系列调度策略和逻辑。

通过这些策略和逻辑，用户可以快速地联系到合适的人工客服来处理他们的问题，从而获得更及时和有效的帮助。

调度策略可以包括根据用户的信息、问题类型、服务需求等因素来分配客服坐席，以及根据坐席的服务质量和服务水平来进行评估和调整。

通过合理的调度策略和逻辑，可以提高用户满意度和解决效率，从而提升整个客户服务的品质和用户体验。

大致可以通过以下流程图说明：

坐席调度策略在客户服务中扮演着关键角色。

以下是可以看到的几种常见策略及其优势。

1）均衡分配策略：这种策略将用户请求平均分配给各个坐席，从而平衡工作负荷，提高整体服务效率。它的优点在于保证了所有坐席的工作量公平分配，防止了某些坐席过度劳累，也防止了某些坐席空闲的情况。

2）熟客优先策略：根据用户的历史服务记录和需求，将用户优先分配给曾经提供过优质服务的坐席。这种策略的优点在于提高了用户的服务体验，因为熟客通常能够得到更快速、更准确的服务。

3）上次服务优先策略：将用户分配给上一次为其提供服务的坐席，以提高用户满意度和连续服务效率。这种策略的优点在于可以维持用户对特定坐席的信任，有利于提供持续、一致的服务。

4）指定分配策略：根据特定条件或需求，将用户请求分配给指定的坐席。这种策略的优点在于可以满足某些特殊需求，或者处理复杂问题。

在进行了深入研究后，我们发现均衡分配策略是业内使用最广泛和最常用的策略，也被广泛应用于各种客户服务系统。

这是因为均衡分配策略可以确保所有坐席的工作量公平分配，防止过度劳累，防止坐席空闲，从而提高整体服务效率。

同时，我们也发现，熟客优先策略、上次服务优先策略和指定分配策略都有其特定的适用场景，可以在需要的时候作为均衡分配策略的补充。

因此，我们的选择是采用均衡分配策略作为基础的坐席调度策略，同时根据特定情况灵活运用其他策略。

7.2均衡分配

在介绍均衡分配前，有几个名词需要提前解释一下。

1）饱和度：客服可以服务的最大用户数，在客服被邀请进入系统时会被设置。

2）均衡分配：本系统会在不超过饱和度的情况下，客服均衡获取用户分配。

7.3如何实现均衡分配

以下是我们客服系统中均衡分配的实现逻辑。

注意：分配是以技能组为单位进行分配。假设一个技能组有两个客服，A客服的饱和度为5，B客服的饱和度为10。

具体是：

1）如果A客服当前服务的用户数少于B客服当前服务的用户数，并且都低于各自的饱和度，那么如果有用户进线，系统会优先分配给A客服；
2）如果A客服和B客服当前服务的用户数相等，并且都低于各自的饱和度，那么如果有用户进线，系统会随机均衡分配给A或B客服；
3）如果A客服已经达到了自己的饱和度，那么如果有用户进线，A客服将不会被分配到该用户进线，该用户将被分配给还没有达到饱和度的客服，并根据上述1和2的原则进行分配；
4）如果A客服和B客服都已经达到了各自的饱和度，那么系统将进入排队状态。

7.4排队

这里可以用Redis的Zset数据结构，可以方便的根据用户排队时间进行先后次序排队。

具体是：

1）ZADD：用于添加元素，Key使用技能组id，每个技能组id关联一个有序集，有序集Member是用户id，Score是用户进入排队的时间戳，这里可以用于添加排队的用户；
2）ZRANK：返回有序集中成员的排名，可用于展示当前排名；
3）ZREM：移除有序集中的一个或多个成员，可用于退出排队；
4）ZRANGE：返回有序集中指定区间内的成员，可用于客服工作台会话邀请场景；
5）ZPOPMIN：返回最低得分的成员，也就是最早排队的成员，可以用于自动进线场景；
6）ZCOUNT：返回计算有序集合中指定分数区间的成员数量，可用于计算排队长度；
7）ZSCORE：返回有序集中，成员的分数值，可用于查看用户排队时间。