浅析基于人格特征的内部高风险用户识别方法

*本文作者：木千之，本文属 FreeBuf 原创奖励计划，未经许可禁止转载。

写在前面

自2013年斯诺登同学引爆“棱镜门”以来，内部威胁（Insider Threats）早已被熟知，并且随着信息化深入到各行各业关键业务流程，内部风险管控已经排上了甲方们安全管理部门优先处理事项的Top List。不断上涨的内部管控需求激励着学业界研发识别内部攻击用户的用户行为检测系统，然而由于行为异常检测的滞后性以及异常与攻击的非同一性，引入针对攻击者心理特征、攻击动机等主观维度的分析建模渐渐成为一种新趋势。

本文今天就向大家介绍一种基于人格特征的内部高风险用户识别方法，其中要点有两个：

(1) 本文介绍方法使用的个体人格特征主要包括主流的大五人格模型（Big-5 Personality Model）与刻画反社会倾向的黑暗三人格模型（Dark Triad Model）；

(2) 所谓内部高风险用户（Internal High Risk Users），更多指的是依据已有案例分析中得到的人格特征与攻击行为统计关联性，分析筛选出的未来极有可能实施攻击的内部用户，因为尚未实施攻击，因此称之为“风险”而非“恶意”。

距离之前内部威胁的相关文章已经过去了不少时日，如果对于内部威胁话题感兴趣的同仁可以移步：

内部威胁那些事儿： https://www.freebuf.com/news/topnews/104030.html

如果想对于内部攻击者表现出的人格特征分布上的统计关联性有兴趣，可以参考下述文章及所引文献：

针对潜在内部攻击者的心理侧写方法： https://www.freebuf.com/articles/neopoints/170784.html

一、内部攻击者的人格动力模型

基于美国卡耐基美隆大学（CMU）的内部威胁研究中心的官方数据，已有内部威胁案例中的攻击者表现出人格维度上的统计一致性，即如果从大五人格的角度来看，攻击行为显著与用户的高神经质、低尽责性与低宜人性密切相关。如以神经质特质为例，其刻画了个体自我情绪管理的能力以及体现负面兴趣的倾向，因此高神经质个体在现实工作生活中往往更容易紧张、自卑，并且容易产生消极悲观的情绪，自然地，处理压力的能力通常较弱；对于宜人性与尽责性则相反，低宜人性个体往往更容易与他人发生分歧或冲突，低尽责性个体自律性与道德性都较差，相对违反规定非法数据操作的心理门槛更低。

然而仅仅依靠上述大五人格模型并不能完整反映内部攻击者人格因素对行为的影响，比如无法刻画与攻击行为联系更紧密的反社会性强弱。因此可以引入黑暗三人格作为表征人格过程的新维度，即权能主义、自恋性以及精神病态，其中权能主义者往往表现出实用主义、精于算计的特质，且行事注重结果忽视道德；自恋性则经常以自我为中心，自以为是；精神变态者则表现为行为冲动、缺乏共情与责任感等。

经过大量真实案例的深入分析、梳理、比较，我们可以提出一个融合了上述两类人格模型的、表征内部攻击者心理动机过程的动力模型（如图1）：

mAriUfr.jpg!web

图1：内部攻击者的动机过程

简要来说，可以将大五人格中的神经质、尽责性与宜人性特质看作是个体对于恶意行为倾向的“免疫能力”，而黑暗人格则更侧重刻画个体自身对于恶意行为的“内在驱动力”，上述正反两个维度结合可以比较完整地刻画攻击者的心理变化过程。

图1中左侧起点为普通内部用户（Internal User），其先天具有大五人格与黑暗人格正反两个维度的行为影响因子，二者共同决定了用户在面对、经历日常生活工作中挫折、矛盾时的基本态度，若对于当前的工作或者所处企业/组织长期持有否定态度（Negative Attitude），则积累到一定程度就会产生实施恶意行为的倾向（Malicious Intent），最终驱动心理倾向转化为实际攻击行动。

有了图1中反映的攻击者心理过程模型，接下来需要考虑从就是如何将二次元模型“落地”到三次元。

二、如何从审计数据中获取用户人格特征？

1. 从语言入手

诸君可能认为这本不是个问题，因为我们入职甚至入学的时候都参加过心理测评啊，那些数据至今应该依旧保存在人事部门吧？大五人格与黑暗人格都有相应的心理问卷，做一下不就得到用户的人格分数数据了？

非也。

如果我们仔细想想，就会发现上述方法存在两个致命问题：(1) 心理测评需要花费额外的经济与人力成本，虽然人格特征相对稳定，其决定的个体处世的反应与思维方式也相对稳定，但并不是不可改变的，如国学张其成老爷子就谈到阳性阴性的性格是可以改变的（突然想到了当今时代女性的阳性刚健进取性格越来越多，反观男生的阴柔之气愈发浓郁了，跑偏了，赶紧回来~~），因此合理的方式应该定期进行员工的心理测评——这想想Boss也不会答应吧？(2) 大家可能都有过体会，答心理问卷时候往往选择不好不坏的选项，中庸项是最多的，因为我们都有保护隐藏自己的本能嘛！这就造成了其实心理测评的结果对于真正的高风险用户而言效度不大。

所以，最好的方法自然是随时随地透明地分析建模用户的人格特征啦！可是，有这样的方法么？

很幸运，前人已经为我们进行了尝试，比如从语言中分析情感就是一个好方法。语言是我们表达思想的重要媒介，自然反过来我们可以从语言中分析出个体的内心情感、想法等，这件有意义的工作由国外著名的语言查询与计数项目（LIWC）实现，其将常用语言分成几十个具体词类，并分别统计了不同词类与人格特征的统计关联性，借助LIWC，我们只需要获取用户语言关键词的词频，然后结合对应的统计关联系数即可间接计算。

对于黑暗人格而言，学业界的研究者们也分析了大五人格与黑暗人格的关联，并建立了其中的统计映射关系，因此，我们自然可以借由大五人格进一步刻画黑暗人格。

但是工作环境中用户的语言数据如何收集呢？最常见的莫过于1) 社交应用，如QQ等即时通讯；2）工作文档；3）邮件通讯。由于个人隐私保护的限制，一般较难获取用户的社交账号访问权限，因此QQ/微信/微博/抖音等分析数据一般较难获得；出于工作内容的保密性，一般工作文档也不允许第三方访问分析；因此似乎最可行的是获取用户的工作邮件（注意工作邮件一般不涉及隐私，不同于私人邮件）。而工作邮件内容审计对于现有审计系统而言并非不可能，只要政策允许，一般还是可以审计到工作邮件的文本数据的。

因此，从工作邮件的语言入手分析人格特征似乎是个不错的开始；然而需要强调的是，本文的方法针对是用户语言数据，而非特指邮件数据！

LIWC项目网址： http://liwc.wpengine.com/

中文LIWC项目（文心）： http://ccpl.psych.ac.cn/textmind/

2. 从语言到大五人格

我们先来刻画大五人格，由于我们关心的仅仅是大五人格的三个特质，即神经质、尽责性与宜人性，因此可以先不分析外倾性与开放性。

以神经质特质为例，其可以继续细分为六个子维度，即焦虑（Anxiety）、愤怒与敌意（Anger Hostility）、抑郁（Depression）、自我意识（Self-Consciousness）、冲动性（Impulsiveness）以及脆弱性（Vulnerability）。其中每个子维度又与特定的LIWC基本词类相关联，如对于焦虑子维度（图2）：

JfeqyyA.jpg!web

图2：焦虑子维度与LIWC基本词类的统计关联性

图2中表明，神经质特质的焦虑子维度与第一人称词类（1st person）正相关，而与第二人称词类(2nd person)负相关，括号内表示对应的相关系数。基于上述关联性，可以加权和的形式计算神经质特质的焦虑子维度分数：

VFNJNnJ.jpg!web

其中表示子维度分数，其结果等于与其关联的LIWC基本词类出现的词频与对应相关系数的加权和。按照类似方法，我们可以分别计算宜人性与尽责性的各自六个子维度特征的分数，最终可以得到18个子维度分数（每6个对应神经质、宜人性与尽责性）。最终选择的神经质、宜人性与尽责性对应的子维度为：

神经质特质：焦虑、愤怒与敌意、抑郁、自我意识、冲动性、脆弱性

宜人性：信任、坦诚、利他、顺从、谦逊、同理心

尽责性：能力、条理性、责任感、追求成就、自律、审慎

3. 从语言到黑暗人格

我们主要依据上步中的大五人格中子维度分数集合来计算用户的黑暗人格。其基本步骤为：

按照“从语言到大五人格”小节中的方法，依次计算大五人格模型中全部五种基本特质对应的30个子维度分数；

依据每种基本特质与对应子维度的归属关系，以6个一组的形式求和计算五种基本特质分数；

依据黑暗人格与大五人格的统计相关性，以加权和的形式计算三种黑暗人格分数特征。

可能初看有些不明所以，我们以自恋人格为例，其与大五人格的统计相关性为：

自恋人格：外倾性（0.44）、宜人性（-0.32）、尽责性（-0.07）、神经质（-0.09）以及开放性（0.34）

因此我们只需要计算出外倾性等五种基本特质分数然后加权即可，而每种基本特质分数则由公式（1）来计算。

ryAZzyb.jpg!web

接下来依葫芦画瓢，即可计算出权能主义与精神病态的特征分数。值得注意的是，最终构建的人格特征中分为大五人格与黑暗人格正反两个部分，且大五人格部分不需考虑开放性与外倾性：

第一部分：有大五人格的神经质、宜人性与尽责性对应的每组6个（共3组）总共18个子维度分数构成；

第二部分：基于大五人格五类特质的加权和，计算得到的三个黑暗人格特征（引入了第一部分没有的外倾性与开放性因素）。

最后我们使用的个体人格特征结构为（图3，21维度）：

vyuQzyE.jpg!web

图3：21维度人格特征

三、小试牛刀

1. 数据集

截止到当前，针对内部攻击者的心理动力模型以及对应的21维度特征构建方法都已准备妥当，唯一欠缺的就是数据实验验证。智能安全领域数据集最为重要，因为一般真实场景的数据往往因涉及各种不适宜公开的信息而被隐藏保护。出于同样的考虑，作为方法的验证，本文也只选择公开数据集证明方法的有效性。

本文所使用数据来自于公开已久的美国安然公司邮件数据（ http://www.cs.cmu.edu/~enron/ ），安然公司(Enron Corporation)曾是世界上最大的综合性天然气和电力公司之一，在北美地区是头号天然气和电力批发销售商。然而真正使安然公司在全世界声名大噪的，却是这个拥有上千亿资产的公司2002年在几周内破产，持续多年精心策划、乃至制度化系统化的财务造假丑闻。安然欧洲分公司于2001年11月30日申请破产，美国本部于2日后同样申请破产保护。但在其破产前的资产规模为498亿美元，并有312亿的沉重债务。过度膨胀的快速发展使其无法应对经济环境的逆转，而导致无法经营运作状况的恶化，以破产结束企业。从那时起，“安然”已经成为公司欺诈以及堕落的象征[摘自“百度百科”]。

作为调查需要，FBI公开了该企业的部分内部工作邮件数据，我们也因而可以在上述邮件数据中验证本文的检测方法。

2. 补充数据

由于安然邮件数据中的违规行为多涉及欺诈类，即篡改财务数据以隐瞒真实状况等，并不能完整反映信息窃取、系统破坏等其他重要内部攻击行为，因此我们继续补充了几个臭名昭著的案例作为补充：

Edward Snowden：选择了NSA发布的两封泄密嫌疑的邮件；
Aldrich Ames：潜伏在CIA中的著名苏联间谍，选择了其手写邮件内容；
Ted Kaczynski：纽约炸弹客，天才反社会人格，选取了其研究著作内容；
Rod Blagojevich：受贿贪污的美国前州长，选取了其演讲稿内容。

最终将上述四个典型案例的语言内容数据与安然邮件数据集混合，并采用五折交叉验证进行检验。

3. 初步实验结果

首先以直观的准确率、漏报率与误报率作为检验指标，我们可以发现其漏报结果在10%之下，其中数据数目较少，而数据较为丰富，显然丰富的数据刻画能力更强，因而后者数据集上的检验结果要好于前者。

JfmQjuR.jpg!web

进一步，我们想检验下不同特征对于高风险用户的区分力度，于是选择了自律与脆弱性两个子维度来进行特征绘图，发现追加的四个真实攻击者案例均与正常用户具有一定的区分度：

J3yIv2B.jpg!web

如果针对所有用户采用随机森林方法分析21维度特征的重要性，可以发现对他人的信任感（Trust）、同情心（Sympathy）以及自恋性（Narcissism）位居重要因素。而道德感（Morality）、自律性（Self-discipline）以及焦虑（Anxiety）也位居，而黑暗人格三要素全部位于中，应引起风控部门足够的重视。

RVBvee7.jpg!web

四、反思

本文介绍了一种基于用户大五人格与黑暗人格正反两方面人格特征的高风险用户检测方法，该方法的理论假设是一般企业环境中用户的人格特征应屈从于近似正态分布，因此应当存在针对大量普通用户建模以检测出“异常”高风险用户的可能性。欣慰的是初步的实验验证了上述理论的合理性与方法的可行性，为内部威胁检测打开了主观建模分析的新维度，使得未来将用户的攻击动机分析（可能性风险建模）与异常行为检测（攻击行为及时发现）结合起来，建立一套更加完备的内部风险管控系统。

然而，我们不得不指出本文介绍的方法最大的局限来自于数据集的有效性与普适性：

1. 工作环境千差万别，安然邮件数据集无法代表所有现实的邮件数据特征；
2. 受限于内部安全策略，内审系统一般只记录邮件端信息（收发者、主题、附件等），而较少审计工作邮件内容；
3. 工作邮件中的用语比较书面，反映用户情感与思想有限，最好的应用莫过于社交账户活动信息。

然而，一旦涉及到用户的社交账户或私人邮件数据，就需考虑一系列的隐私保护法律法规，具有相当的法律风险。然而，从捕捉刻画员工思想动态的角度出发，如果能够渐进的增加获取的数据或许是可行的方案，即：

首先取得Boss支持，制定针对工作邮件内容的审计（当然对员工得透明）；

利用爬虫方法获取员工的微博、微信、博客等账号，或者要求入职时填入，然后去爬取公开的社交状态（如说说、微博、图片、评论等），从而获取比较直观反映员工心理动态的一手数据（当然还是得对员工透明）。

目前，笔者正在跟Boss申请工作邮件的审计，申请书已经奉上，只是不知结果。。。忐忑。。

最后，囿于实验数据的局限和自身实力，本文介绍的方法如有不足，还请的同仁们不吝赐教~

五、参考资料

Paulhus D L , Williams K M . The Dark Triad of personality: Narcissism, Machiavellianism, and psychopathy[J]. Journal of Research inPersonality, 2002, 36(6):556-563.
Maasberg M , Warren J , Beebe N L . The Dark Side of the Insider: Detecting the Insider Threat Through Examination of Dark Triad Personality Traits[C]// 48th Hawaii International Conference on System Sciences. IEEE Computer Society, 2015

*本文作者：木千之，本文属 FreeBuf 原创奖励计划，未经许可禁止转载。

写在前面

一、内部攻击者的人格动力模型

二、如何从审计数据中获取用户人格特征？

1. 从语言入手

2. 从语言到大五人格

3. 从语言到黑暗人格

三、小试牛刀

1. 数据集

2. 补充数据

3. 初步实验结果

四、反思

五、参考资料

Recommend

云舒：欺骗防御未来已来

Monitoring nginx with Prometheus and Grafana

小贴士：如何在线关闭一个tcp socket连接

Book Memo: “Artificial Intelligence in IoT”

结构型模式：适配器模式原荐

Evaluating RIO

Miniupnpc Miniwget缓冲区溢出漏洞再分析

一道算法题（回溯+剪枝）

个性化信息流做错了什么？

数据库原理 - 序列6 - 事务是如何实现的？ - 从MVCC到各种锁

About Joyk