机器学习与金融风险管理

uyiIjyU.png!web

金融风险与机器学习——想写这个专题很久了，一直没有动笔的意愿。一方面是其中涉及的概念、模型、算法的知识体系太过庞大，每一个领域都可以深入研究，泛泛而谈并无实在意义；二是范围太大造成无从着手：是侧重金融风险概念还是侧重建模？是偏算法还是偏数理统计？

金融风险管理体系之庞大，其中每一个领域都有无数的专题研究，而每一个专题研究又都可以通过不同的机器学习算法来建构和训练模型。最终还是决定花点时间写写自己对于机器学习在金融风险管理领域应用的理解。文章不谈定量，只做定性分析。结合金融风险管理上的知识体系和对应的机器学习算法，算做一个引子，也可作为参考索引，也可作为未来风险计量的研究提纲。

文中涉及金融风险计量、机器学习和数理统计等方面的概念和术语请参考附录中的文献资料。尤其是《An Introduction to Analysis of Financial Data with R》，芝加哥大学Booth商学院的MBA教材，建议各位金融科技业的MBA校友们人手一本多读几遍。看透了这本书，金融数据分析就不在话下了(中文版名字是《金融数据分析导论》，对高等数学有一定要求)。

FinTech大数据应用

金融领域的数据应用，从金融机构的角度通俗的讲，我认为主要体现在两个大的维度：

赚钱。包括不限于投资分析、资产收益率、债券收益与价格、获客分析、精准营销、用户画像、促销优惠、流失防范、客户挽留...
省钱。如：产品定价、合格投资人、KYC、风险定价、金融风险管理、反欺诈与反洗钱、运营优化...

QFzQzuR.png!web

上图是我做了一个金融科技(FinTech)领域主要的大数据应用视图，其中横轴为应用价值周期，表示该应用的价值体现速度的快慢；纵轴为应用热度，表示该应用目前所处的炒作周期；象限中圆圈的大小表示应用规模，表示该应用目前参与方的多少和应用的数量。这张图可以定性的看出当前FinTech领域的大数据应用概况，以及各应用所出的生命周期位置。

上述两个维度与金融产品的两大核心属性——客户服务和风险管理有机的结合起来，覆盖金融行业前、中、后端。站在金融企业的角度，赚钱的含义是通过理解客户、提升客户服务，为企业带来更多的经济收益；省钱的含义则是优化运营，降低风险，抵御企业面临的预期和非预期损失。而机器学习，可以作为系统化实现金融数据统计分析、利用数据研究金融行为的方法论，实现金融企业的数据价值提升。

根据巴塞尔协议III的要求，金融风险分为市场风险、信用风险、操作风险、流动性风险、声誉和战略风险。在风险计量的层面，这篇文章主要根据巴塞尔协议的分类方法，重点在市场风险、信用风险(包括反欺诈/反洗钱..)、操作风险、流动性风险(融资风险)上方面阐述风险概念、主要的风险计量方法和机器学习算法。由于文中侧重点在于计量方法和机器学习算法介绍，对于风险的概念不做详细的论述。

市场风险

概念市场风险是指金融机构在金融市场的交易头寸由于市场价格因素的变动，而可能遭受的收益或者损失。若狭义一点讲，就是交易头寸由于市场价格因素的不利变动而带来的损失。注意这一损失应指代预期和非预期损失(这里不同的监管要求下有不同的定义)。

传统市场风险的计量方法有希腊字母法(像针对特定期权的Delta, Gamma, Rho和Theta值)，以及一些价格敏感度的指标值(如久期、凸性、波动率指标等)。随着市场中资产结构变化，传统风险量化的方法逐渐的不足以适应市场风险计量的要求，一是无法量化资产组合风险，二是没有办法给出一定数量的损失概率。于是在这种情况下，风险价值VaR就诞生了，其含义为(请记住这个公式)： Prob(ΔP > VaR)= 1 - a ΔP是投资组合在持有期内的损失，VaR是置信水平a下的风险价值。这个公式的含义就是：在某一个交易周期中，有a概率的把握，未来一天该资产组合损失不超过VaR的值。

计量方法传统市场风险计量方法如专家调查法、统计法、模糊识别法逐渐在DT时代显得捉襟见肘。人为判断增加了诸多主观的决定性因素，渐渐成为辅助性的配合手段。在计量市场风险VaR方法主要有历史模拟法和模型法(方差-协方差法)： 历史模拟法 ：即以历史数据为依据预测将来，通常按照不同情景来判断未来某一天的数据变化比率； 模型法 ：对市场变量的联合分布做出一定假设，采用历史数据来估计模型中参数。可以看出上述两种方法均存在一定的假设：历史模拟法是通过历史对未来的一种推导，假设过去几年数据得出市场变量的概率分布，但这种方法的致命缺陷是市场变化并非静态，尤其在当前中国市场环境，在利率市场化并不完善的情况之下，市场波动率有时很高有时很低，更不要提有些人为方面的因素存在。所以这种方法只能作为评估市场风险VaR的参考。

而模型法多数假设市场标的变量服从多元正态分布，这一前提基本不符合实际情况，得出的VaR会很不准确。现在在利用蒙特卡洛方法构建模型的时候，金融工程领域也在探索利用多元t—分布甚至服从任意分布的方式进行模拟计量组合的VaR值。

机器学习应用结合上述市场风险的计量方法，目前机器学习在此领域的应用场景主要为识别市场风险、交易账户风险和利率风险： 1、识别市场风险

聚类分析(Clustering)：利用样本数据进行无监督学习的分类方法，对于相同或者相似属性的风险具有良好的适应性。聚类是机器学习最重要的一个算法体系，在市场风险中主要用到的还是层级聚类和神经网络聚类。
神经网络(Neural Networks)：神经网络是自有分布的机器学习算法，对于当变量从未知分布中取出且协方差结构不相等时，神经网络可以提供良好的分类属性。这一部分可以作为重点的研究专题来探索。

2、交易账户风险

多元线性回归(Multiple Linear Regression)：如上所述，历史模拟法在既有假设的情况下可以作为对市场风险VaR的计量提供一定的参考左右。但由于其自身的先天缺陷，随着置信度的提高，标准误差也变得很大，所以现在主流利用历史模拟法构建分析模型的时候，多数加入“权重”和“波动率”的条件。
“加权法”即对于最近观测值增加更高的权重，对于历史久远的数据增加较小的权重，这样可以在抽样数量较大的情况下，利用机器学习的多元线性回归技术可以不断的有监督学习数据，提高不同情景下对于VaR计量的准确度；而“波动率法”只是在计量VaR时增加了更新的波动率，涉及到GARCH模型与历史模拟法并用。
蒙特卡洛模拟：一般为实现模型法的主要模拟方法。主要通过利用当前市场变量对交易组合进行定价，从Δx服从的多元正态分布中抽样，计算交易日末的市场变量，然后利用此计算出的市场变量对交易组合定价。最新的定价减去最初的定价，形成ΔP的一个新抽样。可以看出蒙特卡洛模拟法构建模型其实是利用迭代方法来拟合多元线性回归的结果，其本质用到的算法仍是机器学习中的回归。蒙特卡洛模拟是现在市场风险VaR计量中的最常见方法，迭代需要花费较长的时间，在大数据环境下可以利用分布式技术，每一个结点形成中间结果然后汇总得到最终结果，提高交易组合定价的迭代效率。

信用风险

概念信用风险是数据科学中利用大数据最多、最广泛、最深入的一个领域，因为涉及到信用风险就和用户、对手方有很大的关联，可利用从结构化到非结构化海量的第三方征信数据、个人基本数据、企业财报和舆情数据、交易信息记录、社交网络日志等等。DT时代扩充了数据使用的范围和数据分析的思路，加入了多种大数据管理、分析的技术，提升了利用数据提高商业洞察的效率。若提到金融风险管理的四大领域，信用风险管理无疑是大数据和机器学习算法的最佳用武之地。

而在应用的领域，信用评级、反洗钱、反欺诈、反骗保、KYC、客户风险等级划分、征信...都是传统信用风险管理的范畴。在互联网时代又引入了客户风险视图、消费金融评级、借贷与合规投资人分析等，通过电商、社保、税收、房产、日常消费、社交网络等等各种渠道收集个人数据，提供愈加全面的个人信用分析报告。

计量方法国际上比较流行的信用风险度量模型有风险矩阵模型、保险精算、简化与混合模型等等。金融机构也多采用5C、5P、5W分析法对客户做信用风险分析，其实本质上都是对某一要素进行评分，使信用的定性信息数量化。

从上述分析看出，对于金融信用风险管理，应从用户和公司两个角度来看待。用户一般针对toC业务，如互联网理财、消费信贷、个人投资管理等；公司一般针对toB业务，如融资筹资、租赁、对公业务等等。这两类信用风险管理通常有完全不同的计量方法，涉及到的数据和算法模型等也有显著差异：

toB：无论是穆迪、惠誉还是标准普尔，提供的评级和信用报告都是比较主流的信用分析体系和方法。而在计量信用风险假制度的模型中，一般会使用信用评级迁移矩阵(rating transition matrices)，表明公司信用等级从一个级别迁移到另一个级别的概率，主要用于对公司的信用评级。toB信用风险模型还有Credit Risk和CreditMetrics等建模方法，主要估算违约损失概率，对于较长展望期的损失分布类似。
toC：FICO、央行征信、第三方征信机构(如芝麻信用、前海征信这类互联网征信)则是对于个人信用评级的主要机构。对于大数据、机器学习的应用领域也多集中在个人信用评级方面。

当然信用风险评估完全依赖传统风控模型将会产生另外一个风险，就是模型自身学习能力和数据实效性。好的风控模型需要具有自我学习能力，可以依据输入数据来修正模型，另外模型的抗干扰能力也需要较强，避免大量噪声数据干扰计算结果。具有自我学习能力的模型可以适应外部多种因素的变化，同时也可以自身迭代提高，抵抗外界噪音干扰。

机器学习应用

逻辑回归(Logistic Regression)：逻辑回归模型是主要的反欺诈、反洗钱和客户风险等级划分的机器学习算法，针对此类业务场景是最常见的方法。逻辑回归与多元线性回归差不多，其实就是线性回归的基础上套用一个逻辑函数，最大的区别是因变量不同。多元线性回归的因变量服从连续分布，而逻辑回归的因变量服从二项分布。通过hypothesis构造损失函数，可以寻找到欺诈、洗钱、骗保等危险因素的分类。
随机森林(Random Forests)：随机森林是决策树(Decision Tree)组织起来的，在每一个结点构建决策树，效率较逻辑回归更高，不需要线性条件建设。相比于神经网络，由于采用了二分数据法，计算量较小，也尤其适合分布式的大数据环境。
神经网络(Neural Networks)：神经网络建立的交易反欺诈、反洗钱等高阶模型比规则集、线性模型侦测率更高。高阶模型一般神经网络模型，经典的是BP算法。我画了一个典型的神经网络模型的示意图，其特点为多层结构，包括输入层、隐含层及输出层。神经网络的问题是计算量较大，对模型需要多次训练。

fUZJn2f.png!web

操作风险

概念操作风险是金融机构因人员失误、外部事件和内控流程上的不利遭受的损失。国际上包含了内部与外部欺诈、雇员活动和执行交割中的操作性问题。操作风险的管理框架还是在策略、政策、组织、运营和企业文化角度来约束行为、减少损失率和提升管理意识。操作风险三大管理工具：风险控制与自我评估(RCSA)、损失数据收集(LDC)和关键风险指标(KRI)已经在金融业已经形成了体系化的框架，在此不做论述。需要说明的是在多数金融机构在操作风险损失数据库上的建设不完善，损失数据难以形成标准化和规模化。

计量方法操作风险计量在巴塞尔体系下主要使用指标法、标准法和高级计量法(AMA)。涉及到数据科学应用的部分主要为高级计量法，包括内部计量法IMA、损失分布法LDA。其中，两类的损失分布对操作风险计量有很大的意义：损失频率分布和损失程度分布。在损失频率分布上，可以考虑采取泊松分布(Possion)，泊松分布假设了损失在各个时间段随机发生，在Δt时间段内损失的概率为λΔt，在时间T内n个损失出现的概率为：

j6Z3Unq.png!web

而损失程度分布一般采用对数正态分布，参数为损失的对数的期望和方差。计算过程同样可以采用蒙特卡洛模拟法，假设损失程度和损失频率独立，通过频率分布进行抽样，在损失程度分布中进行n次抽样决定损失数量，从而计量整体损失。

机器学习应用如上所述在操作风险高级计量法(AMA)中，损失分布法LDA可以采用Possion分布法进行回归验证。这一方法对于损失数据的要求较高，在巴赛尔要求下，AMA方法包含内部数据、外部数据、情景分析和业务环节的内控四个要素。一般来说绝大多数金融机构并没有保存相应的内部数据，而外部数据来源上则依赖于市场数据的提供商。所以在操作风险AMA计量上，金融业还需要做很多。

流动性风险

概念流动性风险其实是资产负债管理、融资管理的范畴，主要包含两个部分：预测资金需求和满足流动性需求。在预测资金需求时需要考虑到存款流入流出、现金流量的管控，而在流动性管理的角度则有两种方式：资金管理和负债管理。可以看出，在流动性风险管理的体系下，最大的数据科学应用领域是资产负债分析和现金流预测。

计量方法金融业较为成熟的流动性风险管理方法像现金流量法、资金结构法、流动性指标法等等，主要都是通过财务、资金、估值等相关数据的分析，获得流动性的剩余和赤字比例、查看负债、敏感资金和稳定资金的结构占比，以及资产负债期限比率、贷存比率、流动资金比率这一类的指标。巴塞尔体系下的流动性风险指标计量方法是流动性偿付率(LCR)和净稳定资金率(NSFR)就是流动性指标法的实现。

目前对于日间流动性的计量方法则对数据的实时性、指标和模型(如流动性调整LVaR)的管理有较高的要求，此部分也是未来需要深入思考的一个专题方向。

机器学习应用流动性风险管理的角度多数以指标项管理的为主，所以可利用到的机器学习算法并不多。在现金流预测中多利用多元线性回归(Multiple Linear Regression)来预测企业流动性的指标。但金融机构涉及到流动性的数据质量不一，需要更多的在数据源角度来探视元数据管理，从而为指标模型的训练奠定基础。

结语

金融风险管理是对数据质量、准确度要求较高的金融大数据应用领域之一，也是和金融工程、数据科学建模结合的非常紧密的一个方向。相比于当下市场上很热门的那些精准营销、客户画像等数据应用领域，“风险管理”作为金融最重要的属性，应在机器学习领域获得更多的探索和研究。例如：是否可以有效提高金融机构在现金流预测上的准确性和实时性？是否可以将分布式数据分析法应用于市场风险蒙特卡洛模型的构建？是否可以在信用风险管理角度引入更多非结构化数据的分析法？如文本和图像分析？是否可以在操作风险损失数据库建立的基础上引入非结构化分析方法？

本文是自己在过去从事金融风险咨询、大数据与机器学习研究方面的一些沉淀。文中其实利用到了巴塞尔体系下的风险管理方法论，但还是有一些遗憾，如经济资本计量、利率风险与模型风险均未做论述，这几个部分也是需要深入学习的地方。

在金融科技从业者的角度，我认为对风险管理业务的认知和理解、数据敏感性的把握要超过了机器学习算法的理解。所以在机器学习与应用场景结合上，应站在客户实际业务角度出发，探索机器学习算法和模型的适应性，从而更好的服务于金融风险管理体系。

附录推荐阅读

1.《Risk Management and Financial Institutions》John C.Hull, Tornoto University 2.《An Introduction to Analysis of Financial Data with R》Ruey S. Tsay, Chicago University 3.《机器学习》周志华, 清华大学

作者：Da Vinci 转自公众号：金融科技顾问

数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。平台的理念：人人投稿，知识共享；人人分析，洞见驱动；智慧聚合，普惠人人。您在数据人网平台，可以1）学习数据知识；2）创建数据博客；3）认识数据朋友；4）寻找数据工作；5）找到其它与数据相关的干货。我们努力坚持做原创，聚合和分享优质的省时的数据知识！我们都是数据人，数据是有价值的，坚定不移地实现从数据到商业价值的转换！

FinTech大数据应用

市场风险

信用风险

机器学习应用

操作风险

流动性风险

结语

附录推荐阅读

Recommend

Hacktoberfest 2018：欢迎各种花式贡献Jenkins 项目，众人拾柴火焰高

微软将加入开源社区免费提供6万项软件专利

JDK 的源码你真的读懂了吗？

Tame your Firebase Realtime Database with MobX

Top 20 Java Interview Questions from Investment Banks

IPFS初窥3

Linux commands to assist with importing a CSV file into SQL Server

Discovering New System Objects and Functions in SQL Server 2019

Notes on Type Layouts and ABIs in Rust

Node v10.12.0 (Current)

About Joyk

机器学习与金融风险管理

FinTech大数据应用

市场风险

信用风险

机器学习应用

操作风险

流动性风险

结语

附录 推荐阅读

Recommend

About Joyk

附录推荐阅读