金融风控入门

论坛 期权论坛 期权     
期权匿名问答   2022-9-22 16:14   6054   0
金融风控发展


  • 风控是金融机构以及互联网金额的核心价值

    • 传统的风控,尤其是信贷风控,多由各机构自己的风控团队,以人工的方式进行经验控制。但随着互联网技术不断发展,整个社会人力成本不断攀升,再加上大数据的快速发展,传统的风控方式已逐渐不能支撑机构的业务扩展

  • 未来金融风控的发展方向

    • 是基于大数据风控为主的风控的手段,通过运用大数据构建模型的方法对借款人进行风险预测和风险管理,以数据驱动的风控手段在今后的风险管理中发挥的作用越来越大



  • 大数据风控优势

    • 通过采集大量借款人或借款企业的各项指标进行数据建模的大数据风控更为科学有效,随着大数据、云计算、人工智能等技术日趋成熟,这些科技正以惊人的能量改变着传统金融业。大数据风控帮助金融机构降低人工成本、交易处理成本、提升工作效率与风控安全能力

  • 目前数据科学在金融风控领域,主要用于以下三个方向

    • 贷前审核
    • 贷后管理
    • 反欺诈

金融风控流程





金融风控要求技能


  • 技术层面

    • 统计学和数学知识:不要求精通,但要熟练基本概念,一般大学所学就够用
    • 较强的数据处理能力,数据库Oracle或Mysql熟练运用
    • 熟练运用Python或者R其中之一,最好两个都熟练
    • 熟练运用机器学习相关算法,除了LR外,还有决策树、随机森林、XGBoost等主流算法

  • 业务层面

    • 熟悉金融风控相关知识
    • 熟悉主流金融产品
    • 对相关场景有一定的了解
    • 了解相关监管政策和行业动态

金融风控的核心


  • 风控模型

    • 基于LR(逻辑回归)的统计模型
    • 机器学习模型,如随机森林和XGBoost

  • 策略制定

    • 反欺诈策略
    • 业务规则
    • 三方数据规则
    • 额度策略

金融风控模型介绍

金融风控模型就是评分卡模型,通过将模型预测的违约概率转换为分数,最终利用分数再结合相关策略来决定是否给客户放款

  • 传统评分卡

    • 基于LR(逻辑回归)的统计模型

  • 机器学习评分卡

    • 随机森林
    • XGBoost
    • 组合模型

模型开发流程


  • 模型开发原理:

    • 信用评分技术是基于数理统计和数据挖掘技术,通过对客户相关历史数据进行挖掘、分析和提炼,找到蕴含在复杂数据中反映消费者风险特征和逾期信贷表现的规律,发展出预测模型,用模型来预测贷款申请人或者现有借款人未来的信贷账户表现,并以评分的形式来综合表现客户未来的风险大小。分数越大,表示客户未来发生违约的可能性越小







传统评分卡

传统评分卡一般指逻辑回归:

  • 逻辑回归目前广泛应用于金融方面,尤其是风险管理领域,最常见的应用场景就是评分卡模型
  • 逻辑回归是一种简单,易于解释模型,最终模型输出一个概率。在评分卡模型中,这个可以认为是估计出来的违约概率,通过转换,可以得到一个比较直观的分数
  • 逻辑回归模型是二分类模型,且自变量的线性预测与因变量的logit变换相连接的一种广义线性模型,具体数学表达式为:
p_i = \frac{e^{wx^T}}{1+e^{wx^T}}
其中,w 代表模型变量参数,即系数,x 代表的是自变量的取值
优势:

  • 稳定性
    逻辑回归模型对客群变化的敏感度不强,因此稳定性好,鲁棒性强
  • 业务上好解释
    逻辑回归由于形式简单,业务上又很好解释,开发部署难度小
  • 后续诊断容易
    后续模型效果衰减,逻辑回归可以很好的诊断病因
  • 模型直观
    模型直观,系数含义好阐述、易理解
不足:

  • 只考虑因变量和自变量之间的线性关系,没有考虑因变量和自变量的非线性关系
  • 难以处理高维度稀疏数据,例如变量成百上千时,训练效果欠佳
  • 模型对变量的预测能力有一定的要求,当变量的整体预测能力比较弱的时候,预测效果较差
机器学习评分卡


  • 传统统计分析模型的应用受到限制。由于机器学习拥有可以不断重新组织自身结构以改善自身性能的特点,解决了传统风控技术的短板,所以成为了大数据风控的必备手段
  • 大量实验结果证明机器学习模型有着良好的鲁棒性和泛化性,比较适合互联网金融中数据分析应用的相关场景
  • 大数据风控已成为互联网金融的核心环节,也成为一个平台的核心竞争力之一
  • 传统模型受限严重:由于互联网数据稀疏性强和单变量风险区分能力弱的特点,使得传统统计分析模型也受到严重限制。此时需要使用新的技术来适应这种新的业务场景。这时,机器学习开始进入互联网金融的历史舞台
解决了传统风控的不足:

  • 央行征信的不足

    • 目前,央行的个人征信中心收录的自然人数达8.6亿多人,但其中仅有3亿多人有信贷记录,覆盖面不足

  • 信息有效性不足

    • 信贷记录主要来源于商业银行和农村信用社等金融机构,在数据时效性、全面性和层次性上存在严重短板



  • 数据的稀疏性强

    • 用户线上线下的行为散布广泛,极难全量收集和覆盖,用户行为偏好亦各有不同,因此数据的稀疏性极为明显

  • 单变量区分能力弱

    • 不同于传统风险模型采用的历史履约情况,个人资产评估等强变量,消费或社交变量一般均为区分能力较弱的弱变量



优势:

  • 可以处理高维度数据,在大数据背景下,用户购物、通讯、休闲和租房等各个维度方面指标数量可能超过1000个
  • 可以更好地处理稀疏数据,用户线上线下的行为散布广泛,极难全量收集和覆盖,因此数据的稀疏性极为明显。一般情况下,用户行为信息的缺失率均超过50%
  • 模型可以由很多弱相关变量来训练,单变量风险区分能力弱。不同于传统风险模型采用的历史履约情况、个人资产评估等强变量,消费或社交变量一般均为区分能力较弱的弱变量
不足:

  • 可解释性不强
    难以像传统模型那样直观,很难从业务上全面解释,对客户来讲,也很难知道被拒绝原因
  • 过拟合
    机器学习模型最大问题之一就是过拟合,很容易影响稳定性
  • 部署困难
    很难像传统模型那样部署容易,部署成本较高
  • 后续诊断难
    后续随着时间流逝,模型预测能力也会降低,很难像传统模型那样,可以清楚地诊断具体原因
转行金融风控的建议


  • 技术层面

    • 熟悉统计学和数学相关知识
    • 熟练掌握和运用python
    • 对机器学习常用算法有一定的了解

  • 业务层面

    • 了解金融行业,尤其是风险管理相关专业知识
    • 对风险管理,尤其消费金融行业的相关背景和产品有一定的了解
    • 对具体应用场景,如现金贷和消费分期有一定了解

目前消费金融行业常见产品:


除了现金贷,其余四种都是有具体消费场景的
分享到 :
0 人收藏
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:400157
帖子:80032
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP