反欺诈模型因变量怎样定义？

最近刚接触一点反欺诈模型，有个问题不是很清楚，求专家指导，反欺诈模型的因变量就是欺诈/非欺诈，那欺诈是怎么定义的？那些命中外部数据源黑名单的算是欺诈吗？还是首逾30天以上算为欺诈更合理一些? 业内一般是怎样定义的呢？谢谢！

梁川 · 2018-9-27 22:25:36

反欺诈模型的因变量就是欺诈/非欺诈，这说话不完全正确。
反欺诈不是非黑即白，与各公司自己的风控策略相关。即便是同一个公司，在不同发展阶段，由于战略目标的不同，对同一用户反欺诈策略都不同。可以说：反欺诈也是一门艺术，需要平衡风险与收益。
反欺诈模型涉及黑名单/白名单/灰名单概念。
对明确属于黑名单的用户，意味着用户有较大的欺诈风险，一般策略是直接拒绝掉。需要强调一下：对黑名单用户的处理策略依赖于各公司的规则。例如现金贷中的多头借贷用户。
对白名单用户，属于优质可信用户，一般策略是直接过。
对灰名单用户，是反欺诈最大挑战，怎么依据有限的用户数据，准确勾画出用户画像？

对用户画像，一般会采用信用评分模型（score card评分卡）。依据内部数据源、外部数据源数据，运营信用评分卡模型，对用户进行信用评分，看用户评分属于哪个区间及对应风控策略。例如信用评分小于600分，直接拒绝，600-700分，借款额度3000 。700分以上，额度5000 。
信用评分模型有所谓的ABC卡，A卡（Application Card，申请评分卡）、B卡（Behavior Card，行为评分卡）、C卡（Collection Card，催收评分卡）。
对题主提到的首逾30天的用户，不是直接归为黑名单，而是根据用户的行为、催收情况，采用B卡、C卡，对用户重新评分并打标签。
信用评分模型在信贷领域用得较多，原因在于能够要求用户提供较多资料数据，例如电商、社保公积金、运营商、社交、芝麻分等，通过上百乃至上千个特征去建立对应的评分模型。
但在其他反欺诈领域，例如第三方支付的在线支付/POS收单、在线广告、互联网金融薅羊毛等领域的反欺诈，很难获取完整用户数据，从而无法建立用户完整画像的评分模型，此时候会采用规则引擎方式，对用户各种数据的采用聚类分析、交叉验证、勾稽关系比对、强特征筛选等手段，通过风险决策引擎进行决策判断。

谋sha电冰箱 · 2018-9-27 22:25:37

手机随手一答，忽略排版。
关注这个问题比较久了，其实是想看看有没有好的答案，结果等了这么久只有这么几个答案，排第一的还有点答非所问。
其实题主想知道的是如何定义欺诈的y，如果我猜的不错的话题主应该是搞数据的吧，业务经验不太丰富，不过这不是太大缺点。
所有的数据模型都是为业务提供支持的，所以这里也不例外，欺诈模型是为公司风控提供反欺诈支持的。所以首先你要确认你们公司接触到的欺诈类型主要是哪些，如果是多头借贷欺诈的，那一般的外部黑名单是可以考虑作为y的，如果是防恶意欺诈的，就是完全没有还款意愿的人，骗一笔就走，那么那种从一开始就逾期的人就可以考虑作为y，还有团伙伪冒等欺诈的y，可以找风控的反欺诈团队了解，催收的反馈也是一个不错的信息渠道，但比较难规范注记。
我的建议是从业务入手，同时不同的反欺诈类型不要放一起建模模型，因为表现完全会不一样。

Charles · 2018-9-27 22:25:38

题目确实没有说明应用的场景，不过看题目的标签，“互联网金融”，“消费金融”，“个人贷款”等，我们假设题主问的是纯线上小额消费/现金贷款的场景。
在这里，我们一般认为欺诈有三种类型：

第一方欺诈，主要指的是客户本人恶意骗贷，无还款意愿等；
第二方欺诈，主要指平台方的工作人员，风控人员自己，直接进行骗贷；
第三方欺诈，主要指非客户和平台的第三方人员，一般是黑客、黑产等人员，利用各类手段进行的骗贷行为；

我们一般在进行反欺诈的时候，重点的讲的都是对“第三方欺诈”的防控。第三方欺诈，防控手段主要就是钩稽和交叉验证等等。在线下场景如此，在纯线上场景也是如此。无非增加一些高技术手段进行欺诈的防控。比如，活体识别，公安照片自动比对。然后，对于用户申请贷款时候的网络环境监测（是否有入侵迹象，是否有隐藏形迹的倾向等），设备环境监测（是否木马，是否模拟器）等。
第二方欺诈（我不确定我的定义是不是正确，自行判断），我认为从系统层面比较难以轻易解决。可能涉及到内控管理等方面的知识。不是单纯的技术问题，是人的问题。
最麻烦的就是第一方欺诈。核心难点，就在于题主的问题，界定非常困难。因为，第一方欺诈我们一般只能看到结果，就是客户没有还钱。但是成因构成是比较多样的。客户无还款能力；失联，又分为故意和非故意；未失联，有还款能力，故意拖欠；等等。故意失联和故意拖欠，都可以被确认定欺诈。可是包含了主观故意，就判定困难了。
题目内容包含了“因变量”字眼，感觉题主就是在尝试做建模工作。目前金融领域建模，比较成熟的就是监督学习的方法，评分卡算是其中一种。对于监督学习来说，可能需要大量的标签样本。这就提出了两个难题，第一是认定标准，刚才说了很难；第二是一定数量的样本，一般采用人工标注，这又是一重困难，意思就是，就算你有认定标准，如果由很多人去执行这个标准的话，你得到的样本质量也是堪忧的。
所以，一般会有一个近似的做法，就是把30天逾期（DPD30），或者说1个月账龄（MOB1），作为因变量使用。做出来的东西，一般就是评分卡。常用的就是A/B/C卡。其他答案里有介绍。
对于外部黑名单的使用，主要还是看对方的数据来源，更新频次，内部原理等等。一般来说，还是要结合业务表现来评估。如果对方数据主要原理也是概率判定，那很可能也是某种评分卡的输出结果，可以考虑当成自变量来用。

梁会君 · 2018-9-27 22:25:39

我是一家贷款超市的风控~（至于一家贷款超市为什么会有风控的这个问题，我们是一家有节操的贷款超市）
反欺诈模型可以采用的因变量定义，这还真的得看你有什么业务，有什么数据，你问各类消费金融从业者，可能大家经营的业务不一样，会给你不一样的答案。
先从数据最全，样本无忧的贷款机构本身开始讲吧。贷款机构本身的一大优势就是，客户的贷中和贷后表现完全掌握在手里，正样本很好找，正常还款达到N期的，中间客服回访正常联系的；负样本，逾期达到N天以上+催收失联，甚至贷中触发了异常规则给到反欺诈调查员审核的欺诈客户（谨慎清洗，谨慎定义），都可以作为负样本。这样下来，负样本应该够纯，可以满足欺诈模型的建模需求了。
说回我们贷款超市，只有贷前数据和贷中的批核数据，另外还有订单结清的数据；于是我们的定义就利用了这些，负样本可选连续N次申请且拒贷的客户，补充一些已经定义为欺诈的客户。
建模的样本绝对不是一成不变的，曾几何时年轻的我也以为一套样本标准解决所有问题。但是，真的是要看每次建模的业务背景，再去针对性的找样本。
浅答一段，砖头已抛，时不时回来看看玉。

反欺诈模型因变量怎样定义？

4 个回复