反欺诈模型因变量怎样定义?

论坛 期权论坛 期权     
深圳老萝莉   2018-9-27 22:25   14650   4
最近刚接触一点反欺诈模型,有个问题不是很清楚,求专家指导,反欺诈模型的因变量就是欺诈/非欺诈,那欺诈是怎么定义的?那些命中外部数据源黑名单的算是欺诈吗?还是首逾30天以上算为欺诈更合理一些? 业内一般是怎样定义的呢?谢谢!
分享到 :
0 人收藏

4 个回复

正序浏览
5#
梁会君  1级新秀 | 2018-9-27 22:25:39 发帖IP地址来自
我是一家贷款超市的风控~(至于一家贷款超市为什么会有风控的这个问题,我们是一家有节操的贷款超市)
反欺诈模型可以采用的因变量定义,这还真的得看你有什么业务,有什么数据,你问各类消费金融从业者,可能大家经营的业务不一样,会给你不一样的答案。
先从数据最全,样本无忧的贷款机构本身开始讲吧。贷款机构本身的一大优势就是,客户的贷中和贷后表现完全掌握在手里,正样本很好找,正常还款达到N期的,中间客服回访正常联系的;负样本,逾期达到N天以上+催收失联,甚至贷中触发了异常规则给到反欺诈调查员审核的欺诈客户(谨慎清洗,谨慎定义),都可以作为负样本。这样下来,负样本应该够纯,可以满足欺诈模型的建模需求了。
说回我们贷款超市,只有贷前数据和贷中的批核数据,另外还有订单结清的数据;于是我们的定义就利用了这些,负样本可选连续N次申请且拒贷的客户,补充一些已经定义为欺诈的客户。
建模的样本绝对不是一成不变的,曾几何时年轻的我也以为一套样本标准解决所有问题。但是,真的是要看每次建模的业务背景,再去针对性的找样本。
浅答一段,砖头已抛,时不时回来看看玉。
4#
Charles  4级常客 | 2018-9-27 22:25:38 发帖IP地址来自
题目确实没有说明应用的场景,不过看题目的标签,“互联网金融”,“消费金融”,“个人贷款”等,我们假设题主问的是纯线上小额消费/现金贷款的场景。
在这里,我们一般认为欺诈有三种类型:
  • 第一方欺诈,主要指的是客户本人恶意骗贷,无还款意愿等;
  • 第二方欺诈,主要指平台方的工作人员,风控人员自己,直接进行骗贷;
  • 第三方欺诈,主要指非客户和平台的第三方人员,一般是黑客、黑产等人员,利用各类手段进行的骗贷行为;
我们一般在进行反欺诈的时候,重点的讲的都是对“第三方欺诈”的防控。第三方欺诈,防控手段主要就是钩稽和交叉验证等等。在线下场景如此,在纯线上场景也是如此。无非增加一些高技术手段进行欺诈的防控。比如,活体识别,公安照片自动比对。然后,对于用户申请贷款时候的网络环境监测(是否有入侵迹象,是否有隐藏形迹的倾向等),设备环境监测(是否木马,是否模拟器)等。
第二方欺诈(我不确定我的定义是不是正确,自行判断),我认为从系统层面比较难以轻易解决。可能涉及到内控管理等方面的知识。不是单纯的技术问题,是人的问题。
最麻烦的就是第一方欺诈。核心难点,就在于题主的问题,界定非常困难。因为,第一方欺诈我们一般只能看到结果,就是客户没有还钱。但是成因构成是比较多样的。客户无还款能力;失联,又分为故意和非故意;未失联,有还款能力,故意拖欠;等等。故意失联和故意拖欠,都可以被确认定欺诈。可是包含了主观故意,就判定困难了。
题目内容包含了“因变量”字眼,感觉题主就是在尝试做建模工作。目前金融领域建模,比较成熟的就是监督学习的方法,评分卡算是其中一种。对于监督学习来说,可能需要大量的标签样本。这就提出了两个难题,第一是认定标准,刚才说了很难;第二是一定数量的样本,一般采用人工标注,这又是一重困难,意思就是,就算你有认定标准,如果由很多人去执行这个标准的话,你得到的样本质量也是堪忧的。
所以,一般会有一个近似的做法,就是把30天逾期(DPD30),或者说1个月账龄(MOB1),作为因变量使用。做出来的东西,一般就是评分卡。常用的就是A/B/C卡。其他答案里有介绍。
对于外部黑名单的使用,主要还是看对方的数据来源,更新频次,内部原理等等。一般来说,还是要结合业务表现来评估。如果对方数据主要原理也是概率判定,那很可能也是某种评分卡的输出结果,可以考虑当成自变量来用。

3#
谋sha电冰箱  4级常客 | 2018-9-27 22:25:37 发帖IP地址来自
手机随手一答,忽略排版。
关注这个问题比较久了,其实是想看看有没有好的答案,结果等了这么久只有这么几个答案,排第一的还有点答非所问。
其实题主想知道的是如何定义欺诈的y,如果我猜的不错的话题主应该是搞数据的吧,业务经验不太丰富,不过这不是太大缺点。
所有的数据模型都是为业务提供支持的,所以这里也不例外,欺诈模型是为公司风控提供反欺诈支持的。所以首先你要确认你们公司接触到的欺诈类型主要是哪些,如果是多头借贷欺诈的,那一般的外部黑名单是可以考虑作为y的,如果是防恶意欺诈的,就是完全没有还款意愿的人,骗一笔就走,那么那种从一开始就逾期的人就可以考虑作为y,还有团伙伪冒等欺诈的y,可以找风控的反欺诈团队了解,催收的反馈也是一个不错的信息渠道,但比较难规范注记。
我的建议是从业务入手,同时不同的反欺诈类型不要放一起建模模型,因为表现完全会不一样。
2#
梁川  4级常客 | 2018-9-27 22:25:36 发帖IP地址来自
反欺诈模型的因变量就是欺诈/非欺诈,这说话不完全正确。
反欺诈不是非黑即白,与各公司自己的风控策略相关。即便是同一个公司,在不同发展阶段,由于战略目标的不同,对同一用户反欺诈策略都不同。可以说:反欺诈也是一门艺术,需要平衡风险与收益。
反欺诈模型涉及黑名单/白名单/灰名单概念。
对明确属于黑名单的用户,意味着用户有较大的欺诈风险,一般策略是直接拒绝掉。需要强调一下:对黑名单用户的处理策略依赖于各公司的规则。例如现金贷中的多头借贷用户。
对白名单用户,属于优质可信用户,一般策略是直接过。
对灰名单用户,是反欺诈最大挑战,怎么依据有限的用户数据,准确勾画出用户画像?


对用户画像,一般会采用信用评分模型(score card评分卡)。依据内部数据源、外部数据源数据,运营信用评分卡模型,对用户进行信用评分,看用户评分属于哪个区间及对应风控策略。例如信用评分小于600分,直接拒绝,600-700分,借款额度3000 。700分以上,额度5000 。
信用评分模型有所谓的ABC卡,A卡(Application Card,申请评分卡)、B卡(Behavior Card,行为评分卡)、C卡(Collection Card,催收评分卡)。
对题主提到的首逾30天的用户,不是直接归为黑名单,而是根据用户的行为、催收情况,采用B卡、C卡,对用户重新评分并打标签。
信用评分模型在信贷领域用得较多,原因在于能够要求用户提供较多资料数据,例如电商、社保公积金、运营商、社交、芝麻分等,通过上百乃至上千个特征去建立对应的评分模型。
但在其他反欺诈领域,例如第三方支付的在线支付/POS收单、在线广告、互联网金融薅羊毛等领域的反欺诈,很难获取完整用户数据,从而无法建立用户完整画像的评分模型,此时候会采用规则引擎方式,对用户各种数据的采用聚类分析、交叉验证、勾稽关系比对、强特征筛选等手段,通过风险决策引擎进行决策判断。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:
帖子:
精华:
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP