图联邦学习技术在金融行业的应用

论坛 期权论坛 期权     
期权匿名问答   2022-11-11 15:31   6212   1
导读:联邦学习在2017年由谷歌正式提出,也是同年图计算,尤其是图神经网络出现在大家视野中。在2019年左右联邦学习和图神经网络联合起来构成图联邦学习,引起新的技术浪潮。
今天的介绍会围绕下面六点展开:

  • 图联邦的必要性
  • 图联邦分类
  • 图联邦经典算法
  • 图联邦平台架构
  • 图联邦金融应用
  • 未来发展展望
01 图联邦必要性


谷歌提出联邦学习的目标是怎样把机器学习的能力和数据集中存储的需求分离开,首先在手机上应用了横向联邦技术。



企业大多应用纵向联邦,主要是站在数据集的角度去划分,是杨强教授提出的一种分类的方法。金融行业中应用较多,主要是想把不同企业之间数据互补性通过分布式机器学习模型体现出来。



数据应用的监管越来越严格,世界各国都有一些很大的突破,尤其是在监管上。欧洲、美国、国内都是比较领先的。国内在定性数据作为生产要素方面也起到推进作用。从联邦学习本身条件出发,怎么在监管约束下把底层数据联合起来?比如数据的配合,不仅包括一方的目标数据和另一方的底层特征数据的结合,也包含两方之间特征数据数据之间的相关性挖掘出来。



下面来看一下图在金融行业应用的必要性,两者结合起来就是图联邦在金融 行业的必要性的基础。以下, 从三个方面去描述图在金融行业有非常重要的作用。




  • 金融行业




比如保险行业,随着造假水平提升,往往单个案例来看,已经很难区分是不是造假。打假要从网络的角度去看,包括人、车、物构建的网络角度。



在银行的反洗钱方面,图成为越来越重要的一种挖掘工具。 证券相关行业,账户的操控也是一个较为复杂的网络。像是理财资金被挪用,资金各方面的控制都是非常复杂的网络。





最近几年加密货币交易所被黑客攻击后,资金的迁移也是非常复杂的一个网络。尤其近年国内试点数字人民币,相信图网络会有很大的应用。



图的表示是以节点和边来刻画,也有简单的数据结构方面的分类。



图的表征数据和表的表征数据有什么不同?从表数据应用与机器学习建模的角度,例如,用决策树来做分类,任意两个特征之间会计算相关性。



图数据和表数据是完全不一样的,数据之间加上关系形成图,图加上语义变成知识图谱,知识图谱在金融行业的应用很广泛。



用表来构建决策树,任意两列都潜在会计算相似性,类比图关系,就是任意两列是全连接的,连通性会有根据相关性有强弱之分。回到图中,有些列之间的连通性天然不存在,对比表数据,图在刻画两边的数据间关系上更为灵活、通用。


--
02 图联邦分类





图联邦的分类不可避免地受到图分类和联邦学习分类影响,尤其是从数据集角度划分上。纵向划分,特征是互补的,甚至是一边有图结构,一边没有图结构。横向划分,多方间是对等的,但是关系是灵活的,可用图去刻画。图自身也有很多划分,比如从应用目的分:节点分类,图分类,连接预测。

1. 联邦学习分类

图的分类和联邦的分类怎么影响图联邦分类?联邦学习分类目前有主流两类,跨设备和跨结构。另外是基于数据集的划分:横向、纵向、混合联邦学习。



2. 架构分类

另外在实现上也有划分,架构划分,例如CS架构、P2P架构、委员会架构。
(1)CS结构



中间有个仲裁节点的架构,早期的算法如FedAvg,FedSGD等,也可以是纵向的学习,如SplitNN,可以把目标值Y放在server端。



一些关于CS架构的算法和研究有很多,有兴趣的同学可以自行学习。



SplitNN的学习方式也比较灵活,例如Y在server端,同时在server和client端等。



(2)P2P架构



P2P下主要的挑战是怎么使得通讯和训练计算达到性能最优。限制两个节点时,P2P架构和CS架构区分度不高。



(3)委员会架构



委员会架构,经常固定几个节点用来委员之间动态计算来实现。还有一种动态选举,就哪几个节点作为动态节点达成共识。



(4)Non-IID问题



可以按照解决方法分类,例如采样,从数据和算法角度出发,调整权重,形成底层模型。从系统角度考虑,把节点聚集后做聚类。
(5)模型分类
回到图分类,可以用邻接矩阵建模,或用消息传递的方式去建模。



(6)学习目的分类
图分类的用途到导致分类的方法不一样。



(7)学习框架分类



从神经网络角度考虑,比如是否池化、传播能力、多少边、是否异构等等,也会带来不同的图网络划分。



要从多个方面去了解图联邦分类,例如,数据划分、架构选取,是不是采用特殊的隐私保护,是否对Non-IID有处理或处理的效果如何等等,多方考虑。下面来看一些典型的分类。
例如按照图对象分类,要考虑从子图出发还是节点等。再结合横向、纵向做划分,两两配对得到一种划分,图与图之间做联邦,在结合横向纵向,就是不同的划分,甚至可以加上架构,隐私保护方法等会带来更多的划分方式。




--
03 图联邦经典算法


近几年很多企业和学校都投入研究图联邦学习模型,下面列了一些模型,并涉及以上所讲的不同用途,可以结合着看一下,接下来会讲一下如何选择模型。



1. 最简单模型

最简单的,例如,需要一个横向联邦,只是用CS架构,做节点之间的预测,流入在银行业的反洗钱,不同账户之间的资金流关系,多个银行之间是横向对等关系,央行可以作为仲裁点去组织这个事情。



这种架构典型是模型是USC的FedGraphNN,使用GCN算法,使用SecAGGregate做隐私保护,来做预测。



下面是论文中具体的预测结果,并非真正的金融场景,可以借鉴看一下。对比中心化算法,预测精度效果相对比较接近,处理时间上由于对比聚集后计算并发高,速度有所提升。没有考虑到Non-IID的问题,但考虑了隐私保护的需求。



2. Non-IID场景

这种场景在金融行业很常见,经典的处理方式是采样、调整权重等,这种方法和联邦学习很相似。



例如日本会津大学的FedGraph算法,会采用两种不同的图网络采样方式。一种是不直接依据节点而是计算后的隐藏层采样;另外一种是layer节点去采样。可以通过强化学习去调整采样率。以下是采样的效果。可以看到使用FedGraph之后准确度上升了很多。



通过调整权重学习,可以参考蚂蚁集团ASFGNN,通过数据分布之间差异计算JS散度调整权重,通过不同节点和server节点计算JS散度,后调整学习权重。



算法效果,可以看到,基本上有5%以上的提升。



3. 自动最优参数

除了Non-IID,在参数调优上也做了优化,例如强化学习辅助采样,这样会很多,很快达到好的效果。



或者使用贝叶斯调优方法,对比使用GridSearch或者手工快20倍以上,大的网络甚至快100倍。



4. 异构图处理




金融行业异构图很普遍,例如车险反欺诈场景,像人、车、物属于不同节点,节点之间类型关系比较重要,也并不是所有节点之间都有边,导致节点之间、边之间的特殊性。对于异构图中,一种方法是先做图嵌入,在嵌入图上做节点分类等等,另一种方法是做一些伪标签修正本地标签,将标签和节点做分开,适合边和节点简单组合的场景。
可以参考微软亚洲研究院FedGNN,做图嵌入。本身图是偶图,结构上有一些特殊性。第一层引入图嵌入,可以提取不同边类型,用attention去屏蔽底层异构图的差异,这是一种比较好的方法。



另外也可以参考中山大学FedGL引入伪标签。引入伪标签做损失的计算,把伪标签和全局隐含梯度结合起来形成好的循环,可以在不同节点标签之间进行互补,通过进入伪标签进行修正,通过全局学习让伪标签越来越准确,从而对本地标签形成互补。



5. 非CS架构




非CS架构,往往是金融机构之间在约定仲裁节点上无法达成共识,需要去中心化的方式去实现联邦,可以采用针对性设计的对等的联邦优化方法,可以参考DPA-SGD,它会形成矩阵,通过矩阵权重调整优化Non-IId,进而调整不同点之间的权重。



看一下该模型的效果,4个节点比2个节点通讯时间要短一点。



6. 纵向联邦




纵向联邦的研究比较早,场景为一方有图但对图节点的属性数据缺乏,需要在引入节点属性数据进行补充,或者换个角度,一方有节点属性数据,但缺少属性之间关系数据,需要引入一些关系数据。这两种都属于特征互补,尤其对于Y在其中一方的情况,都属于纵向联邦。在纵向联邦中常用的如浙江大学的VFGNN,在CS架构中,把Y放在server节点中,做训练和学习。


--
04 图联邦平台架构





图联邦平台,首先基座得是一个联邦学习的平台,平台底层现在往往通过Docker容器去部署,上层有不同通信方法,用的较多的如GRPC,也会用Kafka等,会根据不同架构例如CS架构,做节点上的调整,来进一步选择不同的协议。之上会考虑本地节点的存储关系,尤其需要考虑图如何储存,本地的图是怎么处理的,怎么构建图,图如何对齐,是否做清洗。尤其是在反欺诈领域,图往往是非均衡的,一般还要做一些剪枝、优化,来避免图的无效计算。采用什么样的图处理模型,什么样的图计算框架,匹配何种图计算算子,是自建还是引用现有平台去做,是否支持插件形式兼容多个平台等等,都是设计图联邦平台需要关注的核心点。
大概看一个开源例子,FedGraphNN,底层通过RPC等通信,上层兼容GCN、GAT算法去设计。在Non- IID方面有默认的配置,在参数优化有一些配套的插件。


--
05 图联邦金融应用


1. 反洗钱-横向联邦

例如银行之间做KYC,每个客户有对应的层级伙伴,客户自身属于某个集团组织,partner也有类似集团组织,这样的图网络结构。比如有一方银行的客户节点有洗钱的风险,往往预示关联方也有洗钱的风险。传统方法,可以先做图统计,再通过社区发现等传统机器学习方式来实现。譬如,在统计属性表上,用XGBoost等机器学习方法进行风险预测。有了图联邦,直接可以用图嵌入实现异构图采样进行节点预测,完成一个端到端的学习。



在效果上可以看到,联邦方法对比仅仅依靠单节点数据的方式,能够兼顾到各个参与方节点之间关联关系,使得比仅依赖本地数据的效果要好很多。



最传统跨企业数据合作模式的问题是:
要么合作企业缺乏 目标数据Y,无法独立建立模型,需要模型需求方把目标数据,带入到数据合作方的生产环境中建模,但是由于国家的数据保护条款和各企业自身对数据的严格规定,使得这种方法难以执行。
针对这个问题,可以通过纵向联邦学习来解决。如右图,两边的数据都有共同的 ID,特征是完全不一样的,可以通过一方特征来弥补另一方特征的不足。

2. 反欺诈-纵向联邦




另外一个金融行业例子是车险反欺诈,人、车、物等SNA关系来构建图网络,但是人与人之间的关系数据缺乏,可以通过社交网络引入更多的人与人之间关系,这可以通过纵向联邦实现。因为合作双方的网络是不一样的,底层的数据是互补的,目标值在其中保险一方,这就是纵向图联邦的应用场景。这种方式正在探索中,目前还没有具体落地,先抛砖引玉地给大家展示一下纵向异构图网络的注意事项。
--
06 未来发展展望


图联邦还是有很多问题要去处理,目前还属于比较早期的研究。尤其是在超大网络性能处理并没有完全解决,图神经网络性能问题也没有完全解决,所以在图联邦中这个问题也比较明显。但是我们也可看到图联邦属于天然的并行处理,可以加速处理的时间和效率,所以两个问题结合起来应该是个可以探讨的问题。之前提到的Non-IID的问题,怎么能够更高效地确保效果也是比较大的问题。异构网络中,尤其是图网络太复杂了要怎么处理。还有时空关系,有些图并不是一天建成,而是时序动态网络,一些点和边是动态添加,动态消亡,这样的网络要怎么去做处理,本身是异构网络,时间属性比较明显,怎么把时序趋势背后的规律提炼出来,也是比较难的问题。
另外图联邦怎么去中心化,实现通讯和效率方面的平衡,去中心化带来的隐私保护问题要怎么解决,不去中心化能不能做到更好,以及信息泄漏和数据授权等问题也值得关注。
还有平台建设方面,目前开源图联邦平台比较少,据了解阿里有一个开源平台,图联邦平台和已有的图神经网络平台能不能很好的嵌入结合,底层的存储有没有好的分布式、单机图数据库,底层存储要不要根据图网络做优化,任务管理调度有没有好的工具,要不要做参数寻优、通信适应、断点再连等优化,这些方面都是需要思考的。
--
07 问题


Q1. 对于CS架构和P2P架构等分别适用什么场景?一般纵向联邦选择哪个架构比较合适?
A1:默认选CS架构,只要能够找到强公信力一方或者由其中一方牵头的,大可选CS架构。有一些对等方合作的场景下,业务上仲裁点谈不拢或者保密难保证公正,可能需要P2P,或者也可以设置一个去中心化委员会实现。也可以考虑直接使用区块链去实现协同形成动态委员会网络,比较适合参与节点数量比较庞大,或者底层合作需求方比较多的场景。
Q2:Non-IID和不平衡问题一般采用什么抽样方式,不会造成图结构和信息缺失?
A2:图联邦未必在直接在节点底层做抽样,很多时候在图计算的隐藏层做抽样,可以兼顾隐私保护和参数调整。抽样是实现一次训练中,数据均衡的一种方式,与图结构和信息缺失不完全相关,完全可以通过类似集成学习等多种方式实现所有图结构与信息的使用。
Q3:横向联邦和纵向联邦的适用场景?
A3:横向联邦更多用在同一机构不同设备上,或者同一类型机构。纵向联邦很多时候要考虑数据特征维度是不一样的,要实现数据的互补,往往是跨机构跨行业之间的数据合作。
今天的分享就到这里,谢谢大家。
编辑整理:赵冬月 河北农业大学
出品平台:DataFunTalk
转发:
DataFunTalk:图联邦学习技术在金融行业的应用
分享到 :
0 人收藏

1 个回复

倒序浏览
2#
期权匿名回答  16级独孤 | 2022-11-11 15:31:55 发帖IP地址来自 北京海淀
哇,感谢史博的分享!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:400157
帖子:80032
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP