银行海量交易数据是怎么存储的?海量流水数据如何开放给客户查甚至导出?

论坛 期权论坛 期权     
detail lee   2018-9-27 22:20   29561   10
银行海量客户的海量历史交易数据,随着大数据技术的兴起,以前只开放客户查询一年内的流水数据,现在可以开放甚至客户开户以来的历史对账数据查询。
想了解银行是如何进行数据存储以及开放支撑海量客户查询分析的?背后的技术是怎样的?
有了解的大师过来指导下哦。
另外除了HBase,NSA的Accumulo在这方面怎么样,因为目前HBase和Cassandra不支持很好的安全保护。
分享到 :
0 人收藏

10 个回复

倒序浏览
2#
ltye  1级新秀 | 2018-9-27 22:20:01 发帖IP地址来自
谢邀,我不负责数据平台和业务系统,了解的不是太多~ 不过我们行的核心系统数据都是结构化、关系型数据库存储的。
3#
邓昳轶  3级会员 | 2018-9-27 22:20:02 发帖IP地址来自
历史数据查询在很长时间内都是国内各大银行的软肋,特别是对客部分。直到大数据技术的出现,那些说大数据炒作的人睁开眼看看,至少大数据技术解决了实际问题不是吗?
      据我所知,各大行试水大数据都是从历史数据查询开始的,有些行已经建成了。我们行也在启动了,差不多也是HBASE这一套,现在还不敢说效果,等建好了再来答您。
      不过可以预见的是,性能不是问题,数据治理方面才是真正的难点。
4#
zhen-liang  6级职业 | 2018-9-27 22:20:03 发帖IP地址来自
如果人人能购买DB2,自然没有其他大数据软件市场了,谷歌设计这个打败IBM的,当然银行还是在使用db2,其他行业使用其他软件
5#
刘飞  5级知名 | 2018-9-27 22:20:04 发帖IP地址来自
本人在某四大行数据仓库部门工作一年多,对这个问题以自己的理解回答下,可能不太准确。对于流水数据(订单,交易等),线上系统只会保存几个月,我们厂一般是三个月,每天的流水会进仓库,数据仓库一般保存13个月的流水。对于更久的数据,历史数据会归档到磁带,保存时间一般为20年。
   现在我们厂数据仓库主要是提供给业务部门做数据分析和挖掘,不开放给外部使用
6#
EricD  3级会员 | 2018-9-27 22:20:05 发帖IP地址来自
I am working on a project to categorize transaction data, and try to understand the life style (income/expense) for our customers. Normally you don't need to work on the full historical data, recent n (n=12 or n=18) months data is enough to understand customers financial profile.

Storage and querying is not that difficult for transnational data (RDBMS do well to maintain a record base data set), and they are almost static, no update/delete. As  someone else mentioned, the only consideration is how to partition the data, e.g. by date, by transaction type.

The challenge for us is how to define the categories, and then how to put transaction into correct category. e.g. for one transaction, we are interesting in,
- income or expense
- which type of merchant (groceries - to understand the household size or luxury stuff - to know the life style)
- is it a Bank elsewhere transaction (send money to other bank, or life insurance from other company. Banks always have insurance and superannuation business in Australia)
- Purchase sequence (to build the model which purchase sequence are most likely to take a home loan? eg. regularly save money, pay money to real estate agent)
- Life stage and event (plan wedding, plan to have baby, plan a oversea trip)

I will not talk about the details, but just let you know what does Big Data do, and what does not do.
7#
Jamie往往  1级新秀 | 2018-9-27 22:20:06 发帖IP地址来自
不同银行的处理方式是不一样的,看了上面很多回复,大行或者是数据规划比较好且落地执行比较银行的一些处理经验。对于我所在的银行,数据存储缺乏整体规划,由于各个业务系统各自为政存储数据,导致了部分数据重复存储,且各个系统的数据不统一,很难快速获取到用户、交易行为的统一视图,当前数据治理才是第一要务。引入的大数据平台,也仅是将非结构化的数据纳入分析范畴,并未在数据存储方面有多大的改进。
8#
樱木花  1级新秀 | 2018-9-27 22:20:07 发帖IP地址来自
说到底,银行的交易流水,并不见得是多么海量的数据,即使在线查10年--20年,稍微正规的设计,加上现在的硬件水平都是不会特别高的难度可以搞定的,问题出在四大行,主要原因有3:

1)他们被ibm 的db2绑定了,db2明显在这方面比oracle差得多,一句话db2太差;
2)四大行的系统,年代久远,系统老舅,最初的设计都有30多年的历史,造成四大行的系统难以适应现在的10-20年的查询需要;大部分股份行,开的晚,新,所以股份行大部分都没问题,本人在股份行做过这些东西。
3)由于四大行固有的缺陷。导致有背景的投机商人趁机忽悠hadoop ,煽风点火,有钱赚啊。    交易流水,阿里的支付宝不是类似的东西吗? 顺丰的运单数据不多吗?  不要说oracle,即使是用mysql,SQL server,只要设计的人稍微用点心,完全不是什么难事,非的用hadoop么,明显是商人的诡计而不真正的技术需要,有钱赚,商人才会颠三倒四,何况国企国情如此,你去忽悠私营企业试试看,有几个鸟你这些方案 。   商业和技术完全不是一回事。

说hbase的查询效率高过 rdbms的人不知道是否真的用过?了解过hbase的原理没有, 单单裸查询型系统,明显RDBMS效率高过hbase这种类型的数据库,hbase长处在与分析汇总系统,预处理,这些处理过程,存储最终结果。

另外很多人分不清楚是文件系统的问题还是dbms的问题,把这两个概念混为一谈,只要是关系数据库,在典型的服务器配置,下面比如20TB以内,RDBMS,数据结构设计的不是特别烂,一个流水查询算个什么,还有拿什么多副本来说事的,典型没搞清,这些是介质存储系统(包含:裸设备、ASM,集群文件系统,物理介质级)层面的问题,多副本技术很多方法都可以简单的做到,完全不属于RDBMS的问题, 只不过某些新的系统如mongdb提供了数据库层面的多副本而已。 mysql没有多副本,我们dba实现多副本很难吗,装一个集群文件系统就OK,多花不了半天时间!!!
9#
detail lee  3级会员 | 2018-9-27 22:20:08 发帖IP地址来自
是不是都在用hbase技术架构?
20141206
总结以上各位专家观点:
1目前银行对海量历史数据存储查询还是仅支持近期如近三年数据。更老的数据做归档到磁带!那假设客户要打印二十年前的对账单呢?
2银行的ods或是仓库中对客户数据进行分析画像,如风险偏好,信用情况等!分析后的数据一般是吐给下游系统,如crm系统。
3银行在大数据实践,如hadoop hbase等方面的实践都有哪些案例??当然我是看过有银行利用hbase存储整合开业以来的历史流水数据,并对外提供准实时数据接口服务的案例。或是分析行为日志等!
除此之外还做了哪些尝试呢??
10#
黄浩初  1级新秀 | 2018-9-27 22:20:09 发帖IP地址来自
我这边可提供银行流水数据的查询接口
11#
XX Li  4级常客 | 2018-9-27 22:20:10 发帖IP地址来自
其实你要知道,对于银行,你的信用卡,贷款,存款,都可以被归结为两个操作,借方余额,贷方余额的变化。至于你操作的是信用卡还是你的借记卡,对银行来说,只是不同的系统账户。所以,你消费的时候,银行可能回发这样一条数据报文:包括以下信息日期时间,交易码(描述交易类型),借方余额,贷方余额,科目(银行对账使用),系统账号(明确你的卡号),还有一些其他参数比如说正常欠息其他相关的信息,在银行的核心交易系统里会做相关处理,形成交易流水,同时会触发余额的修改,这是后话。从技术角度来看,流水的表的大小应该是最大的。但是,明确了业务类型之后,就像你说的,信用卡还款,交易码就基本确定了,再用日期加以限制,就剩下几千万条数据了。别担心银行的设备效率问题,它数据不是只存一套。你的记录会在很短的时间里出来的!
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

积分:70
帖子:9
精华:0
期权论坛 期权论坛
发布
内容

下载期权论坛手机APP