首页    >   案列中心    >   中国某人寿保险

中国某人寿保险数据平台抽取应用备份项目


项目背景

中国某人寿保险公司数据平台系统是报表系统、反洗钱系统、保险稽核系 统、CIRC 报送系统、偿付能力报送系统等的基础平台,在公司 IT 架构中具有重要作用。数据平台系统每天凌晨 1 点起抽取核心系统等生产系统上一日的数据, 经加工整理后提供给各数据类子系统使用。

目前数据平台中的数据复制程序满足了系统快速上线的需要,但经过多年运行,弊端越来越明显

包括:   

1. 运行效率低。虽经多次优化,目前仅能勉强在上午9 点之前完成全部数据复制和加工工作。一旦当日业务量增加(如季末年末),次日即可能无法按时 完成数据复制,从而导致报表系统及各数据类系统均无法使用。

2. 可靠性不足。从源端到目标端之间的数据映射是通过手工编写程序的方 式实现的,源端的一个微小变动即可能导致数据复制程序中断运行,进而导致次 日报表系统等无法使用。

3. 数据平台系统的数据不够及时。目前数据平台中只有上一日的生产数据, 不利于充分发挥数据平台的功能,例如提供实时性要求更高的数据支持服务。

4. 对核心系统形成拖累。目前的数据复制程序依赖于核心系统在一些关键 数据表上增加特定索引才能运行,这对核心系统的运行性能形成拖累。

需求分析

采用基于数据库实时复制软件产品来对数据抽取过程进行优化: 

1. 将批量数据抽取修改为实时数据抽取,通过对核心系统数据库产生的 log 日志进行分析,将数据实时发送到数据平台上。 

2. 实现源端和目标端之间的数据同步随时进行,时间差降低到分钟级。既 解决数据复制的效率问题,也为未来数据平台提供各类准实时型数据服务提供条 件;

3. 采用通用数据复制工具,提升数据抽取的可靠性

解决方案

为了满足中国人保寿险数据平台系统的数据抽取要求,满足项目的建设需求, 达到项目建设的目标,系统采用 DR(企业数据一体化集成平台)软件作为 核心系统和人管系统与数据平台之间的数据抽取。 

因为该软件具有以下特点: 

1. 该软件通过 SQL 语句实现对 ORACLE 数据库中的数据进行实时抽取。 因为传统的技术是通过 SQL 语句从生产数据库中批量抽取数据,每天抽取 的数据量非常庞大,所以导致事件很长。最有效的解决方法就是将集中批量抽取 的工作分散到日常工作中来。DR的工作原理是当源数据库每产生一个 archive log 时,DR 都立即 分析产生的 archive log,并且将产生的数据更新到数据平台上,当每天的业务完 成时,剩下的 archive log 也将在短期内应用到数据平台上去,这样就不需要批量 从源数据库上抽取数据了。

2. 支持数据变量识别功能:

DR redo log 中抓取到的数据在装入到数据平台上时,对每条记录的 每次修改都将增加 2 个字段,用来标识该条记录的修改时间和修改类别。 这样便于数据平台上准确、快速识别变量数据。

3. 复制平台需要具备扩展性,与应用无关

DR 是通过对源数据库的 log 文件做分析,不需要从每个数据表中获取 数据,因此这种数据抽取和表的结构无关,对于表的结构变化,或者新增加表, 都不需要对复制软件进行修改。

R7baoxain.png


DR是通过对源数据库的 log 文件做分析,不需要从每个数据表中获取 数据,因此这种数据抽取和表的结构无关,对于表的结构变化,或者新增加表, 都不需要对复制软件进行修改。

DR 是通过对源数据库的 log 文件做分析,不需要从每个数据表中获取 数据,因此这种数据抽取和表的结构无关,对于表的结构变化,或者新增加表, 都不需要对复制软件进行修改。

R7-DIP 软件通过网络连接到人管系统数据库服务器上读取人管系统的archive log/redo log 文件。

核心系统和人管系统数据库服务器上分别创建两个 r7 数据库用户,用作R7-DIP和数据库之间的访问用户,不需要在数据库服务器上安装 R7-DIP的任何代理程序。

DR 配置为 2 个复制任务,分别作为核心系统和人管系统的同步数据获取。从而将核心系统和人管系统上的数据实时装载到数据平台上。

DR 软件通过网络实时获取数据源的数据变化,生成 SQL语句,并将 SQL语句应用到目标数据库。

产品优势

通过采用DR 作为数据抽取系统以后,从以下几个方面为 PICC 得到了加强:

1. 提升数据可靠性

    改变了过去写的专门针对性数据抽取软件,由手工编程改为参数配置,更能保证数据的可靠性。

2. 提高数据复制效率

        通过 DR 能够实现源端和目标端之间的数据同步随时进行,时间差降低到分钟级。而不是每天晚上花 8 个小时取抽取数据


3. 提供未来条件

    通过DR能够实现源端和目标端之间的数据同步随时进行,时间差降低到分钟级。而不是每天晚上花 8 个小时取抽取数据