客户案例|中科热备

中国某人寿保险数据平台抽取应用备份项目

项目背景

中国某人寿保险公司数据平台系统是报表系统、反洗钱系统、保险稽核系统、CIRC 报送系统、偿付能力报送系统等的基础平台，在公司 IT 架构中具有重要作用。数据平台系统每天凌晨 1 点起抽取核心系统等生产系统上一日的数据，经加工整理后提供给各数据类子系统使用。

目前数据平台中的数据复制程序满足了系统快速上线的需要，但经过多年运行，弊端越来越明显

包括：

1. 运行效率低。虽经多次优化，目前仅能勉强在上午9 点之前完成全部数据复制和加工工作。一旦当日业务量增加（如季末年末），次日即可能无法按时完成数据复制，从而导致报表系统及各数据类系统均无法使用。

2. 可靠性不足。从源端到目标端之间的数据映射是通过手工编写程序的方式实现的，源端的一个微小变动即可能导致数据复制程序中断运行，进而导致次日报表系统等无法使用。

3. 数据平台系统的数据不够及时。目前数据平台中只有上一日的生产数据，不利于充分发挥数据平台的功能，例如提供实时性要求更高的数据支持服务。

4. 对核心系统形成拖累。目前的数据复制程序依赖于核心系统在一些关键数据表上增加特定索引才能运行，这对核心系统的运行性能形成拖累。

需求分析

采用基于数据库实时复制软件产品来对数据抽取过程进行优化：

1. 将批量数据抽取修改为实时数据抽取，通过对核心系统数据库产生的 log 日志进行分析，将数据实时发送到数据平台上。

2. 实现源端和目标端之间的数据同步随时进行，时间差降低到分钟级。既解决数据复制的效率问题，也为未来数据平台提供各类准实时型数据服务提供条件；

3. 采用通用数据复制工具，提升数据抽取的可靠性

解决方案

为了满足中国人保寿险数据平台系统的数据抽取要求，满足项目的建设需求，达到项目建设的目标，系统采用 DR（企业数据一体化集成平台）软件作为核心系统和人管系统与数据平台之间的数据抽取。

因为该软件具有以下特点：

1. 该软件通过 SQL 语句实现对 ORACLE 数据库中的数据进行实时抽取。因为传统的技术是通过 SQL 语句从生产数据库中批量抽取数据，每天抽取的数据量非常庞大，所以导致事件很长。最有效的解决方法就是将集中批量抽取的工作分散到日常工作中来。DR的工作原理是当源数据库每产生一个 archive log 时，DR 都立即分析产生的 archive log，并且将产生的数据更新到数据平台上，当每天的业务完成时，剩下的 archive log 也将在短期内应用到数据平台上去，这样就不需要批量从源数据库上抽取数据了。

2. 支持数据变量识别功能：

DR 从 redo log 中抓取到的数据在装入到数据平台上时，对每条记录的每次修改都将增加 2 个字段，用来标识该条记录的修改时间和修改类别。这样便于数据平台上准确、快速识别变量数据。

3. 复制平台需要具备扩展性，与应用无关

DR 是通过对源数据库的 log 文件做分析，不需要从每个数据表中获取数据，因此这种数据抽取和表的结构无关，对于表的结构变化，或者新增加表，都不需要对复制软件进行修改。

DR是通过对源数据库的 log 文件做分析，不需要从每个数据表中获取数据，因此这种数据抽取和表的结构无关，对于表的结构变化，或者新增加表，都不需要对复制软件进行修改。

R7-DIP 软件通过网络连接到人管系统数据库服务器上读取人管系统的archive log/redo log 文件。

核心系统和人管系统数据库服务器上分别创建两个 r7 数据库用户，用作R7-DIP和数据库之间的访问用户，不需要在数据库服务器上安装 R7-DIP的任何代理程序。

DR 配置为 2 个复制任务，分别作为核心系统和人管系统的同步数据获取。从而将核心系统和人管系统上的数据实时装载到数据平台上。

DR 软件通过网络实时获取数据源的数据变化，生成 SQL语句，并将 SQL语句应用到目标数据库。

产品优势

通过采用DR 作为数据抽取系统以后，从以下几个方面为 PICC 得到了加强：

1. 提升数据可靠性

改变了过去写的专门针对性数据抽取软件，由手工编程改为参数配置，更能保证数据的可靠性。

2. 提高数据复制效率

通过 DR 能够实现源端和目标端之间的数据同步随时进行，时间差降低到分钟级。而不是每天晚上花 8 个小时取抽取数据

3. 提供未来条件

通过DR能够实现源端和目标端之间的数据同步随时进行，时间差降低到分钟级。而不是每天晚上花 8 个小时取抽取数据