赛门铁克保险行业容灾系统的升级
详细内容
某保险公司有两个机房分别位于大连和北京,相距500 公里, 机房之间有 20MB 的广域网络连接.大多数核心业务系统(如个险、银保等)均部署在大连,北京中心运行着少量的非关键业务.大连机房的业务系统运行在 50 多台服务器上,包括 AIX、Solaris、Windows、Linux 等系统,还有一部分业务在 VMware 服务器上.3年前,该保险公司已经建立了 Backup 备份系统,将数据周期性备份到物理磁带库上,并定期将磁带递送到北京机房保存,以实现基本的容灾备份.
根据保监会于 2008 年 3 月发布的《保险业信息系统灾难恢复管理指引》要求,保险行业关键业务系统必须达到第 4 级容灾标准,即电子传输及完整设备支持,RTO ≤ 36 小时、RPO ≤ 8 小时. 该公司决定对现有容灾系统进行升级, 以满足自身业务需要和行业监管要求.
一、方案设计
该保险公司大连机房应用环境复杂,有大数据量的关键数据库数据,需要进行高频度的全备及日志备份;还有数 T 的非结构化数据通过网络进行备份;以及大量部署在虚拟化环境中的应用(如 MS-SQL、Exchange)需要实现快速备份及细粒度恢复.赛门铁克解决为其选择了专为 Backup 优化的一体机 5220,主要发挥了一体机的内置源端重删、目标端重删、加速备份、SAN-Client、V-Ray 等技术优势.该保险公司北京机房数据量相对少,因此设计成全部网络备份架构,以节省成本;采用Backup软件,控制服务器直连存储构造MSDP(介质服务器重删池),实现本地应用的重删备份.两个机房之间通过 backup AIR 功能实现两个重删池间的双向数据复制,实现两个机房的互相容灾.
Backup的OpsCenter控制台全局管理两个机房的备份,实现报表定制、健康检查、故障监控等.该容灾系统完全消除了传统备份软件加VTL容灾架构中的复杂性问题,即备份恢复与复制分离,在恢复之前需要手工导入介质、同步 Catalog 等步骤.
二、架构配置
该保险公司大连主中心备份系统利用原先的 Backup软件、新增的 backup5220 备份一体机以及原来的物理带库实现.北京机房备份系统包括 backup 软件、一台备份服务器、一台磁盘阵列、一台磁带库(见图 1).
主机房的核心业务系统对 RPO、RTO 要求高,数据量大,通过后端的 SAN 网络利用 SAN-Client 技术将数据快速备份到 backup 5220 上,以尽量减少对业务的影响;进而通过广域网复制到北京,并在北京定期出库到磁带,做离线长期保存;这些业务系统每天一次全备份,每天多次定时备份归档日志.对于存储在 Solaris 主机内高达数 T 的小文件,通过 backup 的加速备份功能实现小文件备份速度几十倍到百倍的提升,解决用户在小文件备份上的难题.北京机房的业务系统通过安装在主机内的客户端程序,将数据备份到本地重删池中,并定期将数据出库到磁带,离线保存.
三、实施效果
方案实施后,解决了原来由于磁带库故障率高导致的整体备份成功率低的问题,年度备份成功率由原来的80% 提升到当前的 99%;小文件备份时间由原来的一次全备份 2~3 天,降低到当前的 1 个小时;虚拟化平台的备份速度大幅提升,每天全备份的时间窗口控制在 4 个小时以内.由于采用了重删及广域网加速,每天备份数据的异地复制时间控制在 8 个小时以内.