异地灾备体系建设方案
目录
1 灾备体系总体架构 ................................................................................................ 3 2 数据备份系统设计方案 ...................................................................................... 26 3 应用容灾设计方案 .............................................................................................. 50 4 备用数据处理系统设计方案 .............................................................................. 58 5 信息安全体系设计方案 ...................................................................................... 85 6 异地灾备管理体系设计 .................................................................................... 146 7 异地灾备运维体系设计 .................................................................................... 172
1 灾备体系总体架构
1.1 设计目标
对灾备份服务的建设规划将依据灾备评价指标和灾难恢复等级的建设要求与原则进行分析。
图 错误!文档中没有指定样式的文字。-1 灾备评价指标示意图 如上图所示,评价灾备系统主要有两个指标:
1、RPO(Recovery Point Objective),即数据恢复点目标,简单的说就是生产中能接受的最大数据损失量。
2、RTO(Recovery Time Objective),即恢复时间目标,指生产中心能接受的最长停机时间。在这个时间范围内,生产中心必须恢复生产,否则会造成无法容忍的损失。
不同应用中对RTO的指标需求是不同的,客户端访问频繁的核心
数据需要足够小的RTO,如果RTO没有达到指标,就会造成巨大损失,而大多数业务系统对RTO的要求没有如此严格,如果业务运行的间隙发生数据灾难,则几乎影响不到客户访问的连续性。
根据XXX信息系统的重要性,XXX系统的大部分业务系统将RPO定为1小时,RTO定为4~8小时。异地灾备中心的恢复能力将至少满足《信息系统灾难恢复规范》中定义的第4级要求。对于XXX的核心/关键的业务系统将RPO定为30分钟,RTO定为4小时以内,满足《信息系统灾难恢复规范》中定义的第5级要求。
1.2 灾备恢复标准设计
为保障本服务项目的服务质量和服务水平,本次灾备系统的建设将至少符合按照《信息系统灾难恢复规范》(GB/T 20988-2007)的4级标准规定和《关于信息安全等级保护工作的实施意见》要求对灾备系统进行设计。
目前关于灾备恢复的标准主要有《SHARE 78国际容灾恢复标准》与《信息系统灾难恢复规范》(GB/T 20988-2007)。
1.2.1 SHARE 78国际容灾恢复标准
据国际标准SHARE 78,M028的定义,灾难备份解决方案可根据以下列出的主要考虑方面所达到的程度而分为七级,从低到高有七种
不同层次的对应的灾难备份解决方案:
1、Tier 0 - 无异地数据备份(No off-site Data)
Tier 0 被定义为没有信息存储的需求,没有建立备份硬件平台的需求,也没有发展应急计划的需求,数据仅在本地进行备份恢复,没有数据送往异地。这种方式是最为低成本的灾难备份解决方案,但事实上这种灾难备份并没有真正灾难备份的能力,因为它的数据并没有被送往远离本地的地方,而数据的恢复也仅是利用本地的记录。
2、Tier 1- PTAM车辆转送方式( Pickup Truck Access Method) 作为 Tier 1 的灾难备份方案需要设计一个应急方案,能够备份所需要的信息并将它存储在异地,然后根据灾难备份的具体需求,有选择地建立备份平台, 但事先并不提供数据处理的硬件平台。
PTAM是一种用于许多中心备份的标准方式,数据在完成写操作之后,将会被送到远离本地的地方,同时具备有数据恢复的程序。在灾难发生后,一整套系统和应用安装动作需要在一台未启动的计算机上重新完成。系统和数据将被恢复并重新与网络相连。这种灾难备份方案相对来说成本较低(仅仅需要传输工具的消耗以及存储设备的消耗)。 但同时有难于管理的问题,即很难知道什么样的数据在什么样的地方。一旦系统可以工作,标准的做法是首先恢复关键应用,其余的应用根据需要恢复。这样的情况下,恢复是可能的,但需要一定的时间,同时依赖于什么时候硬件平台能够被提供准备好。
3、Tier 2 - PTAM卡车转送方式+热备份中心 (PTAM + Hot Site) Tier 2相当于是Tier 1再加上具有热备份能力中心的灾难备
份。热备份中心拥有足够的硬件和网络设备去支持关键应用的安装需求。对于十分关键的应用,在灾难发生的同时,必须在异地有正运行着的硬件平台提供支持。这种灾难备份的方式依赖于用PTAM的方法去将日常数据放在异地存储,当灾难发生的时候,数据再被移动到一个热备份的中心。虽然移动数据到一个热备份中心增加了成本,但却明显降低了灾难备份的时间。
4、Tier 3 - 电子传送(Electronic Vaulting)
Tier 3 是在Tier 2的基础上用电子链路取代了车辆进行数据传送的灾难备份。接收方的硬件平台必须与生产中心物理地相分离,在灾难发生后,存储的数据用于灾难备份。由于热备份中心要保持持续运行,因此增加了成本。但确实是消除了运送工具的需要,提高了灾难备份的速度。
5、Tier 4 - 活动状态的备份中心 (Active Secondary Site) Tier 4 这种灾难备份要求两个中心同时处于活动状态并管理彼此的备份数据,允许备份行动在任何一个方向发生。接收方硬件平台必须保证与另一方平台物理地相分离,在这种情况下,工作负载可以在两个中心之间被分担,两个中心之间彼此备份。在两个中心之间,彼此的在线关键数据的拷贝不停地相互传送着。在灾难发生时,需要的关键数据通过网络可迅速恢复,通过网络的切换,关键应用的恢复时间也可降低到了小时级。
6、Tier 5 - 两中心两阶段确认 (Two-Site Two-Phase Commit) Tier 5 是在Tier 4的基础上在镜像状态上管理着被选择的数
据 (根据单一commit范围,在本地和远程数据库中同时更新着数据),也就是说,在更新请求被认为是满意之前,Tier 5需要生产中心与备份中心的数据都被更新。我们可以想象这样一种情景,数据在两个中心之间相互映像,由远程two-phase commit来同步,因为关键应用使用了双重在线存储,所以在灾难发生时,仅仅传送中的数据被丢失,恢复的时间被降低到了小时级。
7、Tier 6 - 零数据丢失 (Zero Data Loss)
Tier 6 可以实现零数据丢失率,同时保证数据立即自动地被传输到备份中心。Tier 6被认为是灾难备份的最高的级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力。Tier 6是灾难备份中最昂贵的方式,也是速度最快的恢复方式,恢复的时间被降低到了分钟级。对于Tier 6 的灾难备份解决方案,可以应用两种远程拷贝技术来实现。
各灾难恢复级别所对恢复时间的要求与资源开销之间的关系如下图所示:
图 错误!文档中没有指定样式的文字。-2 灾难恢复级别与资源开销
之间的关系
由上图可知,灾难恢复级别越高,对于恢复的时间要求更短。尤其是由Tier 4提升至Tier 5时,由于Tier 5要求灾备数据中心处于在线状态,此情况下的资源开销将呈现指数级别增长。因此,需具体结合实际业务需求,充分考虑业务系统的时间恢复要求及可承受的资源开销情况,再决定系统的灾难恢复级别。
1.2.2 《信息系统灾难恢复规范》(GB/T 20988-2007)
《信息安全技术 信息系统灾难恢复规范》(GB/T 20988-2007)对于信息系统的灾难恢复能力进行了等级划分,如下图所示:
图 错误!文档中没有指定样式的文字。-3信息系统灾难恢复规范定
义的灾难恢复级别
第1级 基本支持
第1级灾难恢复能力应具有技术和管理支持如下表所示: 表 错误!文档中没有指定样式的文字。-1 第1级 基本支持 要素 数据备份系统 b)备份介质场外存放。 备用数据处理系统 备用网络系统 备用基础设施 专业技术支持能力 —— —— 有符合介质存放条件的场地。 —— 要求 a)完全数据备份至少每周一次;
要素 要求 a)有介质存取、验证和转储管理制度; 运行维护管理能力 b)按介质特性对备份数据进行定期的有效性验证。 有相应的经过完整测试和演练的灾难恢复灾难恢复预案 预案 注:“——”表示不作要求 第2级 备用场地支持
第2级灾难恢复能力应具有技术和管理支持如下表所示: 表 错误!文档中没有指定样式的文字。-2 第2级 备用场地支持 要素 数据备份系统 b)备份介质场外存放。 配备灾难恢复所需的部分数据处理设备,或备用数据处理系统 灾难发生后能在 预定时间内调配所需的数据处理设备到备用场地 配备部分通信线路和相应的网络设备,或灾备用网络系统 难发生后能在预 定时间内调配所需的通信线路和网络设备到备用场地。 备用基础设施 a) 有符合介质存放条件的场地; 要求 a)完全数据备份至少每周一次;
要素 要求 b) 有满足信息系统和关键业务功能恢复运作要求的场地。 专业技术支持能力 —— a) 有介质存取、验证和转储管理制度; b) 按介质特性对备份数据进行定期的有效性验证; 运行维护管理能力 c) 有备用站点管理制度; d) 与相关厂商有符合灾难恢复时间要求的紧急供货协议; e) 与相关运营商有符合灾难恢复时间要求的备用通信线 路协议。 有相应的经过完整测试和演练的灾难恢复预灾难恢复预案 案 注:“——”表示不作要求 第3级 电子传输和部分设备支持
第3级灾难恢复能力应具有技术和管理支持如下表所示: 表 错误!文档中没有指定样式的文字。-3 第3级 电子传输和部分
设备支持
要素 数据备份系统 b)备份介质场外存放; 要求 a)完全数据备份至少每周一次;
要素 要求 c) 每天多次利用通信网络将关键数据定时批量传送至备用场地。 备用数据处理系统 配备灾难恢复所需的部分数据处理设备。 备用网络系统 配备部分通信线路和相应的网络设备。 a) 有符合介质存放条件的场地; 备用基础设施 b) 有满足信息系统和关键业务功能恢复运作要求的场地。 在灾难备份中心有专职的计算机机房运行管专业技术支持能力 理人员。 a) 按介质特性对备份数据进行定期的有效性验证; b) 有介质存取、验证和转储管理制度; 运行维护管理能力 c) 有备用计算机机房管理制度; d) 有备用数据处理设备硬件维护管理制度; e) 有电子传输数据备份系统运行管理制度。 有相应的经过完整测试和演练的灾难恢复预灾难恢复预案 案 注:“——”表示不作要求 第4级 电子传输和完整设备支持
第4级灾难恢复能力应具有技术和管理支持如下表所示:
表 错误!文档中没有指定样式的文字。-4 第4级 电子传输和完整
设备支持
要素 要求 a)完全数据备份至少每周一次; b)备份介质场外存放; 数据备份系统 c) 每天多次利用通信网络将关键数据定时批量传送至备用场地。 备用数据处理配备灾难恢复所需的全部数据处理设备,并处于系统 就绪状态或 运行状态。 a) 配备灾难恢复所需的通信线路; 备用网络系统 b) 配备灾难恢复所需的网络设备,并处于就绪状态。 a) 有符合介质存放条件的场地; b) 有符合备用数据处理系统和备用网络设备运行备用基础设施 要求的场地; c) 有满足关键业务功能恢复运作要求的场地; d) 以上场地应保持 7x24 小时运作。 在灾难备份中心有: 专业技术支持a) 7x24 小时专职计算机机房管理人员; 能力 b) 专职数据备份技术支持人员; c) 专职硬件、网络技术支持人员。
要素 要求 a) 按介质特性对备份数据进行定期的有效性验证; 运行维护管理b) 有介质存取、验证和转储管理制度; 能力 c) 有备用计算机机房管理制度; d) 有备用数据处理设备硬件维护管理制度; e) 有电子传输数据备份系统运行管理制度。 灾难恢复预案 有相应的经过完整测试和演练的灾难恢复预案 注:“——”表示不作要求 第5级 实时数据传输和完整设备支持
第5级灾难恢复能力应具有技术和管理支持如下表所示: 表 错误!文档中没有指定样式的文字。-5 第5级 实时数据传输和
完整设备支持
要素 要求 a)完全数据备份至少每周一次; b)备份介质场外存放; 数据备份系统 c) 每天多次利用通信网络将关键数据定时批量传送至备用场地。 备用数据处理配备灾难恢复所需的全部数据处理设备,并处于系统 就绪状态或 运行状态。 备用网络系统 a) 配备灾难恢复所需的通信线路;
要素 要求 b) 配备灾难恢复所需的网络设备,并处于就绪状态; c) 具备通信网络自动或集中切换能力。 a) 有符合介质存放条件的场地; b) 有符合备用数据处理系统和备用网络设备运行备用基础设施 要求的场地; c) 有满足关键业务功能恢复运作要求的场地; d) 以上场地应保持 7x24 小时运作。 在灾难备份中心7x24小时有专职的: 专业技术支持a) 计算机机房管理人员; 能力 b) 数据备份技术支持人员; c) 硬件、网络技术支持人员 a) 按介质特性对备份数据进行定期的有效性验证; 运行维护管理b) 有介质存取、验证和转储管理制度; 能力 c) 有备用计算机机房管理制度; d) 有备用数据处理设备硬件维护管理制度; e) 有电子传输数据备份系统运行管理制度。 灾难恢复预案 有相应的经过完整测试和演练的灾难恢复预案 注:“——”表示不作要求
第6级 数据零丢失和远和集群支持
第6级灾难恢复能力应具有技术和管理支持如下表所示: 表 错误!文档中没有指定样式的文字。-6 第6级 数据零丢失和远
和集群支持
要素 要求 a)完全数据备份至少每周一次; b)备份介质场外存放; 数据备份系统 c) 每天多次利用通信网络将关键数据定时批量传送至备用场地。 a) 备用数据处理系统具备与生产数据处理系统一致的处理能力并完全兼容; 备用数据处理b) 应用软件是“集群的”,可实时无缝切换; 系统 c) 具备远程集群系统的实时监控和自动切换能力。 a) 配备与主系统相同等级的通信线路和网络设备; 备用网络系统 b) 备用网络处于运行状态; c) 最终用户可通过网络同时接入主、备中心。 a) 有符合介质存放条件的场地; 备用基础设施 b) 有符合备用数据处理系统和备用网络设备运行要求的场地;
要素 要求 c) 有满足关键业务功能恢复运作要求的场地; d) 以上场地应保持 7x24 小时运作。 在灾难备份中心7x24小时有专职的: 专业技术支持a) 计算机机房管理人员; 能力 b) 数据备份技术支持人员; c) 硬件、网络技术支持人员 a) 有介质存取、验证和转储管理制度; b) 按介质特性对备份数据进行定期的有效性验证; 运行维护管理c) 有备用计算机机房运行管理制度; 能力 d) 有硬件和网络运行管理制度; e) 有实时数据备份系统运行管理制度; f) 有操作系统、数据库和应用软件运行管理制度。 灾难恢复预案 有相应的经过完整测试和演练的灾难恢复预案 注:“——”表示不作要求 1.2.3 灾难恢复等级设计
SHARE 78国际容灾恢复标准与《信息系统灾难恢复规范》都是按照业务的备份环境对系统的灾难恢复等级进行划分,这两个标准之间
的对比情况如下表所示:
表 错误!文档中没有指定样式的文字。-7 灾难恢复标准对比
《信息系统灾难恢复规SHARE78 范》GB/T 20988-2007 Tie无异地备份数据 r-0 Tie统 r-1 用卡车运送备份数据 有数据备份,有备用系第Tier-2 用卡车运送备份数据。 级 到备份中心 电子传输和部分设电子链接,消除运送工第备支持。灾备中心配12小数小Tie具的需要,提高了灾难3备部分业务处理和时以时至r-3 恢复速度 级 网络设备,具备部分上 通讯链路。 灾难恢复具有两个中第电子传输和完整设数小数小Tie心彼此备份数据,允许4备支持。数据定时批时至时至r-4 备份行动在任何一个级 量传送,网络/系统2天 1天 1天 统 2在预定时间内调配上 天 和业务处理系统可时以至7备份场地支持。网络24小1天级 期验证 第基本级。备份介质场2天有数据备份,无备用系1外存,安全保管、定以上 天 至71天RTO RPO
方向发生。两个中心之间,彼此的关键数据的拷贝不停地相互传送着。在灾难发生时,需要的关键数据通过网络可迅速恢复,通过网络的切换,关键应用的恢复也可降低到小时级或分钟级。 始终就绪。温备中心模式。 实时数据传输及完保证交易的完整性为整设备支持。采用远关键应用使用了双重第程复制技术,实现数数分0至Tie在线存储,在灾难发生5据实时复制,网络具钟至30r-5 时,仅传送中的数据被级 备自动或集中切换2天 分钟 丢失,恢复时间被降低能力,业务处理系统到分钟级。 就绪或运行中。 无数据丢失,同时保证Tier-数据零丢失和远程数分输到恢复中心。Tier66备份,零丢失,系统钟 6/7 被认为是灾难恢复的级 /应用远程集群,可最高的级别,在本地和自动切换,用户同时0 数据立即自动地被传第集群支持。数据实时
远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力。第7层实现能够提供一定程度的跨站点动态负载平衡和自动系统故障切换功能。 接入主备中心 如要达到某个灾难恢复能力等级,应同时满足该等级中7个要素的相应要求,且灾难备份中心的等级等于其可支持的灾难恢复最高等级。根据XXX信息系统的重要性,XXX系统的核心业务系统将RPO定为1小时,RTO定为4~8小时。结合上表,本期将异地灾备中心的灾难恢复等级定义为4级。
1.3 灾备体系总体架构
根据《信息安全技术 信息系统灾难恢复规范》中对于第4级灾难恢复能力的建设要求,本期XXX信息系统异地灾备中心建设项目的灾备体系总体建设架构如下图所示:
图 错误!文档中没有指定样式的文字。-4灾备体系建设总体架构 本期灾备体系主要由备用数据处理系统、数据备份系统、应用容灾、备份管理体系、信息安全体系、灾备运维体系六大部分组成。
1、备用数据处理系统:备份系统的运行基础。主要包括网络设备、存储设备、服务器、虚拟化平台、操作系统、数据库、安全系统等基础设施资源,为业务应用系统和支撑平台提供计算资源、存储资源、网络资源、数据库资源、中间件资源,是保证应用数据存储及备份管理的基本条件。
2、数据备份系统:系统在异地保存一份可用的数据备份,制定全量备份、增量备份、合成备份的策略,对XXX的全部数据实现数据级容灾,提供文件备份、数据库备份、操作系统备份、虚拟化备份的服务;
3、应用容灾:针对个别关键系统,基于备用数据处理系统提供
的计算资源环境以及数据备份系统提供的数据副本,建立一套与生产系统相当的应用系统备份环境,提供数据库容灾、应用数据容灾、网络容灾等应用级容灾服务。
4、备份管理体系:搭建备份管理平台,实现对备份的监控管理、配置管理、数据安全管理、报表统计管理、多租户管理、运维管理、系统管理、日志管理等内容,并规划备份恢复演练内容。
5、信息安全体系:依照等级保护要求,从物理安全、网络安全、主机安全、数据安全、应用安全及管理安全等方面搭建异地容灾中心信息安全保障体系。
6、运维管理体系:基于ITIL的运维管理流程框架,搭建涉及运维组织架构、运维管理模式、运维组织建设、运维制度建设、运维服务范围及要求等内容的运维管理体系。
本次XXX信息中心数据的异地灾备涉及到海量数据级别,为满足《信息系统灾难恢复规范》至少要达到4级标准要求(RPO小于等于24h,RTO小于等于24h),对灾备系统的性能和稳定性提出很高要求,并为避免对生产系统造成性能影响和稳定性干扰,本期项目需在XXX生产数据中心部署备份数据缓存和中转资源池。项目的整体组网架构和方案实现描述如下:
物理服务器区(数据库、应用)灾备管理平台专线虚拟化平台资源池灾备中心计算资源池应用导入应用导出异步复制本地缓存池中转资源池异地灾备资源池异地缓存池文件恢复文件恢复SAN LAN 异步复制FC SAN政府专网 图 错误!文档中没有指定样式的文字。-5生产中心与备份中心网络
连接示意图
通过上述架构可实现生产中心XX云平台与系统的异地数据备份及应用级恢复(针对部分核心业务系统),可对文件存储、块级存储、对象存储等不同存储方式的数据进行异地备份。
为满足XXX数据和业务系统的兼容性、开放性、灵活性等要求,通过对云虚拟化平台、数据库、应用系统进行标准化文件导出和本地缓存、中转资源池的方式,从而实现本次灾备系统兼容和开放的设计目标;
1、两地机房链路链接
异地灾备中心机房提供数据容灾备份系统的机房运行环境和网络运行环境;生产数据中心与异地灾备中心之间通过专线连接,满足异地灾备系统的基础设施需求和网络互联需求;
2、生产机房部署及实现说明
在生产中心部署本地缓存池,并部署中转资源池;
XX云平台通过标准接口或定制开发方式,将XX云平台数据(包括虚拟机、应用文件)导出为相应格式的数据(备份系统可识别)到本地缓存池;
中转资源池以缓存池中的数据为源数据进行文件备份到中转资源池;
3、灾备机房部署及实现说明
在灾备中心部署一套灾备管理平台(根据实际需要进行的定制开发),可实现对灾备系统进行集中监控、配置、报表、统计、报表、告警等功能,方便进行日常维护、管理;
在灾备中心部署异地缓存池和异地灾备资源池;
灾备系统将中转资源池的备份集,通过灾备专线进行异步复制(重删压缩后)到灾备中心的异地灾备资源池中,完成异地数据灾备;
在灾备中心部署灾备虚拟化计算资源池、灾备存储资源池、灾备网络和安全系统其它运维管理资源;
针对需要进行异地接管的部分核心应用,在灾备中心云平台中,搭建与源端相同的应用系统环境(安装相同的操作系统版本,安装相同的应用软件),为后续应用恢复做好基础环境准备;
针对需要进行异地接管的部分核心应用,灾备系统将备份数据恢复到灾备中心缓存池中,采用自动或手工的方式将恢复出来的应用数据,导入到已准备好的应用环境中,实现应用级恢复,并定期进行灾备恢复演练;
灾备系统资源池通过部署备份管理服务器和备份一体化设备,实现备份数据的集中存储;
虚拟化平台资源池部署虚拟化软件和云管理平台,实现灾备中心的虚拟化计算资源环境,部分物理服务器主要部署核心应用的数据库(性能和稳定性要求);
在计算资源池中划出部分空间,搭建缓存池,并部署备份/恢复客户端,用于存放恢复出来的应用数据,用于定期恢复演练。
在该建设框架下,整体的备份数据流向如下图所示:
图 错误!文档中没有指定样式的文字。-6 整体备份数据流向示意图
由XX云平台将生产应用系统数据导出,放置在缓存池中;
通过在缓存池中安装备份/恢复代理,对导出数据进行(缓存池中的数据)备份,保存到资源池中;
备份出来的备份集通过备份系统的复制功能复制到异地灾备中心的异地灾备资源池中;
在异地灾备中心进行数据恢复,恢复数据到缓存池
通过手工或自动的方式将恢复出来的数据(缓存池中的数据)导入到异地云平台中,实现应用恢复及应用接管。
2 数据备份系统设计方案
2.1 数据备份系统架构
数据备份系统采用如下三层架构:
图 错误!文档中没有指定样式的文字。-7数据备份系统架构
备份管理控制台:负责管理配置全域内的备份策略和跟踪客户端的备份,能够管理多种存储介质并进行权限分配,实现多个客户端的数据备份。备份软件主服务器是备份域内集中管理的核心,统一管理整个备份域。
存储介质端:提供备份数据存储空间,由备份主服务器管理,多个备份存储服务器可形成备份资源池。备份存储服务器与主备份服务器的不同在于全网的备份策略和控制通路均由主服务器集中管理,而备份存储服务器主要用于提供数据存储空间,由备份主服务器统一调配。
客户端(数据库和操作系统客户端):需要备份数据的任何计算机都称为备份客户端。通常是指应用程序、数据库或文件服务器。备份客户端也用来表示能从在线存储器上读取数据并将数据传送到备份服务器的软件组件。
2.2 数据复制技术设计
数据备份的关键是实现数据在生产资源池和备份资源池之间的复制。根据数据复制的层次,数据复制技术的实现可以分为三种:存储系统层数据复制、网络层数据复制和主机层数据复制,其中,根据主机层中应用系统的架构,又可细分为基于应用系统的数据复制、基于数据库的数据复制以及基于逻辑卷的数据复制技术,如下图所示:
生产中心应用系统主机层数据库卷管理器灾备中心① 应用系统数据库卷管理器1、基于应用系统的数据复制备份 --应用程序在本地、远端双写2、基于数据库的数据备份 --数据库本身的远程复制3、基于主机(逻辑卷)的数据备份 --卷管理器层面截获I/O,远程复制② ③ ④ 网络层存储层SAN网络SAN网络4、基于SAN网络虚拟化的数据备份 --交换机虚拟化设备担任数据复制引擎5、基于存储设备(存储系统)的数据备份 --智能存储远程数据复制存储系统⑤ 存储系统图 错误!文档中没有指定样式的文字。-8数据备份方式示意图 上图所示共五种数据复制技术中,基于应用系统的数据复制技术往往需要对应用系统本身进行修改,实现应用系统对生产资源池及备份资源池的双写,因此在实际场景下并不采用该方式来实现数据备份。对其余的四种数据复制技术的对比分析如下表所示:
表 错误!文档中没有指定样式的文字。-8数据复制技术对比分析
复制基于存储数基于虚拟化技术 据的备份 项目 的数据备份 份 通过存储的利用虚拟化通过结合操利用数据库克隆、快照技平台的快照作系统磁盘的备份接基本原理 术,实现大数和克隆技术和数据卷管口,通常采据量的快速实现虚拟机理来实现数用日志复制数据备份和和所支持应据的备份 和归档功统的数据备的数据备份 基于操作系基于数据库
恢复 用的数据备份 能,实现数据库的热备份。 与存储平台有关,需要专与虚拟化平通用平台和普遍支持,平台要求 用的存储接台开放接口操作系统支与平台无关 口和SAN网相关 络支持 保护性能 较高 高 高 高 持 对生产系统对主机和存对生产系统占用部分生资源占用 存储性能有储资源占用主机性能有产系统数据影响 技术成熟储和备份软源和国产化成熟 度 件结合 高,兼容性成投入成本 本高 持成本较高 1、基于存储的数据备份
现在的存储设备经过多年的发展已经十分成熟。特别是中高端产品,一般都具有先进的数据管理功能。远程数据复制功能几乎是现有
和国产化支一般 一般 支持一般 一般,开源成熟 低 影响 库资源 一般,需要存成熟,对开
中高端产品的必备功能。要实现数据的复制需要在生产资源池和备份资源池都部署1套这样的存储系统,数据复制功能由存储系统实现。如果距离比较近(几十公里之内)之间的链路可由两中心的存储交换机通过光纤直接连接,如果距离在100公里内也可通过增加DWDM等设备直接进行光纤连接,超过100公里的距离则可增加存储路由器进行协议转换途径WAN或INTERNET实现连接,因此从理论上可实现无限制连接。
存储系统层的数据复制技术对于主机的操作系统是完全透明的,是对于将来增加新的操作平台,可不用增加任何复制软件的投资,即可完成实现复制。这样管理比较简单,最大程度保护了用户的投资,达到充分利用资源的目的。基于存储的复制一般都是采ATM或光纤通道做为远端的链路连接,不仅可以做到异步复制,更可以做到同步复制,使两端数据可做到实时同步的目的,保证了数据的一致性。缺点是由于存储是由硬件厂商提供的,在兼容性方面有局限性。用户要使用同一厂商的设备,给用户造成的选择面太小,成本容易提高,并且对线路带宽的要求通常也较高。对于预算充足,存储环境不是很复杂的企业来说,选择基于存储的技术比较适合。
2、基于虚拟化的数据备份
近年来,随着存储技术的不断发展,在存储系统层次数据备份技术上还出现了基于网络的存储虚拟化设备来实现。这种方式的特点是依靠外加的网络层设备来实现两个存储设备之间的数据复制,数据复制过程不占用资源,两个存储之间的数据同步在网络层完成。根据存
储虚拟化设备工作机制的不同,一般可分为带内(In-Band)和带外(Out-of-Band)两种。
图 错误!文档中没有指定样式的文字。-9 基于存储虚拟化的数据备
份系统结构
上图所示为常见存储虚拟化设备的系统结构图。存储虚拟化设备通过交换机分别连接主机商Fabric和存储端Fabric,主要功能是管理对存储设备上的逻辑卷,对已有逻辑卷进行虚拟化或创建虚拟的条带卷,消除存储设备异构对主机系统的影响,提高存储设备的可用性和总体性能。另外一个功能就是卷复制和镜像,通过存储虚拟化设备实现两个虚拟卷之间的数据安全保护。
通过存储虚拟化设备实现卷镜像复制功能的优势在于操作由存储虚拟化设备来完成,压力集中的存储虚拟化设备上,不需要主机参与,数据复制进程安全稳定。缺点是需要增加专用存储虚拟化设备,带外方式有的需要在主机端安装存储虚拟化设备的客户端软件,有的需要依赖高端智能交换机。目前使用该技术的产品类型还不是很多,
成熟性有待提高,具有这种功能的专用设备价格也相对较高。
3、基于操作系统的数据备份
基于操作系统的数据备份方式主要通过操作系统或者数据卷管理器来实现对数据的远程复制。这种复制技术要求本地系统和远端系统的主机是同构的,其实现方式是基于主机的数据复制,备份方式工作在主机的卷管理器这一层,通过磁盘卷的镜像或复制,实现数据的备份。这种方式也不需要在两边采用同样的存储设备,具有较大的灵活性,缺点是复制功能会多少占用一些主机的CPU资源,对主机的性能有一定的影响。
目前基于原厂的逻辑卷管理软件如IBM AIX LVM、HP-UINX MirrorDisk、Sun Solaris SVM等可以实现在本厂平台上的逻辑卷镜像,专业的数据复制软件提供了更大的灵活性,支持多个平台的逻辑卷镜像。
4、基于数据库的数据备份
数据库数据复制技术通常采用日志复制功能,依靠本地和远程主机间的日志归档与传递来实现两端的数据一致。这种复制技术对系统的依赖性小,有很好的兼容性。缺点是本地复制软件向远端复制的是日志文件,这需要远端应用程序重新执行和应用才能生产可用的备份数据。
目前基于数据库的复制技术主要有:Oracle DataGuard、Oracle GoldenGate、DSG RealSync、QuestSharePlex 、IStream DDS等。
2.3 备份组网架构选型
目前备份网络架构主要包含 LAN-Based、LAN-Free、Server-Free 等多种方式。备份网络架构的选择应按照系统业务数据的安全级别、业务系统数据量的大小、业务系统对备份性能、备份窗口、备份对主机资源的占用、数 据恢复性能等方面的要求进行确定。
2.3.1 LAN-BASED 备份架构
LAN-Based备份,在该系统中数据的传输是以网络为基础的。其中配置一台服务器作为备份服务器,由它负责整个系统的备份操作。备份介质则接在某台服务器上或与备份服务器为同一设备,在数据备份时备份对象把数据通过网络传输到备份介质中实现备份的。
LAN-Based备份结构的优点是节省投资、备份介质共享、集中备份管理。
在该模式下,需要在缓存资源池服务器上安装客户端模块。在备份操作时,客户端模块从缓存资源池中读取需要备份的数据,并通过LAN网络把备份数据传给存储服务器;在恢复操作时,通过LAN把数据传给客户端,客户端把数据写入生产系统。在LAN-Based模式下,备份/恢复操作的数据需要经过LAN网转送。
2.3.2 LAN-FREE 备份架构
LAN-Free的备份方式是建立在SAN(存储区域网)的基础上的,基于SAN的备份是一种彻底解决传统备份方式需要占用LAN带宽问题的解决方案。它采用一种全新的体系结构,将磁带库和磁盘阵列各自作为独立的光纤结点,多台主机共享磁带库备份时,数据流不再经过网络而直接从磁盘阵列传到磁带库内,是一种无需占用网络带宽 (LAN-Free) 的解决方案。LAN-Free的优点是数据备份统一管理、备份速度快、网络传输压力小、磁带库资源共享;缺点是投资高。
在该模式下,在生产机内需要安装客户端模块。在备份操作时,客户端模块把需要备份的数据从生产数据存储设备中读入生产机,并在生产机内把备份数据传给备份客户端,备份客户端将把数据通过SAN写到备份设备上;在恢复操作时,SAN 备份将通过SAN网从备份设备上读入恢复数据,在生产机内把数据传给客户端,客户端把数据写入生产系统。在LAN Free模式下,备份/恢复操作的数据经过SAN网转送。
2.3.3 SERVER-FREE 备份架构
Server Free备份采用各种技术将备份操作转移到其他客户端和主机, 因此该功能的目的是将备份的影响从主机转移到其他设备或服务器这种备份方法需要先进技术和特殊设备,而且进行这种备份的
成本很高,但这种备份方法对于不能容忍备份对其主机系统或LAN网络有任何影响的企业具有很大的好处。尽管进行脱离主机备份有多种方法,但基本方法才是最适用的方法。客户的SAN附带磁盘被映射到第三个映像卷,然后映像被分离,按照逻辑顺序导入到备份服务器。尽管卷通常托管在备份服务器上,但仍会进行备份,备份完成后该卷将与磁盘阵列上的映像重新同步准备下一次备份。
本项目为异地远程灾备项目,根据用户的实际环境及需求,本项目的备份模式将采用LAN-Base备份的方式进行设计。
2.4 备份服务设计
本期备份系统主要提供的备份服务包括:文件备份、数据库备份、操作系统备份及虚拟化备份服务
2.4.1 文件备份
本期备份系统服务应支持Windows、Linux、UNIX上FAT32、NTFS、ext2、ext3、ext4、xfs等主流文件系统数据备份。可实现的文件备份功能如下所示:
表 错误!文档中没有指定样式的文字。-9文件备份主要功能 功能 描述
增量备份 合成备份 文件过滤 支持文件级,数据块级增量备份 支持完全备份和增量备份后台合成 支持过滤常用类型或自定义类型的文件、支持过滤指定规则的目录 恢复粒度 恢复方式 恢复位置 打开文件备份 支持恢复整个时间点、单个文件或目录 支持浏览恢复、搜索恢复 支持恢复到原位置,恢复到指定客户端其它位置 介质恢复、任意时间点恢复、灾难恢复(异机) 海量小文件备份 通过合成备份,持续归档备份等技术实现海量小文件的快速备份 2.4.2 数据库备份
本期备份系统可通过调用数据库对应的备份API接口实现数据库备份。
为提升备份性能,建议采用多通道多线程技术进行数据备份。依据数据文件的数量、数据分布情况、生产机负载情况,选择合适的通道数目进行同时备份。可实现的数据库备份功能如下:
表 错误!文档中没有指定样式的文字。-10数据库备份主要功能 功能 备份类型 描述 数据库、表空间、数据文件、归档日志、数据库
导出 备份方法 备份模式 备份设备 完全备份、差异增量备份、累计增量备份 D2T、D2D2T 本地、CIFS、远程存储服务器 备份数据压缩和支持 限速 数据重删 关联策略 恢复类型 恢复粒度 支持 支持 介质恢复、任意时间点恢复、灾难恢复(异机) 整个实例、表空间、数据文件 2.4.3 操作系统备份
操作系统备份支持x86和x86_64硬件平台下的Windows、Linux操作系统备份,可以将操作系统备份到指定的存储设备,并能将已备份操作系统还原到指定设备上,实现Windows、Linux灾难恢复、裸机恢复。可实现的操作系统备份主要功能如下:
表 错误!文档中没有指定样式的文字。-11操作系统备份主要功能 功能 增量备份 备份粒度 描述 仅云备份系统变化的部分 支持仅备份Windows系统盘及Linux指定分区;仅备
份有效数据部分 恢复粒度 裸机恢复 驱动更新 仅恢复系统分区,或恢复整个系统 支持不同硬件平台的系统裸机恢复 恢复到新硬件平台式,提供自助方式更新驱动,保障系统正常启动 系统恢复方通过光盘、USB盘、硬盘引导恢复 式 时间点恢复 选择指定时间点进行恢复 备份路径 支持备份到原计算机的本地硬盘或存储服务器 2.4.4 虚拟化备份
支持VMware vSphere、Citrix XenServer、KVM、Xen、FusionSphere、阿里等主流虚拟化平台虚拟机的备份。支持虚拟机自动发现,结构化展示。虚拟机完全在线备份,避免生产系统因备份而停止提供服务。实现虚拟机系统备份,并可扩展到文件级备份。可同时备份或恢复多个虚拟机。支持虚拟机的原机恢复、新建恢复方式。基于时间、空间的保留策略配置,灵活控制备份点存量。支持备份点数据的归档与还原。虚拟机备份支持目标端压缩,传输加密,重删等多种功能。可实现的虚拟化备份功能如下所示:
表 错误!文档中没有指定样式的文字。-12 虚拟化备份主要功能 功能 自动发现 备份方式 增量备份 备份粒度 恢复方式 描述 自动发现云平台的虚拟客户机 支持SAN模式;LAN模式 仅云备份系统变化的部分 仅备份有效数据部分或虚拟机整机 挂载恢复;单文件及文件目录恢复;虚拟机整机恢复 时间点恢复 选择指定时间点进行恢复 恢复位置 覆盖恢复;恢复成新建虚拟机 2.5 备份策略设计
2.5.1 整体备份策略设计
备份策略是指确定需要备份的内容、备份时间以及备份方式。 选择合适的备份频率(如经常备份,有规律备份,做了结构上的修改应及时备份等)。尽量采用定时器、批处理等由计算机自动完成的方式,以减少备份过程中的手工干预,防止操作人员的漏操作或误操作。
根据数据的重要性可选择一种或几种备份交叉的形式制定备份策略。
若数据量比较小或者数据实时性不强或者是只读的,备份的介质
可采用磁盘或光盘。在备份策略上呵执行每天一次数据库增量备份,每周进行一次全备。
备份策略制定是一个重要部分。我们知道需要备份的数据被更新的概率约为20%。这个原则告诉我们,每次备份都完整的复制所有数据是一种非常不合理的做法。事实上,真实环境中的备份工作往往是基于一次完整备份之后的增量或差量备份。那么完整备份与增量备份和差量备份之间如何组合,才能最有效的实现备份保护,这正是备份策略所关心的问题。还有工作过程控制。根据预前制定的规则和策略,备份工作何时启动,对哪些数据进行备份,以及工作过程中意外情况的处理,这些都是备份软件不可推卸的责任。这其中包括了与数据库应用的配合接口,也包括了一些备份软件自身的特殊功能。例如很多情况下需要对打开的文件进行备份,这就需要备份软件能够在保证数据完整性的情况下,对打开的文件进行操作。另外,由于备份工作一般都是在无人看管的环境下进行,一旦出现意外,正常工作无法继续时,备份软件必须能够具有一定的意外处理能力。
数据备份有多种方式,应根据具体情况选择最合适的方式。选择备份类型时,一般的规则如下:
对于操作系统和应用程序代码,可在每次系统更新或安装新软件时进行一次全备份。
对于一些日常数据更新量大,但总体数据量不是非常大的关键应用数据,可每天在用户使用量较小的时候安排全备份。
对于日常更新量相对于总体数据量较小,而总体数据量非常大的
关键应用数据,可每隔一个月或一周安排一次全备份,在此基础上,每隔一个较短的时间间隔做增量备份。
下表描述了各类备份的优缺点:
表 错误!文档中没有指定样式的文字。-13 备份策略对比 备份类优点 型 易于查找文件,因为费时。如果文件不频繁进行更改,全备份 文件都位于同一备份备份内容几乎完全相同。 集中。 需要存储的数据最完全恢复系统需要的时间比全备增量 少。备份速度最快。 份或差异备份长。 恢复时仅需要最新全完全恢复系统需要的时间比全备备份集和差异备份份长。如果大量数据发生变化,备差异 集,备份速度比全备份所需的时间长于增量备份的时份快。 将全备份和增量备份合成全合并到一个新的全备 备份 份中。备份和还原时间减少。 间。 缺点 1.1.2.5.1.1 全量备份
全备份是备份系统中所有的数据,如果使用全备份,恢复所有文
件时仅需具备最新的备份文件副本,全备份通常在首次创建备份集时执行。优点是恢复时间最短,操作最方便,也最可靠;缺点是备份数据量大,数据多时可能做一次全备份需很长时间。全备份也可以称为完全备份。
1.1.2.5.1.2 增量备份
增量备份是备份上一次备份以后更新的所有数据,如果结合全备份和增量备份,恢复所有数据时必须具备最新的全备份集和所有增量备份集。数据库的增量备份通常是指日志备份。增量备份的优点是每次备份的数据量少,占用空间少,备份时间短;缺点是恢复时需要全备份及多份增量备份。
1.1.2.5.1.3 合成备份
合成备份是选定最新全备份与所有后续增量以及差异备份组合在一起,生成一个新的全备份副本。合成备份在备份服务器上进行,不占用生产服务器的资源,首次全备份后,只需要在生产服务器上进行增量备份,在备份服务器上进行合成备份。合成备份主要用于提高恢复操作的性能。
合成备份的目的是:
减少备份源和备份目的地之间的数据传输,减少备份所需的时间 减少备份所需要的空间,降低备份存储成本
对于数据量较大的备份目标,考虑到备份时会耗费时间较长,并
会占用大量带宽等问题,灾备系统支持文件及虚拟化数据类型的合成备份。合成备份具有如下优势:
由于合成备份的数据不从数据源取得数据,只从原来备份的数据中提取,从而可以极大的减少备份所需要的时间,进而提高备份的速度。相对于完全备份,由于数据量的减少,合成备份所需要的CPU及其它的资源就会减少。
由于采用合成备份,不需要对同一份数据进行多次保存,相应地减少了数据增长带来的管理与存储空间压力,进而提高效率,减少存储成本。
对于恢复,普通备份需要参考多个不同时间点的备份,然后再恢复还原成备份需要的文件,这必将带来性能的损耗。而合成备份只需要参考一个时间点的备份,所以恢复时的时间成本也相应的得到压缩。
2.5.2 系统分级建议
备份策略的制定需要依据不同业务系统的重要程度及业务关联性,为不同的业务系统制定不同的备份策略。因此在进行备份策略制定前,需对业务系统进行分级。本次主要从业务重视程度、业务系统属性及影响范围、服务连续性评价三个方面对XX业务系统进行定级。
1、业务重视度比较:系统发生故障时可能造成的关注度。 2、业务系统属性及影响范围:包括系统覆盖范围和实时性两个方面。
3、服务连续性评价:将用户分为核心用户、一般用户两类。
1.1.2.5.2.1 定级方法
1、业务重视度比较
业务重视度指系统发生故障时可能造成的关注度,按关注度高低,依次分为1至5级。
表 错误!文档中没有指定样式的文字。-14 按业务重视度分级 系统分级 1级 2级 3级 4级 导关注) 5级 无影响 业务重视度 极大(在XXX造成极其恶劣影响,部领导关注) 大(在XXX影响很大,司局领导关注) 较大(在XXX影响较大, 处级领导关注) 较小(在XXX信息中心内部造成影响,各处室领2、业务系统属性及影响范围比较
根据业务数据交互的时间要求,将业务系统按属性划分为实时及非实时实时。实时性系统要求不间断运行,数据实现实时交互,非实时性系统可以间断运行,数据实现不要求实时交互。
业务影响范围主要包括:
全网用户:包括所有统一用户和自建用户。 全国用户:包括市、县、乡、各级直属单位用户。
部省级用户:包括部机关、派出机构和直属单位、省厅以及计划单列市、副省级城市用户。
部级用户:包括部机关、派出机构和直属单位用户。 直属单位用户。
根据XX业务系统属性及影响范围,将其划分为1至5级,如下表所示:
表 错误!文档中没有指定样式的文字。-15 按业务系统属性及影响
范围分级
系统属性 实时 非实时 全网用户 1级 2级 全国用户 2级 3级 部省级用户 3级 4级 部级用户 3级 4级 直属单位用户 4级 5级 3、服务连续性评价比较
核心用户:部机关、部派出机构、部直属单位、省级XX厅(局)、计划单列市和副省级城市XX局,包括部机关个人用户和单位虚拟用户。
一般用户:市、县、乡级环境保护机构用户,包括个人注册用户和单位虚拟用户。
表 错误!文档中没有指定样式的文字。-16 按服务连续性分级 服务连续性 核心用户 一般用户 2级 无替代方案,业务彻底瘫痪 1级
服务连续性 无替代方案,但业务可暂时核心用户 2级 一般用户 3级 关闭 有替代方案,但业务功能部3级 分缺失 有替代方案,但性能下降 有替代方案,不影响业务 4级 5级 4级 5级 3级 1.1.2.5.2.2 业务系统分级方法
综合上述业务系统定级的各方面影响因素,并按一定比例综合权值进行计算,最终计算得出业务系统的等级。业务系统等级最终计算示例如下表:
表 错误!文档中没有指定样式的文字。-17 系统分级计算方法
业务系统业务系统业务系统 要求 响范围 百分比权40% 值 XX业务系5 统
根据以上方法,最终可计算出XX业务系统的等级。XX业务系统
3 3 3.8 4 30% 30% 100% 属性及影评价 级 统等级 服务连续性计算等业务系
可划为5个等级,具体包括:
1级业务系统:XXX核心/关键的业务系统,系统可靠性要求极高,系统能实现应用级容灾,RPO定为1小时以内,RTO定为4小时以内,满足《信息系统灾难恢复规范》中定义的第5级要求。根据调研结果,建议将XXX排污许可证系统、污染源核心数据库系统等系统纳入为1级业务系统。
2级业务系统:XXX重要的业务系统,系统可靠性要求高,RPO定为1小时以内,RTO定为4小时以内,满足《信息系统灾难恢复规范》中定义的第4级要求。根据调研结果,建议将环境保护政务信息管理系统、环境影响评价资质管理系统、XXX资产管理系统等系统纳入为2级业务系统。
3级业务系统:XXX影响较大的业务系统,系统可靠性要求高,RPO定为1小时左右,RTO定为4小时左右,基本满足《信息系统灾难恢复规范》中定义的第4级要求。根据调研结果,建议将大数据质量分析平台、资源中心、污染源普查共享平台等系统纳入为3级业务系统。
4级业务系统:XXX影响较小的业务系统,系统可靠性要求中等,RPO定为24小时,RTO定为24小时左右。根据调研结果,建议将法律法规查询系统、环境信用基础数据服务系统、企业信用体系系统等系统纳入为4级业务系统。
5级业务系统:XXX影响极小的业务系统,系统可靠性要求低, RPO、 RTO无要求。根据调研结果,建议将XX专网门户平台(测试系
统)、信息公开工作交流平台、网络教育系统等系统纳入为5级业务系统。
2.5.3 备份策略建议
对于备份系统备份策略的规划,建议按照以下流程进行: 1、
规划备份时间窗口。建议在业务空闲时间段进行备份,降
低业务系统的带库系统资源争用,不影响业务的前提下,提升备份的稳定性和性能。 2、
将数据备份任务按业务系统划分,确定各系统的备份数据
量,并为每个备份任务指定专用的备份介质。 3、
根据各业务系统对备份的需求,以系统的繁忙程度,为每个
备份任务划定可以进行数据备份的时段。 4、
合理的选择备份方式。备份的最终目的是为了进行数据恢
复, 在选择备份方式时,要在业务系统性能需求许可的情况下,最大程度的降 低数据恢复时的复杂程度。
对于本项目云平台备份服务,建议采用如下策略进行设计: 1、
对于数据量较大的系统,为降低数据备份对业务系统运行
的影响,减少对备份带宽的需求,采用全备份与增量备份相结合的方式进行, 建议每周进行一次全备,一周内其他时间每天进行一次增量备份;
2、 对于数据量较小的备份任务,或较为关键的业务,则建议每
天进行一次全备份,以降低恢复时的复杂程度; 3、
在每次业务数据做大调整后应立即做一次全备份;在确定
以上内容后,对普通备份任务的调度策略进行统一规划:
(1)对于相关业务系统的数据,为保证数据一致性,尽量安排在同一天进行备份;
(2)首先保证关键业务的数据备份;
(3)尽量使备份数量在一周内的每天平均分布,采用大小数据量相搭配,或关键业务与非关键业务相搭配等方式进行,根据业务需要确认备份介质保存周期。如无特殊需求,则保存周期的设置应以保证每一次全备份完成以前,都有可用介质供数据恢复使用为准。
根据业务系统对灾备服务水平的要求,结合业务系统的重要性级别,以及对数据保护能力的要求,对备份策略设计建议如下:
1级业务系统(核心业务系统)备份策略:每周进行1次全备,每天进行1次增量备份,可每12小时追加归档文件备份,数据保留周期1个月以上;
2、3级业务系统(重要业务系统、XXX影响较大的业务系统)备份策略:每周进行1次全备,每天进行1次增量备份,可以恢复到每日增量进行备份当天副本,数据保留周期1个月;
4、5级业务系统(影响较小的业务系统、影响极小的业务系统)备份策略:每周进行1次全备,数据保留周期1个月;
除以上之外,其他特殊业务系统备份策略:根据业主方提出的实
际需求进行备份策略制定。
3 应用容灾设计方案
3.1 容灾业务应用选型
应用容灾系统的建设需要投入大量资金,容灾技术的选型的优劣往往能够决定一套容灾系统的建设的成败,根据XXX信息系统异地灾备中心建设的目标和当前的业务环境和IT建设现状,要选择合适的业务进行应用容灾。容灾的业务应具备以下特点:
1、为XXX核心业务系统,系统架构清晰且成熟稳定,无需经常更新;
2、该业务系统的中断对于XX业务服务或公共服务质量有较大的影响;
3、该业务系统的数据库与业务应用相对独立,与其有实时应用交互的系统数量较少;
4、对该业务系统容灾的实施过程、切换过程、回切过程能方便实现;
5、对该业务系统的容灾具有显著的成本收益。
依据以上选型原则,结合本期项目对于XXX主要业务应用的调研反馈情况,本期项目选择XXX排污许可证系统、污染源核心数据库系统共2个应用系统作为XXX异地灾备中心建设应用级灾备的试点应
用系统。
3.2 应用容灾技术选型
3.2.1 数据库容灾
数据库数据是系统的核心数据,具有IO吞吐量大的特点,目前业界常用的数据库容灾技术手段主要包括:基于数据库复制技术、基于逻辑磁盘卷复制技术、基于智能交换技术、基于存储系统复制技术,根据容灾技术方案选型的原则,下面的列表对数据库数据容灾技术选型进行了比较:
表 错误!文档中没有指定样式的文字。-18 数据库容灾技术对比
逻辑磁盘数据库复制技 术 术 方案对应用影系统架同数据库平台,构 有版本要求 同系统平台数据复服务器存储设备制,必须之间安装专用设在卷管理备及软件 软件上实现 像,存储系统数据镜之间的卷复制技技术 技术 相同存储平台智能交换复制统复制存储系
逻辑磁盘数据库复制技 术 术 响 卷复制技技术 智能交换复制存储系统复制技术 功能要求高 主机资占用 源 需要光须安装相对原系需增加数据库软应的卷管统影响 件 理软件 专用设备 协议转换设备 RPO RTO 方案适应性 支持数数据库类型 据类型 类型 型,文件件类型 文件类数据一可保证 致性 网络带对带宽要求低 宽 求低 数据库类数据库类型,文类型,对带宽要对带宽要求高 要求高 数据库对带宽可保证 可保证 可保证 中 中 中 小 大 大 小 小 SAN网络中增加或特殊纤连接占用 不占用 不占用
逻辑磁盘数据库复制技 术 术 卷复制技技术 智能交换复制存储系统复制技术 型 实施有实施实施难方度 便性 成本收益比 方案成产品选熟型 性 Sharepex Realsync,Quest 使用范较高 围 Oracle DG,DSG 成本 低 有一定影响 度,对生产系统实施有一定难实施有一一定难定难度,对生产系统有一定影响 定影响 实施有一定难度,对度,对生产系统生产系有一定影响 统有一低 高 较高 高 较低 EMC 高 IBM,Veritas RecoveryPoint, EMC,VVR Cisco,Maxson HDS,HP 通过上表对可选数据库容灾技术的评估,按照容灾技术选型的原
则,存储复制技术方案成熟,在方案适应性、对主机影响方面,也都占有比较明显的优势。因此,本次数据库数据容灾系统建设,建议采取基于存储复制技术实现数据库数据容灾。
3.2.2 应用数据容灾
应用数据可以分成多种类型,在对应用数据建设容灾时,应该充分调研系统中应用数据的类型,针对不同的类型,采用不同的方案,建议使用多种方案共存的方式,实现应用数据的容灾。
应用数据的容灾技术主要包含如下方法:
对于应用程序文件,采用直接在容灾端安装或者应用发布进行容灾;
对于应用程序配置文件,采用同步分发或者直接在容灾端修改; 元数据文件,采用存储复制或从数据源同步采集的方式进行容灾;
中间结果数据,不做远程复制的容灾考虑;
对于应用处理平台,在容灾中心部署相同或者低等级型号的同构服务器。
应用数据应该针对不同的类型采用不同的方案,建议使用多种方案共存的方式,实现应用数据的容灾。
3.2.3 网络容灾
网络容灾的目的主要是实现为客户端或外围系统提供冗余的网络接入,实现接入平台的网络接入切换技术包括:基于浮动IP地址、基于DNS、基于四层交换机、基于外围应用切换。下面的列表对网络容灾技术进行了比较。
表 错误!文档中没有指定样式的文字。-19 网络容灾技术对比
基于四层交 基于浮动IP 换机 可使用不同技术限制条件 VLAN打通, IP, 需实施接入网接入网不需改改造 造 与应用无关,与应用无关,需在四层交换切换易操作性 复杂程度:复杂程度:中 复杂程度:低 高 成本收益需实现多节点高可用配置,需新购四层交换机 需实施应用端改造配合 需搭建DNS系统 复杂程度:低 需在主机层面机层面实施实施IP切换 IP切换 配置变更 配置 需实施应用只需修改DNS与应用无关,改造 造 接入网不需接入网不需改IP, IP, 可使用不同可使用不同基于应用 基于DNS
比 增加高可用软件授权投资 稳定可靠性 管理需管理配置复杂度 通过对比网络的容灾技术,基于DNS技术实现网络容灾,对接入网影响小,无需修改应用程序,而且技术成熟建设复杂程度低,建议选择基于DNS技术。
管理简单 管理简单 文件 程 需规范开发流成熟 成熟 成熟 成熟 3.3 应用容灾方案
本期项目通过对XXX信息中心的主要业务系统调研,从业务系统重要程度及业务系统架构成熟度方面分析,选择排污许可证系统、污染源核心数据库系统作为本期项目的应用级灾备试点系统。
为确保备份数据及备用应用环境的可用性,提高系统备用环境的资源使用率,应用级灾备系统将在异地灾备中心与生产中心定期切换运行。定期切换的方式同时也是保障灾备发生时,异地灾备中心能有效快速地接管生产中心应用的有效措施。
3.3.1 异地灾备中心应用切换
当发生区域性灾难发生或常规定期切换任务,需要异地灾备中心接管生产中心的情况下,将启用异地灾备中心切换方案,切换步骤如下:
XXX信息中心负责联系相关人员启动灾难恢复计划; 信息系统恢复赴异地灾备中心进行 IT 系统恢复; 异地灾备中心存储取代生产中心存储成为主用存储; 异地灾备中心主机接替生产中心主机加载系统,运行业务系统;
异地灾备中心开放平台业务接替生产中心业务系统; 信息中心及异地灾备中心进行业务数据验证、追单和业务提供确认;
异地灾备中心正式接管生产中心对外提供业务; 接替生产中心运营阶段服务。
3.3.2 异地灾备中心应用回切
在生产中心完成修复或接到定期切换任务以后,在完成回切过程之前,首先要做的基础工作是完成异地灾备中心与生产中心的数据同步工作,在业务系统数据完全同步以后,按照灾备恢复预案中相关步骤进行回切。
异地灾备中心回切主要注意以下关键点:
在准备切换回原生产中心前,由于远程异步复制的原因,须在业务空闲时段停止业务系统处理,确保灾备中心和原生产中心达到数据的完全同步,以减少回切后业务数据的追单工作量。
4 备用数据处理系统设计方案
备用数据处理系统主要由灾备中心的资源池构成,包括虚拟化云平台、计算资源(数据库服务器、应用服务器、管理服务器等)、存储设备,以及数据库、中间件及操作系统等软件,用于验证灾难备份数据的完整性与可用性。
4.1 备用数据处理系统建设目标
备用数据处理系统将基于虚拟化云平台,提供包括计算、存储、网络、安全等资源服务的基础平台环境,建立支撑XXX业务系统运行的云平台环境,满足XX核心 业务切换及接管的信息化需求,提供高效、稳定、安全的云服务。具体建设目标及任务如下:
建立涵盖计算、存储、网络在内的云计算基础设施平台。同时,通过搭建统一的云资源管理平台,实现整体资源的按需分配、弹性调度和统一管理。云平台对业务交易的响应程度将达到简单交易响应时间1秒以下,一般交易响应时间3秒以下,复杂交易响应时间5秒以
下。
针对虚拟化等云计算技术特点,强化系统访问控制、病毒防护、入侵检测、流量隔离、安全审计等安全技术措施,形成完善的云计算安全体系。要求云平台的整体可用性不低于99.9%。
同时,考虑将原有业务系统按业务成熟度、复杂度、技术风险、影响面等要素综合考虑,分批分步迁移入云平台,最终实现中心现有业务系统向云平台的平滑迁移。
4.2 云平台设计
异地灾备中心的云平台以提供基础设施即服务(Infrastructure as a Service,以下简称IaaS)为主。目前,业界对IaaS的主流发展趋势是向软件定义数据中心(Software Defined Data Center,简称SDDC)演进。SDDC就是虚拟化、软件化数据中心的一切资源,通过在各种底层硬件架构上面加载一个虚拟的基础设施层,提取所有硬件资源并将其汇集成资源池,同时支持安全高效自动地为应用按需分配资源。它可以将虚拟化技术的好处扩展至包括计算、存储、网络与安全以及可用性在内的数据中心所有领域,从而实现支持灵活、弹性、高效和可靠IT服务的计算环境。完整的SDDC架构包括基础设施层、资源抽象层、资源管理层及应用服务层,其架构示意如下图所示:
图 错误!文档中没有指定样式的文字。-10 软件定义数据中心架构
1、基础设施层
在SDDC的最底层是硬件基础设施,主要包括服务器、存储和各种网络交换设备。SDDC对硬件并没有特殊要求,服务器最好能支持最新的硬件虚拟化并具备完善的带内(In Band)、带外(Out of Band)管理功能,这样可以最大限度提升虚拟机的性能和提供自动化管理功能。但是,即使没有硬件虚拟化的支持,服务器一样可以工作,只是由于部分功能需要由软件模拟,性能会稍打折扣。SDDC对于硬件环境的依赖性很小,新的旧的硬件都可以统一管理,共同发挥作用。
2、资源抽象层
SDDC中硬件的能力需要被抽象成为能够统一调度管理的资源池。在这一层次,主要有以下一些关键技术帮助完成虚拟化和池化的工作。
(1)软件定义计算
软件定义的计算是针对x86系统的虚拟化技术,它可以将x86系统转变成通用的共享硬件基础架构,原先多台服务器完成的工作可以整合到少数服务器完成。摆脱了竖井式的结构,服务器物理硬件、操作系统和应用以松耦合的方式联结,虚拟机和上面的操作系统和应用完全独立于底层的硬件。
除此之外,软件定义的计算通过把服务器计算资源抽象化、池化和自动化来实现资源的自由调配和充分利用。当数据中心的服务器需要升级或维护的时候,通过虚拟机迁移技术可以把服务器上的虚拟机迁移到另一个主机,并始终保持业务的连续性。服务器虚拟化大大增加了数据中心的灵活性和IT的敏捷性,减少管理的复杂度和IT响应时间。
(2)软件定义存储(SDS)
软件定义的存储(Software Defined Storage,以下简称SDS)可以对存储资源进行抽象化处理,它把应用于服务器的先进技术运用于存储领域,可对异构存储资源进行抽象化处理,以支持存储的池化、复制和按需分发,并以应用为中心进行消费和管理,最终实现基于策略的自动化。该方案使存储层与虚拟化计算层非常相似:都具有聚合、灵活、高效和弹性扩展的特点,全面降低了存储基础架构的成本和复杂性。
SDS可以提供本地高可用,数据保护以及灾难恢复等多项功能,它可以在最大程度上保证业务的连续性。本地高可用是指在站点内部,物理主机之间对应用进行保护,使其免受单个主机停机影响的解决方
案。数据保护可以以简单无中断的方式备份整个虚拟机,包括操作系统、应用二进制文件和应用数据。灾难恢复可以使企业管理从生产数据中心到灾难恢复站点的故障切换,同时,它还可以管理两个互为恢复站点且具有活动工作负载的站点之间的故障切换。
(3)软件定义网络(SDN)
现有的网络体系结构对底层物理硬件有很大的依赖,他们依赖于专用物理设备,因此灵活性很差。除此之外,这种不灵活的体系结构对工作负载和应用的扩展与迁移都产生了很大的限制。在安全方面,传统的安全防护手段价格昂贵,对虚拟化平台不具感知能力,使用不够灵活,管理难度大,不能很好地满足新架构的需要。
软件定义的网络(Software Defined Network,以下简称SDN)会创建一个二层到七层的网络服务,通过创建软件驱动型抽象层将网络组件与底层物理网络基础架构完全分离,因此它可以确保硬件独立性,使得网络服务摆脱与硬件绑定的限制。SDN可以从终端主机的角度再现物理网络模型:工作负载感觉不到任何差异,因此,SDN对上层应用是透明的,上面的业务可以不做任何修改而继续使用。
3、资源管理层
要统一管理虚拟化之后的资源,不仅仅是将状态信息汇总、显示在同一个界面,还需要能够用一套统一的接口更进一步集中管理这些资源,如让用户对数据中心中的计算、存储、网络资源进行集中管理,并能提供相关权限控制、数据备份、高可靠等额外的特性。
4、应用服务层
比资源管理更贴近最终用户的是一系列的服务,可以是普通的邮件服务、文件服务、数据库服务,也可以是针对大数据分析的Hadoop集群服务。对于配置这些服务来说 ,SDDC的独特优势是自动化。例如可以按照管理员预先设定的步骤,自动部署从数据库到文件服务器的几乎任何传统服务。绝大多数部署的细节都是预先定义的,管理员只需要调整几个参数就能完成配置。
从底层硬件到提供服务给用户,资源经过了分割(虚拟化)、重组(资源池)、再分配(服务)的过程,增加了许多额外的层次。从这个角度看,软件定义不是没有代价的,但层次化的设计有利于各种技术并行发展和协同工作。
本期项目基于软件定义的计算、存储及网络,实现底层异构基础资源的逻辑统一管控、弹性调度及基于策略的自动化管理。
4.3 计算资源设计
4.3.1 设计原则
本项目的计算资源选用X86服务器,设计时需要考虑以下原则。 卓越的性能
在计算能力、内存容量、支持的交换类型、电源和功耗等方面的性能具有领先业界的优势。支持 INTEL 新一代高性能 XEON E5/E7系列处理器。
完整的带外监控和管理功能
服务器的设备管理符合IPMI(Intelligent Platform Management Interface)规范。。管理模块提供远程和本地维护功能,远程维护手段包括SOL(Serial over LAN)、KVM over IP和虚拟媒体;本地维护通过管理模块面板上提供的本地KVM接口实现。 灵活的扩展架构
服务器的计算、存储、交换、散热、供电均采用模块化设计。能支持小型、中型、整机柜系列化演进,实现业务平滑扩展,支持内置存储的扩展,通过扩展独立的存储节点扩展容量。 可靠性
随着产品使用时间的推移,设备可能会产生故障。服务器须采用故障预警、亚健康检测等方法,保证系统的故障预防能力。服务器须采用了部件级全冗余设计,确保单点故障不影响业务;同时在计算节点内部还提供了容错能力,允许单个CPU、内存条故障。
服务器的交换、管理、风扇和电源模块均提供了冗余能力。 节能省电,减少运营成本
节能省电,全方面优化的系统散热风道设计,高效节能风扇,降低系散热能耗。高效率的VRD电源,降低DC转DC的损耗。支持风扇分区调速和智能调速、CPU 智能调频,节能降耗。支持实时系统功耗监控,方便系统实施综合节能策略。提供功率封顶和功率控制措施。硬盘错峰上电,降低服务器启动功耗。 易维修性设计
通过指示灯定位故障部件,然后对其直接热插拔更换,实现对服务器的方便快捷的维修,帮助用户快速排除故障。
4.3.2 计算资源虚拟化架构设计
基于虚拟化的计算资源建设是云平台的基础。虚拟化就是把物理资源转变为逻辑上可以管理的资源,以打破物理结构之间的壁垒。
从虚拟化的实现方式来看,虚拟化架构主要有以下两种形式: 1、寄居架构
寄居架构中的虚拟机作为主机操作系统的一个进程来调度和管理。一般而言,在使用计算机之前,首先要安装操作系统,该操作系统称为宿主机操作系统。如果采用虚拟机技术,则需要在操作系统之上再安装一个虚拟机监视器(一般称为Hypervisor),然后利用它创建和管理虚拟机。这种后装模式称为寄居架构,因为Hypervisor看起来像是“寄居”在操作系统上一样。寄居架构主要应用于开发、测试、演示等个人和小型应用领域,采用寄居架构的典型产品包括VMware Workstation、OracleVirtualBox等。
2、裸金属架构
裸金属架构是指将Hypervisor直接安装在物理服务器之上而无须先安装操作系统的预装模式。在安装了Hypervisor之后,再在Hypervisor上安装其它操作系统(如Windows、Linux等)。由于Hypervisor“看起来”是直接安装在物理计算机上的,所以称为裸金
属架构。裸金属架构主要应用于数据中心生产环境,采用裸金属架构的典型产品包括VMware ESX、Xen、微软Hyper-V等。
虚拟机应用程序应用程序操作系统虚拟机应用程序操作系统虚拟机应用程序操作系统x86硬件x86硬件寄居架构(Hosted Architecture)裸金属架构(Bare Metal Architecture)
图 错误!文档中没有指定样式的文字。-11 寄居架构和裸金属架构
目前应用于生产环境的主要是裸金属架构的虚拟化软件,因此建议项目本期依托基于祼金属架构的虚拟化软件搭建虚拟化资源池。同时建议异地灾备中心的虚拟化软件在架构上与生产中心的虚拟化保持一致,以便于未来需在异地灾备中心做应用容灾时能将业务应用进行平滑切换。
4.3.3 功能设计
在基础设施建设中,虚拟化服务是功能设计的重要部分。虚拟机是一种可随需获取的弹性计算资源,可以视为一台预配好的服务器,包含了硬件配置、操作系统以及网络配置。虚拟机服务应具备如下主要功能:
1、虚拟机模板服务
虚拟机模板包括虚拟机的vCPU、内存、磁盘、网卡等参数,且应
根据业务系统负载量的不同提供不同的规格。在采用云计算来向用户交付服务时,用户通过云门户自助申请的IT服务资源就是业务应用模板,因此需要提前设计好相应的IT服务模板向云门户发布,当用户申请该服务时,云平台根据模板进行资源编排,快速生成虚拟机相关资源交付给用户使用。
2、高可用保障
高可用保障主要包括三个方面,物理服务的高可用、虚拟机服务的高可用以及保障业务可靠性。
3、动态资源调度
动态资源调度功能可以持续不断地监控计算资源池的各物理主机的利用率,并能够根据用户业务的实际需要,智能地在计算资源池各物理主机间给虚拟机分配所需的计算资源。通过自动的动态分配和平衡计算资源,进行动态资源调整。能够整合服务器,降低IT成本,增强灵活性;减少停机时间,保持业务的持续性和稳定性;减少需要运行服务器的数量,提高能源的利用率。
动态资源调度功能可以自动并持续地平衡计算资源池中的容量,可以动态的将虚拟机迁移到有更多可用计算资源的主机上,以满足虚拟机对计算资源的需求。全自动化的资源分配和负载平衡功能,也可以显著地提升数据中心内计算资源的利用效率,降低数据中心的成本与运营费用。
4、动态资源扩展
计算虚拟化简化了部署业务服务器的流程和具体工作,极大的缩
短了新业务服务器的部署周期,使得通过快速增减业务服务器来应对业务访问量的突发性变化成为可能。因此,部署了云业务环境的用户开始考虑采用动态部署方式来应对业务访问的突发性需求。但采用动态资源部署方式的一个不能忽略的前提是:IT管理人员能够对业务访问量的突发性变化具备很强的敏感性,并且能够迅速采取应对措施。但当前的IT基础架构中,业务负载监控平台、虚拟服务器管理平台和业务分发的系统之间往往是割裂的,没有整合形成统一方案。IT管理人员在感知到业务访问变化时,只能通过手工进行虚拟服务器的增减和在业务分发系统的相应配置,该方式缺乏灵活性且效率低下。
动态资源扩展功能能够监测到业务所在虚拟机的性能不足,并将虚拟机进行快速复制,配合负载均衡设备对外提供服务,当访问高峰过后,动态资源扩展功能能够实现动态的收缩,删除过剩的云主机,从而实现计算资源随需而动。
5、虚拟机服务管理
虚拟机服务应提供全Web化管理的管理方式,用户通过云资源管理平台的服务界面申请和管理虚拟机。用户拥有虚拟机的所有权限,可像操作物理服务器一样控制云主机。虚拟机服务使用户完全控制计算资源,当用户的计算资源需求发生改变时,可以通过云资源管理平台的服务界面随时进行计算资源的调整。
虚拟机服务整合常用的管理功能,主要包括:
(1)用户虚拟机机列表:用户以Web方式登录云资源管理平台后,可以查看所有自己管理的虚拟机列表,查看虚拟机信息包括虚拟
机所属用户、名称、状态、内网IP、镜像模板、规格类型、网络、运行时间和远程登录主机等;
(2)创建虚拟机:根据镜像的分类选择镜像,镜像列表包括镜像名称和描述;选择规格,规格内容包括规格类型、CPU、内存和系统盘;设置网络,选择虚拟机接入的网络;基本配置,输入虚拟机名称、虚拟机数量和描述;
(3)虚拟机的操作列表:当虚拟机创建完毕以后,生成虚拟机操作列表,用户具有完全的控制权,可以管理所有的虚拟机操作,包括刷新、新建、启动、关机、重启、修改等,就像操作物理服务器一样;
(4)虚拟机的监控信息和费用报告:用户可以查看云主机的监控信息,并可以查看包括所有的费用总统计和明细、资源总统计和明细,应用统计和性能统计。
4.3.4 计算资源规划设计
1.1.4.3.4.1 计算资源分类
主机资源分为物理资源和虚拟化资源,主要针对数据库、业务应用两类应用进行设计。
1、物理资源
物理主机资源主要针对数据库。数据库服务器数据处理量大,运
算性能要求高,数据I/O量巨大,并对稳定性、可靠性要求极高,因此应采用成熟可靠的传统架构,即数据库服务部署于稳定可靠、具有垂直扩展能力的高性能服务器。
2、虚拟资源
虚拟资源主要针对业务应用。通过部署虚拟化软件,构建业务应用计算资源池,通过虚拟化资源池设计实现资源的动态调度、灵活扩展等功能。
业务日常运行时可根据业务量平峰时段的资源需求配置相应的虚拟资源,并预留部分资源已供动态调用,管理员可以通过配置策略实现资源的动态调配:
(1)在业务平峰时段,虚拟资源维持在保证业务系统以及大数据系统运行的常规水平,并只运行在部分物理服务器上,而其他物理服务器则处于待机状态,这样可以最大限度的提高运行的物理服务器的资源利用率,并且降低整体系统的电力消耗及冷却需求;
(2)当业务量低谷时,如晚间或节假日,资源利用率低于管理员设置的阀值时,可以自动的减少业务系统的虚拟资源供应甚至停用部分业务系统,将虚拟资源优先提供给大数据计算系统来执行计算任务,将多余的虚拟资源回收并将相应的物理服务器关闭以减少整体系统的电力消耗及冷却需求;
(3)在特殊时间或事件节点,业务量突然增大,并超过管理员设置的阀值时,通过虚拟化技术会根据策略从资源池中动态的增加虚拟机以提供更多的计算资源来满足业务的需求,当业务回归正常水平
一段时间后将临时增加的资源释放出来。
结合XXX系统业务的关键程度,灾备中心服务器采用与生产中心性能一致或较低的服务器,同时配置相应数据库服务器、应用服务器的虚拟化资源池部署(虚拟化的部署,主要考虑是对于以后其他应用的服务部署)。在各服务器中部署有关系统软件和应用软件,使其具备相应的业务处理能力。
1.1.4.3.4.2 服务器设备选型
本期在异地灾备中心建立计算资源池,主要用于承载在异地恢复的业务应用系统。计算资源池划分为物理服务器资源池以及虚拟化资源池。其中,物理服务器用于部署在灾备中心恢复的业务系统的核心数据库,这类业务系统对于数据库的计算性能要求极高,需在物理机上部署。虚拟化资源池用于部署恢复业务系统的中间件(如应用服务器等)、以及灾备中心的管理服务器,这类应用对于计算性能要求不高,但对于资源的动态扩展、弹性调度的要求较高。因此,可将本期项目需购置的服务器主要划分为数据库服务器及业务应用服务器两类。
1、数据库服务器
对于数据库服务器的资源设计,需综合考虑容灾应用系统资源现状现状需求、信息系统安全等保3级要求、以及资源冗余性及高可用性等方面的需求。本期项目选择排污许可证系统、污染源核心数据库系统等业务系统作为应用灾备试点。
排污许可证管理系统目前运行于XX云平台上,其所需资源都是以虚拟化方式运行。污染源核心数据库系统为待建系统,该系统对于数据库服务器的需求尚不明确,因此考虑按一定比例为该系统预留数据库服务器资源。另外,根据《信息安全技术 信息系统安全等级保护基本要求》中对于等保三级业务系统的要求,“应提供数据处理系统的硬件冗余,保证系统高可用性”。综合以上考虑,为充分应对未来可能出现的系统高并发访问以及新系统上线的情况,分别预留20%以及30%,合计50%的计算资源能力作为冗余,因此本期数据库的计算性能处理要求将不低于120颗CPU核心及288GB内存。
同时为满足数据库的性能及可靠性要求,数据库服务器建议采用双机热备HA技术,同时建议采用实例化数据库技术,以充分利用数据库服务器资源,并实现对数据库资源的弹性分配及动态扩展。因此,数据库的计算性能处理要求合计240颗CPU核心、576GB内存。
根据上述分析,为保证本次系统建设要求,将配置4台数据库服务器,每2台数据库服务器互为双机HA,每台数据库服务器配置至少满足下列要求:
2U以上机架式服务器; CPU主频:不低于2.1GHz;
CPU数量:不低于4路16核E7系列 v4 2.1GHz处理器; 内存大小:不低于512GB DDR4 RDIMM 内存
内置硬盘数量:不少于4块300G 热插拔SAS硬盘(15K/RPM); 不低于2 GB缓存的阵列卡,支持RAID 0、1、10、5、50、6、
60,带超级电容掉电保护; 万兆网卡数量:4; 千兆接口数量:4; 16Gb HBA卡:≥1;
操作系统:支持64位企业级Windows/Linux操作系统; 电源:冗余电源。 2、业务应用服务器
对于业务应用服务器的资源设计,需综合考虑容灾应用系统资源现状现状需求、信息系统安全等保3级要求、以及资源冗余性及高可用性等方面的需求。业务应用服务器采用虚拟化资源进行建设,虚拟化的建设模式具有可靠性高、设备资源利用率高、绿色节能等特点。排污许可证管理系统目前运行于XX云平台上,其申请的资源需求为524颗虚拟核心、1878GB内存。污染源核心数据库系统为待建系统,该系统对于应用服务器的需求尚不明确,因此考虑按一定比例为该系统预留应用服务器资源。
另外,根据《信息安全技术 信息系统安全等级保护基本要求》中对于等保三级业务系统的要求,“应提供数据处理系统的硬件冗余,保证系统高可用性”。
综合以上考虑,为充分应对未来可能出现的系统高并发访问以及新系统上线的情况,分别预留20%以及30%,合计50%的计算资源能力作为冗余。计算出虚拟资源需求为1074颗虚拟CPU核心、4023GB内存。
计算虚拟化技术的核心是CPU的虚拟化,根据目前业界主流虚拟
化厂商(如VMware、华为等)的实践经验,虚拟化服务器的宿主机CPU利用率不宜超过70%,CPU虚拟化的最佳实践比例为1:6。由此计算,本期项目支撑624颗虚拟核心的物理CPU核心数需求为:1074*(1:6)/ 70% = 255颗。
因此,本期的应用服务器需求为255颗CPU核心,4023 GB内存。为保证本次系统建设要求,建议配置12台应用服务器,单台服务器配置24颗CPU核心,384GB内存。每台应用服务器配置需至少满足下列要求:
2U机架式服务器;
不少于2颗12核E7 V4 2.0GHz处理器; 不少于384 GB DDR4 RECC内存 ; 不少于3块600GB 15k转SAS热插拔硬盘; 1块512MB缓存8通道高性能SAS RAID卡; 2块单端口16Gb FC HBA卡; 2块双端口万兆网卡; 2个千兆电口; 冗余电源。
4.4 存储备份资源
4.4.1 备份存储资源容量规划
依据前文“3.4.2.3 存储量估算”章节所述内容,本期项目的数据备份容量需求为1.6 PB,同时结合异地灾备体系的部署模式,需在生产中心与灾备中心各部署一套容量为200 TB的存储设备,以用作本地数据备份及异地数据恢复时的缓存。整体项目的备份存储资源容量为:备份1.6 PB,存储400 TB。
4.4.2 备份设备选型
1.1.4.4.2.1 备份设备选型
备份设备部署于异地灾备中心,总体备份需求为1.6 PB。对于备份设备的形式,目前业界有两种主流的方式:
1、
虚拟带库
虚拟带库本质上是基于裸设备虚拟化而成的备份磁带。采用虚拟带库进行数据备份,需要另外部署备份服务器及备份软件。其优势是兼容性较强,与各类备份软件之间是松耦合的关系;缺点是部署架构相对复杂、备份系统集成工作量及运维工作难度较大。
2、
备份一体化设备
备份一体化设备本质上是将备份软件、磁盘阵列以及备份服务器等封闭打包成一体化的备份产品。其优势是部署结构简单,数据备份效率高,且国产备份一体化设备的技术架构相对成熟,其购买及维护成本较低,备份系统运维工作较为简捷,易扩展;缺点是兼容性相对较差,与设备厂商强关联。
结合上述分析,本期项目的备份设备建议采用备份一体化设备。根据目前国内业界主流产品的配置,为满足本期项目约为1.6 PB的备份需求,建议配置22台一体化设备,每台容量72TB。每台设备的最低配置要求如下:
2路6核CPU,交流冗余电源,不低于64GB内存; 2个GE端口,2个8G FC端口,2个10G 万兆光口; 300GB SSD 硬盘单元(2.5\");
12*6TB 7.2K RPM NL SAS 硬盘单元(3.5\");
备份设备除需配置基本的存储空间外,还需要配置相应的备份功能模块,包括:
备份服务器管理端; 存储服务端; 数据库客户端; 操作系统客户端; 虚拟机客户端;
支持对操作系统、数据库、文件系统、各类虚拟化云平台的备份与恢复,无限制备份客户端数量;
支持数据重删压缩,备份数据异地复制等功能许可; 支持通过主流数据库(如:oracle、SQLserver、mysql、DB2 等)备份接口进行数据的备份与恢复,保证备份数据的一致性; 支持容灾演练功能,将灾备数据进行自动恢复,使灾备节点数据可用,并验证 灾备数据的可靠性及可用性;
支持对备份数据实现分级管理,借助存储生命周期策略,根据数据重要性,实 现在定义的时间将数据分别备份、迁移到对应存储介质,并依据策略实现过期处理;
数据备份管理平台提供:监控管理、配置管理、统计计费管理、安全管理、报表管理、平台运维管理、多租户管理、流程审批管理及定制化开发等功能。
1.1.4.4.2.2 存储设备选型
依据前文“5.1.2.1 数据备份系统架构”所述内容,本期项目需在生产中心与异地灾备中心各部署一套200TB的存储设备,以用作数据本地备份及异地恢复时的缓存资源池。缓存资源池主要由2台存储设备组成,其中一台部署于XXX生产数据中心,其主要用于对XXX生产数据做本地的缓存及本地备份;另一台部署于异地灾备中心,用于恢复应用数据,以支撑业务应用的容灾需求。每台存储设备容量约为200TB,其最低配置要求如下:
2个控制器,每个控制器64GB缓存;
每个控制器可提供2个 8G FC端口,2个10G SFP+端口;整机共提供4个8G FC端口,4个10G SFP+端口;
配置20块 400GB SSD固态硬盘,24块 8000GB 10KRPM SAS硬盘,共200 TB存储空间;
支持SAN和NAS一体化,无需额外配置NAS网关,存储同时支持块存储和文件系统服务;
支持数据智能分级,智能异构虚拟化、卷镜像、远程复制、LUN拷贝、快照、一体化备份、智能缓存分区、智能数据压缩重删等。
1.1.4.4.2.3 光纤交换机选型
本期配置两台光纤交换机,部署于异地灾备中心,形成冗余存储及备份链路。每台存储备份设备通过光纤交换机实现与各服务器的二层互联组网,每台服务器通过2个HBA接口双上联至两台光纤交换机进行冗余。
光纤交换机配置要求如下:
双控制器、双交换板、冗余电源;
48端口 16 GB FC 刀片,含48 * 8GB 多模 SFP。
4.5 网络资源
4.5.1 网络架构设计
异地灾备数据中心内部网络采用扁平划部署架构,从功能区域上将内部网络划分为:核心出口区、业务区、管理区及存储区。整网物理网络拓扑架构如下图所示:
边界路由图例GE10GE40GEFC边界防火墙管理汇聚核心交换管理TOR业务接入TOR存储TOR备份存储数据库资源池虚拟机资源池运维管理资源池缓存存储 图 错误!文档中没有指定样式的文字。-12 异地灾备中心网络资源
架构
1.1.4.5.1.1 核心出口区
核心层是灾备数据中心网络的核心,需满足数据中心内部大流量的业务数据交互,对设备的选择要求较高,不仅要求能提供大容量、无阻塞的数据交换,还需具备持续扩展的能力,支持高密度的万兆接口、分布式缓存机制、精细化QoS 等。交换架构是网络设备的核心,其决定了一台设备的容量、性能、扩展性以及QoS 等诸多关键属性。考虑网络的高扩展性及高性能,需采用多级交换架构的核心交换机作为数据中心核心交换机。
在设备的选择上,在异地灾备中心使用两台高性能的数据中心核心交换机,采用虚拟化技术进行均衡热备作为数据中心核心,每台配置单引擎、冗余电源、多块交换网板,保证设备级的可靠性。根据业务的需要及考虑后期业务的扩展,数据中心核心交换机需提供8 个以上业务扩展插槽,根椐实际业务需要配置相应万兆、千兆接口板,满足现有业务需求,并为后期业务扩展预留扩展空间。
1、数据中心接入交换机采用万兆多模光纤与两台核心交换机进行双归属连接,提高网络主干速率及链路的可靠性。
2、部署两台出口路由器,用于与主生产中心数据中心进行连接,路由器采用分布式架构,考虑后期的业务扩展,预留一定的业务槽位。两台核心路由器进行备份,通过两条运营商的出口链路连接到广域网。
3、数据中心部署核心防火墙,采用万兆多模光纤上联至两台出口路由器、下行链接核心交换机;采用双归属连接,提高网络主干速
率及链路的可靠性。
1.1.4.5.1.2 业务区
业务区主要用于运行数据备份任务与恢复数据及业务应用,通过接入交换机接入计算与存储设备,减少了服务器与前端网络交换机和后端存储交换机连接的复杂性,布线简单,维护更方便。
业务区的接入交换机采用TOR接入交换机部署方式,采用冗余链路的接入方式,两个机柜为一组,一组(两个)机柜的服务器双上联至一组(两台,两个机柜各一台)接入交换机,互为冗余备份。两台业务TOR接入交换机堆叠,通过多条40G链路捆绑上联至两台虚拟化的核心交换机。
1.1.4.5.1.3 管理区
管理区主要用于对数据中心内部设备的管理。被管理设备与管理TOR接入交换机之间采用千兆端口互连。所有分区中的网络设备、安全设备、存储管理等的Management口作为带外管理口配置,接入本机柜的带外管理TOR接入交换机,带外管理网采用单链路的接入方式,每个机柜的服务器单上联至本机柜的带外管理接入交换机。带外管理TOR与汇聚交换机采用万兆端口进行互联。
1.1.4.5.1.4 存储区
存储区主要用于恢复数据的缓存,以及XX业务切换至异地灾备
中心时对于生产业务系统的存储。存储区配置2台光纤交换机实现与各服务器的二层组网互联,每台服务器通过2个HBA接口双上联至两台FC 交换机进行冗余备份。
4.5.2 网络设备选型
1.1.4.5.2.1 边界接入路由器
边界接入路由采用双链路部署方式(即部署2台),部署于异地灾备数据中心的网络边界位置,上联广域网链路(连接XXX生产数据中心),下联异地灾备数据中心网络核心。为保证本次系统建设要求,其配置至少满足下列要求:
系统采用分布式体系架构,控制与转发分离,设备满配主控板和交换网板;
交换容量≥77Tbps,包转发率≥19000Mpps;
业务载板插槽≥8个;支持硬件BFD,3.3ms发包频率,10ms故障检测能力;
满配主控板、交换网板及电源; 1块千兆以太网接口卡(端口数≥8);
2块10GBase LAN/WAN-SFP+接口卡(端口数≥2,含2个光模块);
支持RIP、OSPF、IS-IS、BGP等路由协议;
三年原厂维保服务。
1.1.4.5.2.2 核心交换机
核心交换机采用双链路冗余部署方式,上行通过10 GE链路连接边界路由,下行通过40GE链路连接业务接入交换机。为保证本次系统建设要求,需部署2台核心交换机,其配置至少满足下列要求:
主控引擎与交换网板硬件分离,采用全正交架构; 交换容量≥85Tbps,包转发率≥86000Mpps;
业务板卡槽位数≥8,交换网槽位数≥5,支持N+1冗余,支持独立的1+1监控板;
配置要求双引擎,交换网≥3,N+1电源; 1块48端口十兆/百兆/千兆以太网电接口板; 1块48端口万兆以太网光接口板(含24个光模块); 1块12端口40G以太网光接口板(含8个光模块); 集群业务模块(含线缆),集群带宽≥120G; 三年原厂维保服务。
1.1.4.5.2.3 业务接入交换机
业务接入交换机采用双链路冗余部署方式,上行通过40 GE链路连接网络核心,下行通过10GE链路连接计算资源池及备份存储资源池。本期项目需在异地灾备中心新购计算服务器16台,备份一体化设备22台,存储设备1台,因此业务接入交换机需至少具备39个下
联10GE端口。为保证本次系统建设要求,配置2台业务接入交换机置,其配置至少满足下列要求:
支持二层/三层功能,静态路由、RIPv1/2、OSPF、ISIS、BGP、BGP4+、VRRP等;
交换容量≥1Tbps,包转发率≥960Mpps; 支持48个万兆光口(含48个光模块);
至少2个40G光口(含模块),可扩展至4个40G光口; 千兆电口≥2;
双电源,双风扇,支持前后、后前风道; 含2条堆叠线缆,堆叠带宽≥80G; 三年原厂维保服务。
4.6 数据库资源
本期项目所提供数据库需要与生产中心所采用的数据库一致。 依托物理计算资源为数据库提供部署空间,通过搭建统一的数据库管理平台,实现数据库资源的动态扩展调度、自动化部署配置。
数据库资源默认提供一主一备的方式进行高可用部署,针对业务连续性要求较高的需求,实际将分配两个实例,两个实例位于不同服务器,自动同步数据,主实例不可用时,系统会自动将数据库连接切换至备实例,当主服务器故障时,实例会自动切换到备服务器运行。
4.7 中间件资源
本期项目的中间件主要包含应用服务器中间件、消息中间件,采用与生产中心相同品牌、相同配置的中间件产品,形成中间件资源池。
应用服务器中间件需支持支持多种应用类型(war/jar/ear)的部署,支持多种应用形式(文件/目录)的部署,支持多种部署\\方式(自动部署/手动部署),提供多种部署工具(管理控制台/命令行工具);支持多服务器群集部署、负载均衡,支持对多种对象的集群功能,包括Web组件应用、EJB、JDBC等集群;集群技术支持Session非序列化对象复制技术,优化应用程序结构,实现快速便捷开发。
消息中间件需提供本地队列、远程队列、集群队列,物理队列、逻辑队列等多种队列和队列的分组管理机制;支持消息智能路由,消息传输时自动寻找一条最优路径进行传输;支持事务管理,提供本地事务支持和分布式事务支持等功能。
5 信息安全体系设计方案
5.1 安全总体设计内容
本期项目将严格按照《信息安全技术 信息系统安全等级保护基本要求》(GB/T 22239)中关于等保3级业务系统的基本要求,进行灾备中心的信息信息安全体系设计,确保灾备中心具备满足等保3级
系统的框架安全要求,包括物理安全、网络安全、主机安全、数据安全、应用安全、管理安全等方面。但是,未来切换运行在异地灾备中心的业务系统的应用安全问题应由业务系统解决,不属于本项目的建设范围。
本期项目建设的安全内容与等保3级要求的对照及响应情况表如下所示:
表 错误!文档中没有指定样式的文字。-20 本期设计内容及等保3
级要求的对照响应
本期项目设计响应情类别 等保3级要求 况 机房和办公场地应选择在具基础环境设计过程中防风和防雨等能力的物理有防震、响应。 位置建筑内。 的选机房场地应避免设在建筑物物择 理备的下层或隔壁。 安机房出入口应安排专人值守,全 物理控制、鉴别和记录进入的人响应。 访问员。 控制 需进入机房的来访人员应经基础环境设计过程中过申请和审批流程,并限制和响应。 基础环境设计过程中的高层或地下室,以及用水设响应。 基础环境设计过程中
本期项目设计响应情类别 等保3级要求 况 监控其活动范围。 应对机房划分区域进行管理,区域和区域之间设置物理隔基础环境设计过程中离装置,在重要区域前设置交响应。 付或安装等过渡区域。 重要区域应配置电子门禁系基础环境设计过程中统,控制、鉴别和记录进入的响应。 人员。 基础环境设计过程中应将主要设备放置在机房内。 响应。 应将设备或主要部件进行固基础环境设计过程中定,并设置明显的不易除去的防盗标记。 窃和应将通信线缆铺设在隐蔽处,基础环境设计过程中防破可铺设在地下或管道中。 坏 应对介质分类标识,存储在介基础环境设计过程中质库或档案室中。 响应。 响应。 响应。 应利用光、电等技术设置机房基础环境设计过程中防盗报警系统。 响应。
本期项目设计响应情类别 等保3级要求 况 基础环境设计过程中应对机房设置监控报警系统。 响应。 基础环境设计过程中机房建筑应设置避雷装置。 响应。 防雷应设置防雷保安器,防止感应基础环境设计过程中击 雷。 机房应设置交流电源地线。 响应。 机房应设置火灾自动消防系基础环境设计过程中统,能够自动检测火情、自动响应。 报警,并自动灭火。 机房及相关的工作房间和辅基础环境设计过程中防火 助房应采用具有耐火等级的响应。 建筑材料。 机房应采取区域隔离防火措基础环境设计过程中施,将重要设备与其他设备隔响应。 离开。 防水水管安装,不得穿过机房屋顶基础环境设计过程中和防和活动地板下。 响应。 响应。 基础环境设计过程中
本期项目设计响应情类别 潮 等保3级要求 况 应采取措施防止雨水通过机基础环境设计过程中房窗户、屋顶和墙壁渗透。 响应。 应采取措施防止机房内水蒸基础环境设计过程中气结露和地下积水的转移与响应。 渗透。 应安装对水敏感的检测仪表基础环境设计过程中或元件,对机房进行防水检测响应。 和报警。 主要设备应采用必要的接地基础环境设计过程中防静防静电措施。 电 机房应采用防静电地板。 响应。 温湿应设置温、湿度自动调节设基础环境设计过程中度控施,使机房温、湿度的变化在响应。 制 设备运行所允许的范围之内。 应在机房供电线路上配置稳基础环境设计过程中电力压器和过电压防护设备。 响应。 响应。 基础环境设计过程中供应 应提供短期的备用电力供应,基础环境设计过程中至少满足主要设备在断电情响应。
本期项目设计响应情类别 等保3级要求 况 况下的正常运行要求。 应设置冗余或并行的电力电基础环境设计过程中缆线路为计算机系统供电。 响应。 基础环境设计过程中应建立备用供电系统。 响应。 应采用接地方式防止外界电基础环境设计过程中磁干扰和设备寄生耦合干扰。 响应。 电磁电源线和通信线缆应隔离铺基础环境设计过程中防护 设,避免互相干扰。 响应。 应对关键设备和磁介质实施基础环境设计过程中电磁屏蔽。 响应。 网络设备具备足够的应保证主要网络设备的业务业务处理能力,采用冗网络安全 应保证网络各个部分的带宽带宽足够满足客户业满足业务高峰期需要。 务高峰需求。 处理能力具备冗余空间,满足余的结构避免单点故结构业务高峰期需要。 安全 障;根据业务形态划分了安全区域。 网络采用双线路互备,
本期项目设计响应情类别 等保3级要求 况 采取ACL路由控制,保应在业务终端与业务服务器证业务中断也业务服之间进行路由控制建立安全务器之间安全访问路的访问路径。 径 已经绘制与当前运行应绘制与当前运行情况相符情况相符的网络拓扑的网络拓扑结构图。 结构图。 应根据各部门的工作职能、重要性和所涉及信息的重要程度等因素,划分不同的子网或在初步设计中,将考虑网段,并按照方便管理和控制不同业务的网段划分。 的原则为各子网、网段分配地址段。 应避免将重要网段部署在网络边界处且直接连接外部信不同网段之间采用云息系统,重要网段与其他网段平台的隔离技术实现之间采取可靠的技术隔离手有效的隔离。 段。 应按照对业务服务的重要次确保提供足够带宽资
本期项目设计响应情类别 等保3级要求 况 序来指定带宽分配优先级别,源满足客户需求,客户保证在网络发生拥堵的时候根据自身业务特点选优先保护重要主机。 择资源分配策略。 应在网络边界部署访问控制在网络边界部署了访设备,启用访问控制功能。 问控制措施,通过部署应能根据会话状态信息为数防火墙实现互联网边据流提供明确的允许/拒绝访界网络访问控制,控制端口和协问的能力,控制粒度为端口颗粒达到IP、级。 议级。 应对进出网络的信息内容进通过防火墙,实现对进访问行过滤,实现对应用层HTTP、出流量进行分析,实现控制 FTP、TELNET、SMTP、POP3等对应用层协议的分析,协议命令级的控制。 应在会话处于非活跃一定时间或会话结束后终止网络连通过防火墙的控制策接。 略,对网络流量进行限清洗和阻断。 应限制网络最大流量数及网制,同时设置访问控制络连接数。 重要网段应采取技术手段防规则,限制用户数量。
本期项目设计响应情类别 等保3级要求 况 止地址欺骗。 应按用户和系统之间的允许访问规则,决定允许或拒绝用户对受控系统进行资源访问,控制粒度为单个用户。 应限制具有拨号访问权限的用户数量。 采用网络审计设备日志记录设备运行情况,且网络设备按照工作职责进行最小化授权, 网络设备的权限申请应对网络系统中的网络设备安全运行状况、网络流量、用户行审计 为等进行日志记录。 行审核。 网络流量分析系统对网络流量进行五元组日志记录。(源地址、目的地址、源端口、目设备责任人、安全部进必须经过申请人主管、
本期项目设计响应情类别 等保3级要求 况 的端口、传输层协议) 审计记录包含事件发审计记录应包括:事件的日期生的时间、相关操作人和时间、用户、事件类型、事员、事件类型、事件是件是否成功及其他与审计相否成功及其他与审计关的信息。 相关的信息。 能够根据网络设备操应能够根据记录数据进行分作日志进行分析,并生析,并生成审计报表。 成审计报表。 审计记录包括堡垒机A服务器,以上本地存应对审计记录进行保护,避免留,并收集到日志服务受到未预期的删除、修改或覆器提供安全部进行审盖等。 计。日志服务器由安全部负责,不能进行删除、修改和覆盖操作。 边界应能够对非授权设备私自联严格进行机房管理机完整到内部网络的行为进行检查,制,通过网络审计设备性检准确定出位置,并对其进行有对网络连接行为进行
本期项目设计响应情类别 查 等保3级要求 况 效阻断。 审计并查找位置。 生产网络必须经过堡应能够对内部网络用户私自垒机进行访问,终端无联到外部网络的行为进行检法直接联入生产网络,查,准确定出位置,并对其进堡垒机在访问策略上行有效阻断。 无法联到外部网络。 应在网络边界处监视以下攻击行为:端口扫描、强力攻击、在网络边界部署入侵木马后门攻击、拒绝服务攻防御系统,组织网络攻击、缓冲区溢出攻击、IP碎片击。 入侵攻击和网络蠕虫攻击等。 防范 当检测到攻击行为时,记录攻测到的攻击能记录源击源IP、攻击类型、攻击目的、IP、时间、攻击类型尝攻击时间,在发生严重入侵事试次数,并通过邮件和件时应提供报警。 短信向用户进行告警。 恶意应在网络边界处对恶意代码代码进行检测和清除。 防范 测。 毒功能,进行代码检在防火墙中开启防病采用入侵防御系统检
本期项目设计响应情类别 等保3级要求 况 应维护恶意代码库的升级和定期对代码库的升级检测系统的更新。 和更新。 应对登录网络设备的用户进登录网络设备必须经行身份鉴别。 应对网络设备的管理员登录址限制,只允许运维区地址进行限制。 域的访问。 网络设备用户具有唯网络设备用户的标识应唯一。 一标识。 网络主要网络设备应对同一用户设备选择两种或两种以上组合的防护 鉴别技术来进行身份鉴别。 TOKEN方式。 身份鉴别信息应具有不易被堡垒主机采用密码方冒用的特点,口令应有复杂度式,密钥有复杂度要要求并定期更换。 求。 主机采用密码加手机络设备进行操作,堡垒通过堡垒主机登录网过3A服务器进行认证。 设置网络设备访问地应具有登录失败处理功能,可登录机制有结束会话,采取结束会话、限制非法登录限制非法登录次数和次数和当网络登录连接超时超时退出功能。
本期项目设计响应情类别 等保3级要求 况 自动退出等措施。 当对网络设备进行远程管理管理时采用SSH加密通时,应采取必要措施防止鉴别讯可以防止数据被窃信息在网络传输过程中被窃听。 听。 应实现设备特权用户的权限通过策略控制,实现特分离。 权用户权限分离。 应对登录操作系统和数据库通过账号、权限控制,系统的用户进行身份标识和对用户身份进行验证鉴别。 操作系统和数据库系统管理用户自行设置密码口主机安全 用户身份标识应具有不易被令,并进行严格的管口令应有复杂度身份冒用的特点,理。 鉴别 要求并定期更换。 应启用登录失败处理功能,可启用登陆失败功能,采采取结束会话、限制非法登录取结束会话方式,对非次数和自动退出等措施。 法登陆限制。 识别。 当对服务器进行远程管理时,用户通过专线或VPN对应采取必要措施,防止鉴别信服务器进行远程管理,
本期项目设计响应情类别 等保3级要求 况 息在网络传输过程中被窃听。 且一般采用SSH 通讯。 应为操作系统和数据库系统分配给用户的用户名的不同用户分配不同的用户具有唯一性。 名,确保用户名具有唯一性。 在对主机进行管理前,应采用两种或两种以上组合管理员已经采取堡垒的鉴别技术对管理用户进行主机进行双因素身份身份鉴别。 认证。 针对主机系统管理权应启用访问控制功能,依据安限,用户采用严格的管全策略控制用户对资源的访理制度,自行启动和设问。 置。 应根据管理用户的角色分配针对主机系统管理权访问权限,实现管理用户的权限分限,用户采用严格的管控制 离,仅授予管理用户所需的最理制度,自行启动和设小权限。 应实现操作系统和数据库系限,用户采用严格的管统特权用户的权限分离。 理制度,自行启动和设置。 针对主机系统管理权
本期项目设计响应情类别 等保3级要求 况 置。 针对主机系统管理权应严格限制默认帐户的访问限,用户采用严格的管权限,重命名系统默认帐户,理制度,自行启动和设修改这些帐户的默认口令。 置。 定期对账号进行审查,应及时删除多余的、过期的帐避免出现共享账号,过户,避免共享帐户的存在。 期账号。 用户拥有主机系统管应对重要信息资源设置敏感理权限,自行进行信息标记。 资源敏感标记。 应依据安全策略严格控制用用户拥有主机系统管户对有敏感标记重要信息资理权限,自行进行账户源的操作。 管理和口令管理。 审计范围应覆盖到服务器和后期考虑部署日志审重要客户端上的每个操作系计系统,对用户行为进安全统用户和数据库用户。 审计 审计内容应包括重要用户行日志审计系统包含重为、系统资源的异常使用和重要的安全事件记录。 行记录。
本期项目设计响应情类别 等保3级要求 况 要系统命令的使用等系统内重要的安全相关事件。 审计记录应包括事件的日期、通过日志审计系统实时间、类型、主体标识、客体现。 标识和结果等。 应能够根据记录数据进行分通过日志审计系统实析,并生成审计报表。 现。 应保护审计进程,避免受到未通过日志审计系统实预期的中断。 应保护审计记录,避免受到未用防篡改措施,防止日预期的删除、修改或覆盖等。 志被修改。 应保证操作系统和数据库系统用户的鉴别信息所在的存剩余信息保护 储空间,被释放或再分配给其他用户前得到完全清除,无论这些信息是存放在硬盘上还是在内存中。 应确保系统内的文件、目录和用户资源释放后,相关的存储空间进行内存释放和数据清空操作,确保空间分配给其他用户前得到清除。 现。 通过日志审计系统,采
本期项目设计响应情类别 等保3级要求 况 数据库记录等资源所在的存储空间,被释放或重新分配给其他用户前得到完全清除。 通过入侵防御系统,记应能够检测到对重要服务器录入侵攻击的类型,并进行入侵的行为,能够记录入进行告警,对暴力破解侵的源IP、攻击的类型、攻击能记录源IP、时间、尝的目的、攻击的时间,并在发试次数,并通过邮件和生严重入侵事件时提供报警。 短信向用户进行告警。 入侵应能够对重要程序的完整性部署漏洞检测系统,检防范 进行检测,并在检测到完整性测程序完整性,软件开受到破坏后具有恢复的措施。 发商配合合规。 操作系统应遵循最小安装的在操作系统安装过程原则,仅安装需要的组件和应中,应遵循最小安装的用程序,并通过设置升级服务原则,仅安装需要的组器等方式保持系统补丁及时件和应用程序。 得到更新。 恶意应安装防恶意代码软件,并及通过安全病毒和恶意代码时更新防恶意代码软件版本代码的防范软件实现。
本期项目设计响应情类别 等保3级要求 况 防范 和恶意代码库。 主机防恶意代码产品应具有与网络防恶意代码产品不同的恶意代码库。 应支持防恶意代码的统一管理。 应通过设定终端接入方式、网用户自行设定终端登络地址范围等条件限制终端录方式,限制登陆。 登录。 应根据安全策略设置登录终用户自行设定终端登端的操作超时锁定。 应对重要服务器进行监视,包资源括监视服务器的CPU、硬盘、通过管理系统,实现对控制 内存、网络等资源的使用情资源的监控。 况。 应限制单个用户对系统资源在设置权限时,设置单的最大或最小使用限度。 用户的使用资源度。 录超时锁定策略。 应能够对系统的服务水平降在设置权限时,设置单低到预先规定的最小值进行用户的使用资源度。
本期项目设计响应情类别 等保3级要求 况 检测和报警。 应提供专用的登录控制模块软件开发商在软件开对登录用户进行身份标识和发时,负责合规性检鉴别。 测。 应对同一用户采用两种或两软件开发商在软件开种以上组合的鉴别技术实现发时,负责合规性检用户身份鉴别。 应提供用户身份标识唯一和应用安全 鉴别信息复杂度检查功能,保软件开发商在软件开身份证应用系统中不存在重复用发时,负责合规性检鉴别 户身份标识,身份鉴别信息不测。 易被冒用。 应提供登录失败处理功能,可软件开发商在软件开采取结束会话、限制非法登录发时,负责合规性检次数和自动退出等措施。 应启用身份鉴别、用户身份标软件开发商在软件开识唯一性检查、用户身份鉴别发时,负责合规性检信息复杂度检查以及登录失测。 败处理功能,并根据安全策略测。 测。
本期项目设计响应情类别 等保3级要求 况 配置相关参数。 应提供访问控制功能,依据安考虑部署应用防火墙,全策略控制用户对文件、数据对应用的访问进行控库表等客体的访问。 制。 访问控制的覆盖范围应包括考虑部署应用防火墙,与资源访问相关的主体、客体对应用的访问进行控及它们之间的操作。 制。 应由授权主体配置访问控制考虑部署应用防火墙,策略,并严格限制默认帐户的对应用的访问进行控访问访问权限。 控制 应授予不同帐户为完成各自软件开发商在软件开承担任务所需的最小权限,并发时,负责合规性检在它们之间形成相互制约的测。 关系。 软件开发商在软件开应具有对重要信息资源设置发时,负责合规性检敏感标记的功能。 测。 应依据安全策略严格控制用软件开发商在软件开户对有敏感标记重要信息资发时,负责合规性检制。
本期项目设计响应情类别 等保3级要求 况 源的操作。 应提供覆盖到每个用户的安应用自身的日志记录,全审计功能,对应用系统重要对应用的安全事件进安全事件进行审计。 行审计。 通过日志审计系统及应保证无法单独中断审计进应用自身的日志记录,程,无法删除、修改或覆盖审对应用的安全事件进计记录。 安全审计 审计记录的内容至少应包括应用自身的日志记录,事件的日期、时间、发起者信对应用的安全事件进息、类型、描述和结果等。 行审计。 通过日志审计系统及应提供对审计记录数据进行应用自身的日志记录,统计、查询、分析及生成审计对应用的安全事件进报表的功能。 行审计。 剩余应保证用户鉴别信息所在的重新分配资源时,将硬信息存储空间被释放或再分配给盘、内存等进行彻底清行审计。 通过日志审计系统及测。 通过日志审计系统及
本期项目设计响应情类别 等保3级要求 况 保护 其他用户前得到完全清除,无除。 论这些信息是存放在硬盘上还是在内存中。 应保证系统内的文件、目录和数据库记录等资源所在的存储空间被释放或重新分配给其他用户前得到完全清除。 通信应采用密码技术保证通信过完整程中数据的完整性。 性 测。 在通信双方建立连接之前,应软件开发商在软件开用系统应利用密码技术进行发时,负责合规性检通信会话初始化验证。 保密软件开发商在软件开性 应对通信过程中的整个报文发时,负责合规性检或会话过程进行加密。 测。 应具有在请求的情况下为数软件开发商在软件开抗抵据原发者或接收者提供数据发时,负责合规性检赖 原发证据的功能。 测。同时通过日志审计测。 发时,负责合规性检软件开发商在软件开
本期项目设计响应情类别 等保3级要求 况 系统进行记录。 软件开发商在软件开应具有在请求的情况下为数发时,负责合规性检据原发者或接收者提供数据测。同时通过日志审计接收证据的功能。 系统进行记录。 应提供数据有效性检验功能,软件开发商在软件开保证通过人机接口输入或通发时,负责合规性检过通信接口输入的数据格式软件或长度符合系统设定要求。 容错 应提供自动保护功能,当故障软件开发商在软件开发生时自动保护当前所有状发时,负责合规性检态,保证系统能够进行恢复。 测。 当应用系统的通信双方中的软件开发商在软件开一方在一段时间内未作任何发时,负责合规性检响应,另一方应能够自动结束资源会话。 控制 软件开发商在软件开应能够对系统的最大并发会发时,负责合规性检话连接数进行限制。 测。 测。 测。
本期项目设计响应情类别 等保3级要求 况 软件开发商在软件开应能够对单个帐户的多重并发时,负责合规性检发会话进行限制。 测。 软件开发商在软件开应能够对一个时间段内可能发时,负责合规性检的并发会话连接数进行限制。 测。 应能够对一个访问帐户或一软件开发商在软件开个请求进程占用的资源分配发时,负责合规性检最大限额和最小限额。 测。 应能够对系统服务水平降低软件开发商在软件开到预先规定的最小值进行检发时,负责合规性检测和报警。 应提供服务优先级设定功能,并在安装后根据安全策略设软件开发商在软件开定访问帐户或请求进程的优发时,负责合规性检先级,根据优先级分配系统资测。 源。 数据数据应能够检测到系统管理数据、存储系统确保数据存完整鉴别信息和重要业务数据在在多副本,副本具备校测。
本期项目设计响应情类别 安全及备份恢复 性 等保3级要求 况 传输过程中完整性受到破坏,验和版本控制。 并在检测到完整性错误时采取必要的恢复措施。 应能够检测到系统管理数据、在应用层面的数据完鉴别信息和重要业务数据在整性,软件开发商负责存储过程中完整性受到破坏,合规性检测。同时部署并在检测到完整性错误时采应用防火墙,避免数据取必要的恢复措施。 应采用加密或其他有效措施数据存储采取元信息实现系统管理数据、鉴别信息数据和重要业务数据传输保密性。 保密应采用加密或其他保护措施应用层面的数据保密性 实现系统管理数据、鉴别信息性,软件开发商负责合和重要业务数据存储保密性。 规。 应提供本地数据备份与恢复完全数据备份至少每天已考虑 备份功能,和恢一次,备份介质场外存放。 复 应提供异地数据备份功能,利已考虑 用通信网络将关键数据定时和数据分离存储机制。 被篡改。
本期项目设计响应情类别 等保3级要求 况 批量传送至备用场地。 应采用冗余技术设计网络拓已考虑网络冗余,关键扑结构,避免关键节点存在单节点不存在单点故障。 点故障。 应提供主要网络设备、通信线已考虑链路及设备的路和数据处理系统的硬件冗冗余性,保证系统的可余,保证系统的高可用性。 用性。 5.2 安全防护建设方案
5.2.1 安全拓扑架构
本期项目依照等级保护要求,从物理安全、网络安全、主机安全、数据安全、应用安全及管理安全等方面对异地容灾中心进行安全防护设计。
根据灾备中心不同业务功能区域之间的安全需求,将数据中心的网络按照功能的不同分成多个业务区域。根据数据中心功能区域的划分,形成了灾备中心安全逻辑拓扑结构。针对各个功能区域都部署相
应的安全产品,区域分别为:边界接入区、安全管理区、核心交换区以及云资源区。
边界路由边界防火墙边界接入区入侵防御安全管理区核心交换漏洞扫描日志审计网络审计核心交换区WAFWAF业务接入TOR堡垒机防病毒云资源区数据库资源池虚拟机资源池运维管理资源池 图 错误!文档中没有指定样式的文字。-13 灾备中心安全拓扑图
5.2.2 物理安全
物理环境安全策略的目的是保护网络中计算机网络通信有一个良好的电磁兼容工作环境,并防止非法用户进入计算机控制室和各种偷窃、破坏活动的发生。保证计算机信息系统各种设备的物理安全是保障整个网络与信息系统安全的前提。物理安全主要涉及环境安全、设备安全和介质安全,是对网络系统所在环境、所用设备、所用介质进行安全保护。
1.1.5.2.2.1 环境安全
环境安全主要是指防雷、防水、消防、防电磁辐射等内容。对系统所在环境的安全保护,如区域保护和灾难保护,具体实现可遵循国家标准GB50173-93《电子计算机机房设计规范》、国标GB2887-89《计算站场地技术条件》、GB9361-88《计算站场地安全要求》。
1、机房选址
机房和办公场地选择在具有防震、防风和防雨等能力的建筑内。机房场地应避免设在建筑物的高层或地下室,以及用水设备的下层或隔壁。
2、机房环境
(1)应将设备或主要部件进行固定,并设置明显的不易除去的标记;应将通信线缆铺设在隐蔽处,可铺设在地下或管道中。
(2)合理规划设备安装位置,应预留足够的空间作安装、维护及操作之用;机房门大小应满足系统设备安装时运输需要。
(3)机房建筑应设置避雷装置;应设置防雷保安器,防止感应雷;要求防雷接地和机房接地分别安装,且相隔一定的距离。
(4)机房设置火灾自动消防系统,能够自动检测火情、自动报警,并自动灭火;机房及相关的工作房间和辅助房应采用具有耐火等级的建筑材料;房间装修必需使用阻燃材料,耐火等级符合国家相关标准规定;机房应采取区域隔离防火措施,将重要设备与其他设备隔离开。
(5)水管安装,不得穿过机房屋顶和活动地板下;应采取措施防止雨水通过机房窗户、屋顶和墙壁渗透;应采取措施防止机房内水蒸气结露和地下积水的转移与渗透;应安装对水敏感的检测仪表或元件,对机房进行防水检测和报警;
(6)机房墙壁及天花板应进行表面处理,防止尘埃脱落,机房应安装防静电活动地板。
(7)配备空调系统,以保持房间恒湿、恒温的工作环境。 (8)在机房供电线路上配置稳压器和过电压防护设备;提供短期的备用电力供应,满足关键设备在断电情况下的正常运行要求。设置冗余或并行的电力电缆线路为计算机系统供电;建立备用供电系统。
(9)应采用接地方式防止外界电磁干扰和设备寄生耦合干扰;铺设线缆要求电源线和通信线缆隔离铺设,避免互相干扰。对关键设备和磁介质实施电磁屏蔽。
3、机房管理
(1)机房出入口安排专人值守,控制、鉴别和记录进入的人员; (2)需进入机房的来访人员须经过申请和审批流程,并限制和监控其活动范围;
(3)对机房划分区域进行管理,区域和区域之间设置物理隔离装置,在重要区域前设置交付或安装等过渡区域;
(4)重要区域应配置电子门禁系统,控制、鉴别和记录进入的人员。
1.1.5.2.2.2 机房设备与介质安全
为了防止无关人员和不法分子非法接近网络并使用网络中的主机盗取信息、破坏网络和主机系统、破坏网络中的数据的完整性和可用性,必须采用有效的区域监控、防盗报警系统,阻止非法用户的各种临近攻击。此外,必须制定严格的出入管理制度和环境监控制度,以保障区域监控系统和环境监控系统的有效运行。对介质进行分类标识,存储在介质库或档案室中。利用光、电等技术设置机房防盗报警系统;对机房设置监控报警系统。
根据XXX信息系统异地灾备中心项目的计划和安排,在广州新建数据中心机房,机房建设需满足国家标准规定的信息系统安全等级(等保三级)中对机房的防护要求。
5.2.3 网络安全
网络层安全主要指网络架构、网络设备、安全设备方面的安全性,主要体现网络拓扑安全、安全域的划分及边界防护、网络资源的访问控制、远程接入的安全,网络设备的安全、入侵检测的手段、防病毒等方面,采取的主要安全措施和技术包括划分安全域、实施安全边界防护、部署防火墙、IPS/IDS网络安全审计系统等。另外,在云计算应用环境下,虚拟化及共享特性引入了逻辑边界,须加强对逻辑边界实施安全防护和访问控制,监控和限制各应用间的通信流量。
在网络边界处均部署安全访问控制设备,包括防火墙、IPS等,根据会话状态信息为数据流提供明确的允许/拒绝访问的能力,控制粒度为端口级,同时安全网关和IPS具备对进出网络的信息内容进行过滤,实现对应用层协议的命令级控制,充分确保系统非实时在线层面的安全保护功能。
在防火墙上部署针对用户的限流和限连接,防止恶意攻击和流量非法滥用。在防火墙上开启IP加MAC绑定实现对各网段的地址欺骗控制,支持按用户和系统之间的允许访问规则,允许或拒绝用户对受控系统进行资源访问。
边界访问控制是实现整体安全技术体系的首要前提,也往往是用户进行安全建设的首选措施,主要包括网络边界访问控制、业务边界防护控制等,其核心功能是:将用户信息网络划分出不同网络安全区域,对于跨越安全区域的访问进行访问控制,重点根据源、目标地址、协议、端口、服务、用户等信息进行判断,符合访问控制策略的将被允许,否则将被禁止。具体边界访问控制如下:
1、网络边界:在接入域部署防火墙网关,采用防火墙策略隔离进行内外网隔离。
2、虚拟机边界:在云计算环境下,所有的业务系统共用一个云计算虚拟化环境,那么所有的业务系统在物理资源上是融合的,因此需要在虚拟资源区进行二层隔离。
1.1.5.2.3.1 防火墙
本期项目在灾备中心边界部署防火墙,对流经它的网络通信进行扫描,隔离不同网络,防止内部信息的外泄;可根据数据包的源地址、目标地址、协议类型、源端口、目标端口以及网络协议等对数据包进行访问控制。
采用直路部署防火墙方式进行安全隔离和安全防护,从外部进入数据中心的流量都需要经过防火墙进行安全检查。采用两台防火墙配置为双机热备模式,提供冗余保护保证业务不中断。
所谓双机热备其实是双机状态备份,当两台防火墙确定主从关系后,由主防火墙进行业务的转发,而从防火墙处于监控状态,同时主防火墙会定时向从防火墙发送状态信息和需要备份的信息,当主防火墙出现故障后,从防火墙会及时接替主防火墙上的业务运行。
除了主备模式以外,防火墙的双机热备还支持负载分担模式。双机热备下的负载分担模式就是在双机热备组网保护的情况下对业务进行分流处理,使进行双机热备的两台防火墙都能够进行业务转发。负载分担的工作原理是:在负载分担的组网中,防火墙上配置有两个组,并且状态互为主备。两台防火墙的动态表项互为备份,以保障当一台防火墙设备出现故障时,所有业务将由另一台正常的防火墙来进行承接,当出现故障的设备恢复正常后,本身的业务仍然会转到该防火墙继续运行。
1.1.5.2.3.2 网络防病毒
各类恶意代码尤其是病毒、木马等是对网络的重大危害,病毒在爆发时将使路由器、交换机、防火墙等网关设备性能急速下降,并且占用整个网络带宽。
在数据中心边界防火墙上根据需要开启防病毒功能,对网络流量中的HTTP、FTP、SMTP、POP3、IMAP等协议进行病毒检测。根据等保安全级别的不同,采用不同的病毒过滤机制,以满足不同安全区域的差异化需求。比如,在公众服务边界其访问特点是对数据转发性能敏感,因此病毒过滤网关采用快速流过滤技术进行病毒查杀,在保证网络流量及延迟不受到较大的影响下,保证流量中的主要病毒被过滤掉。而核心业务系统为等保三级系统,对安全性更为敏感,此时须采用更为严格的深度病毒过滤机制,在保证数据安全的情况下,严格过滤全部病毒。
病毒防护一般包括网络层防病毒和主机防病毒两种模式,在本项目中提供网络层防病毒。网络防病毒一般有两种部署方案,在线或旁路,一般在线方式可对经过设备的流量进行检查和过滤阻断病毒并生成病毒报表,旁路方式仅只可以对收到的流量进行检查,生成病毒报表,但无法阻断过滤病毒。因此本项目中防病毒部署采用在线方式,即在网络层部署防火墙并开启防病毒功能。防病毒功能开启后,可实现以下功能:
1、防病毒
对使用 HTTP、SMTP、POP3、FTP 协议传输的文件进行病毒扫描。对多种压缩格式的压缩文件、加壳文件以及 Email 中的附件真实文件类型(Word,pdf 文档)都能进行全面的扫描,防止病毒传播;
病毒库可以在线升级,用户可进行自动升级,也可手动实时升级病毒库;
威胁防御对网络上的流量进行状态监视,以深度分析报文的方式更准确全面地发现入侵,以及各种蠕虫、木马和恶意攻击,并根据策略对入侵进行响应。
2、Web过滤
URL 过滤:对用户的 URL 请求进行访问控制,允许或禁止用户访问某些网络资源,可以达到规范上网行为的目的;
搜索引擎关键字过滤:对指定搜索引擎中的关键字进行过滤,目前支撑的搜索引擎有 Google、Yahoo、Bing、百度;
Web 内容过滤:对 HTTP 协议传输的 Web 页面内容进行控制,包括 Web 页面上的文本关键字,论坛发贴内容关键字,Web 页面中包含文件(如图形、视频等)的文件名和文件内容过滤,以及基于 HTTP 协议的上传或下载的文件大小过滤。
3、邮件过滤
反垃圾邮件(RBL 过滤),通过本地黑白名单或第三方组织提供的动态更新的黑名单库,对垃圾邮件进行过滤;
邮件内容过滤,在内网用户通过 Webmail 或 SMTP/POP3 客户端收发电子邮件时,对邮件地址、主题、正文、附件大小、附件名或
附件类型等进行监控,防止数据泄漏或敏感信息传输。
4、FTP过滤
可以对 FTP 操作(上传、下载、删除)、上传/下载的文件名、文件类型、文件大小进行控制。
5、日志报表
AVE 能够将系统消息或策略的动作存入缓冲区或定向发送到日志主机上;通过 B/S 架构的专业系统进行报表管理;专业的报表系统提供统计报表、趋势报表、对比报表和综合报表四种报表形式,并且支持多种输出格式,同时具有柱状图、饼状图和曲线图等丰富的呈现方式。
1.1.5.2.3.3 入侵防御系统
入侵防御系统依据一定的安全策略,对网络进行监控,一旦发现攻击,或者网络异常能采用相应的抵御措施。对过往数据包进行深层检查,然后确定是否放行。借助病毒特征和协议异常,阻止有害代码传播。并跟踪和标记可疑代码,看谁使用这些回答信息而请求连接,更准确地确认发生了入侵事件。入侵检测系统为了实现针对来自外部的攻击行为的有效检测和防御,系统一般部署在靠近攻击源的地方。本期在边界区部署入侵防御设备,实现针对来自网络攻击行为进行检测和阻断,提高数据中心的抗攻击能力。
入侵防御系统安全保护措施将实现包括以下几点:
1、完善的攻击特征库:包括能够鉴别多种入侵攻击特征;能够
精确抵御黑客攻击、蠕虫、木马、后门,抑制间谍软件、灰色软件、网络钓鱼的泛滥等;
2、准确的在线防御技术:既能积极预防各种威胁,又不会丢弃合法流量。这种独特的技术能够对数据进行智能、自动、关联分析,以保证客户能充分发挥入侵防御解决方案的优势;
3、多种威胁识别:通过L2到L7的详细流量检测,防止用户违背网络策略、盗用各种漏洞并执行异常操作;
4、独特网络协作:通过网络协作提高可扩展性和永续性,包括有效的流量捕获技术、负载均衡功能以及对加密流量的可视性;
5、强大的管理、事件关联和支持服务:提供完整的解决方案,包括配置、管理、数据关联和高级支持服务;
6、支持日志报表功能:可对攻击日志、病毒日志、带宽使用日志、WEB访问日志、用户登录日志等进行记录;可对IP地址、端口、时间、危急程度、日志内容关键字等进行查询;根据用户具体需求,形成多种格式的报表文件。
1.1.5.2.3.4 网络安全审计
信息安全审计管理应该管理最重要的核心网络边界,被审计对象不仅仅包括对外服务区域中的应用服务器和安全管理区域的服务器等的访问流量,还要对终端的互联网访问行为进行审计。
通过对数据中心部分服务器区之间的网络流量、用户行为等进行日志记录,能够根据记录数据进行分析并生成审计报表,同时对系统
审计的记录进行有效安全保护,避免受到未预期的删除、修改或覆盖等不安全操作。
网络安全审计系统主要用于监视并记录网络中的各类操作,侦察系统中存在的现有和潜在的威胁,实时地综合分析出网络中发生的安全事件,包括各种外部事件和内部事件。
在网络交换机处并接部署网络审计设备,形成对全网网络数据的流量监测并进行相应安全审计,同时和其它网络安全设备共同为集中安全管理提供监控数据用于分析及检测。对网络中的数据包进行分析、匹配、统计,通过特定的协议算法,从而实现入侵检测、信息还原等网络审计功能,根据记录生成详细的审计报表。
网络行为监控和审计系统采用旁路技术,不用在目标主机中安装任何组件。同时网络审计系统可与其它网络安全设备进行联动,将各自的监控记录送往安全管理安全域中的安全管理服务器,集中对网络异常、攻击和病毒进行分析和检测。
1.1.5.2.3.5 堡垒机
为提高网络设备的自身安全性,保障各种网络应用的正常运行,对网络设备需要进行一系列的加固措施并通过部署堡垒机系统进行强化的管理权限控制。堡垒机对授权人员的运维操作进行记录、分析、展现,以帮助内控工作事前规划预防、事中实时监控、违规行为响应、事后合规报告、事故追踪回放,加强内部业务操作行为监管、避免核心资产(服务器、网络设备、安全设备等)损失、保障业务系统的正
常运行。包括:
(1)对登录网络设备的用户进行身份鉴别,用户名必须唯一;通过堡垒机进行统一的人员、组织架构及角色管理,实现管理账号与设备操作用户的对应。并将堡垒机用户信息和身份认证系统实现统一,集中通过身份认证系统实现统一的运维账号管理流程;
(2)对网络设备的管理员登录地址进行限制;重要的设备管理须通过堡垒机,由负责人审批授权给实际操作员权限后方可管理,以解决登陆地址限制的不足;
(3)身份鉴别信息具有不易被冒用的特点,口令设置需3种以上字符、长度不少于8位,并定期更换;
(4)具有登录失败处理功能,失败后采取结束会话、限制非法登录次数和当网络登录连接超时自动退出等措施;
(5)采用堡垒机对操作人员的角色进行管理,控制不同角色的操作员的权限,除了控制管理员具体管理的设备外,还要通过堡垒机内置的命令分类集,对有风险的运维命令进行实时审计和拦截控制;
(6)通过堡垒机,对管理操作的全程进行审计记录,除了记录操作命令外,还须对操作过程进行录屏记录,便于在事后追责过程中获得直接证据;
(7)对于重要的网络设备,须采用堡垒机实现多人共同管理的运维模式,以防止单人管理所带来的权限过大、无法有效监控等问题。尤其是对外部运维单位人员的操作,也必须有内部管理人员共同管理。
1.1.5.2.3.6 日志审计
数据中心每天要产生海量的日志,包括安全设备日志、网络设备日志、主机系统日志、数据库日志等日志信息,这些日志中涉及到数据中心的安全相关内容,仅靠人工核查,将会耗费大量人力、物力。本期部署在审计区部署日志审计系统,建设一个统一日志收集与分析平台,对网络、应用、设备、安全、操作等所产生的海量日志进行统一安全管理与深度分析。
日志审计系统基于WEB异构日志,实现统一收集、存储、查询、统计分析和可视化的集中管理。系统需全面支持各种网络设备、安全设备、主机和应用系统日志;支持实时关联分析;支持多点多级部署,提供可扩展的日志收集接口,不断扩展收集分析能力,实现持续审计。
后期根据业务实际需求,在安全管理区部署日志审计系统,为数据中心提供基于日志视角的最佳信息安全管理方案,提升信息安全管理水平,实现合规审计和取证定责。
5.2.4 主机安全
系统安全主要指云环境中的主机服务器、维护终端在内的所有计算机设备在操作系统和数据库的层面的安全性。操作系统的安全问题主要体现在操作系统本身的缺陷带来的不安全因素,如访问控制、身份认证、系统漏洞、操作系统的安全配置问题、病毒对操作系统的威
胁等方面,数据库的安全性主要体现在安全补丁、账户口令、角色权限、日志和审计、参数设置等方面。
主机系统作为云计算平台海量信息存储、传输、应用处理的基础设施,数量众多,资产价值高,面临的安全风险极大,其自身安全性会影响整个云环境的安全。主要的防护措施包括身份认证、访问控制、主机安全审计、主机防病毒系统等,全面发现主机系统和数据库在安全配置、安全管理、安全防护措施等方面的漏洞和安全隐患。主机安全防护主要包含以下方面:
1.1.5.2.4.1 主机访问控制
针对主机访问控制,可在网络边界部署防火墙系统进行访问控制;针对WEB服务器采用应用防火墙,对基于HTTP协议的访问行为进行针对性的访问控制;针对运维人员,通过部署堡垒机对登录物理主机和虚拟机操作系统进行限制,对操作系统、虚拟化操作系统和数据库系统登录进行策略控制,对登录用户唯一授权实现身份鉴别。
三级系统一个重要要求是实现自主访问控制和强制访问控制。自主访问控制实现:在安全策略控制范围内,使用户对自己创建的客体具有各种访问操作权限,并能将这些权限的部分或全部授予其他用户;自主访问控制主体的粒度应为用户级,客体的粒度应为文件或数据库表级;自主访问操作应包括对客体的创建、读、写、修改和删除等。主机访问控制主要控制的是对应用系统的文件、数据库等资源的访问,避免越权非法使用。采用的措施主要包括:
启用访问控制功能:制定严格的访问控制安全策略,根据策略控制用户对应用系统的访问,特别是文件操作、数据库访问等,控制粒度主体为用户级、客体为文件或数据库表级。
权限控制:对于制定的访问控制规则要能清楚的覆盖资源访问相关的主体、客体及它们之间的操作。对于不同的用户授权原则是进行能够完成工作的最小化授权,避免授权范围过大,并在它们之间形成相互制约的关系。
账号管理:严格限制默认帐户的访问权限,重命名默认帐户,修改默认口令;及时删除多余的、过期的帐户,避免共享帐户的存在。
访问控制的实现主要采取两种方式:采用安全操作系统,或对操作系统进行安全增强改造,且使用效果要达到以上要求。
1.1.5.2.4.2 主机防病毒
针对病毒的风险,建议将病毒消灭或封堵在终端这个源头上。本期项目将采用有代理的防病毒方式,在所有终端主机和服务器上安装网络防病毒软件。在防病毒软件防护的同时,加强终端主机的病毒防护能力并及时升级恶意代码软件版本以及恶意代码库。
防病毒软件防护提供包括实时扫描、预设扫描及手动扫描功能,处理措施包含清除、删除、拒绝访问或隔离恶意软件。当检测到恶意软件时,可以生成警报日志,防止其受到病毒、间谍软件、木马和其他恶意软件的侵害。优化虚拟机上并发的全盘扫描、病毒库更新时对虚拟服务器产生大量的资源消耗,避免全系统扫描和特征码更新中出
现的防病毒风暴。能将复杂、高端的攻击有效隔离,通过隔离已阻止的恶意软件防止虚拟环境中的复杂攻击干扰安全。
1.1.5.2.4.3 主机安全加固
针对系统自身漏洞,可通过对主机进行加固,能够降低系统受到危害的可能性。在进行系统安全加固时,可从以下几方面进行人工安全配置,保证主机安全。
1、操作系统和数据库的用户口令应具有相应的复杂度,并定期更换;
2、启用主机的登录失败处理功能,设备限制非法登录次数和自动退出等措施;
3、当对服务器进行远程管理时,关闭不必要的telnet服务,采用加密的方式保证数据在传输中的保密性、完整性。
4、关闭操作系统开启的默认共享,对于需要开启的共享及共享文件夹设置不同的访问权限,对于操作系统重要文件和目录应设置权限要求。
5、限制默认账户的访问权限。删除操作系统和数据库中过期或多余的账户,禁用无用账户。
6、开启主机的安全审计功能。
针对软件因自身设计缺陷而导致的漏洞,数据中心应提供集中的安全补丁管理方案,实现了补丁测试、自动补丁安装、回退等机制;结合虚拟机迁移控制,保证物理机器重启不中断业务。
5.2.5 虚拟化安全
虚拟化安全机制用于保护虚拟机管理器和虚拟机。它保护虚拟机管理器防止外部的袭击,并且隔离虚拟机。如果虚拟机管理器被攻击,在其上的多个虚拟机的隔离机制会失败。虚拟机管理器的漏洞不仅仅是其自身的问题,因为虚拟机也可能会带来一些它们自己的漏洞。这些漏洞可以通过保护虚拟机镜像或者虚拟机安全生命周期的管理来得到减轻。
虚拟化作为一种能够提高物理服务器运行效率、降低成本、简化资源管理以及支撑动态资源扩展等特点成为了云计算的核心技术。然而,虚拟化技术也给云计算带来了更加复杂的安全环境,许多研究表明,大多数的虚拟机产品相对传统的物理服务器而言安全性更差,但是这个现状是可以随着技术的革新而得到改进的。理论上,虚拟机可以获得和物理机相同级别甚至在某些方面更强的安全性。考虑到云计算实质上是一个虚拟化的计算资源平台,并以虚拟机的方式为用户提供运行环境,因此,在云计算安全研究领域中,虚拟化安全的研究显得尤为重要和迫切,其中云平台中的虚拟机安全是核心。针对虚拟化安全防护主要涉及以下方面:
1.1.5.2.5.1 虚拟化平台安全
1、安全策略
在实现虚拟化之前,应首先考虑安全策略规划。分析虚拟平台具
体风险,制定安全计划。
虚拟机部署:物理上把公共的虚拟机与专用的虚拟机分开;把不同任务或者服务虚拟机分开;
虚拟机生命周期安全管理:考虑虚拟机创建、移动和销毁过程生命周期安全威胁。
2、虚拟化平台安全措施 (1)虚拟机隔离
虚拟机之间应具有良好的隔离性,在虚拟机间或虚拟机与宿主机之间共享资源或者通信时,要保证虚拟机上的重要信息与宿主操作系统或其他虚拟机的隔离。
虚拟化软件层的安全隔离软件层位于硬件和虚拟服务器之间,提供终端用户创建和删除虚拟化实例的能力,由虚拟化服务提供商管理,终端用户无法看到并访问虚拟化软件。其管理程序保证硬件和操作系统虚拟化实现在多个用户虚拟机之间共享硬件资源,而不会彼此干扰。
(2)补丁管理
对虚拟机系统技术的进行补丁修复,可以有效的降低系统的安全风险。尤其要加强对休眠虚拟机的安全系统状态的监控。
(3)虚拟机迁移
可靠的虚拟机迁移技术是解决这个问题的关键。然而,可靠的虚拟机迁移安全机制能有效的保证虚拟机迁移的成功。
在虚拟机迁移之前,为确保虚拟机迁移目的平台的安全性和可靠性,可以先对虚拟平台进行远程证明和一致性检测等措施,从而确保
虚拟机成功迁移和安全运行。
(4)镜像管理
在虚拟机镜像(VMI)的存储和引导过程,要保证虚拟机镜像的完整性和可靠性。
(5)审计功能
虚拟机的审计内容应该包括电源状态(开启、关闭、暂停、恢复),对硬件配置的更改,登录尝试、权限变更、用户对数据的访问和业务的操作记录等。此外,还应该包括对文件的复制、移动、删除做审计。
(6)管理工具
虚拟机系统提供给用户的管理工具能够方便用户有效的管理虚拟机系统。但是这些工具的缺陷导致这些工具在使用过程中会出现虚拟机功能的异常现象。而且,基于虚拟机管理工具的恶意使用也将对虚拟机系统带来安全威胁。所以,要对虚拟机管理工具进行安全控制。
1.1.5.2.5.2 Hypervisor安全
恶意用户利用Hyprevisor的漏洞,对虚拟机系统进行攻击。由于Hypervisor在虚拟机系统中的关键作用,一旦其遭受攻击,将严重影响虚拟机系统的安全运行,造成数据丢失和信息泄漏。
通过及时更新虚拟化软件补丁,提升虚拟化服务器的安全,可以有效保证Hypervisor的完整可信,降低安全风险。
1.1.5.2.5.3 虚拟机流量控制
与传统的安全防护不同,在虚拟机环境下,同一个服务器上的不同虚拟机可能属于同一个物理vlan内,这时相邻的虚拟机之间的流量交换不再通过外部交换机,而是通过物理服务器内部的虚拟网络,此时虚拟机之间的流量交换通过传统的网络安全设备很难控制。确定虚拟机之间的流量交换关系,判断这些流量是否存在攻击行为。
后期根据业务实际需求,可通过在每一个物理主机(虚拟化)上部署一套虚拟化防火墙系统。虚拟化防火墙以虚拟机形式安装在(虚拟化)服务器上,将传统的边界安全设备以软件方式运行在虚拟化环境中,解决传统物理设备无法部署的问题。正常情况下虚拟机间访问流量直接经过vSwitch互访,当需要对其进行安全防护时,管理员配置通过SDN控制器创建服务链策略,当虚拟机间第一次发生交互流量时,vSwitch会向控制器申请的引流策略(包含服务链策略的流表), 策略下发后,vSwitch根据流表内容对流量进行匹配,将需要防护的流量引流到虚拟防火墙中,由虚拟防火墙对虚拟机间流量进行防护处理,最后经虚拟防火墙处理过的流量再回到vSwtich中进行正常转发。
各应用系统通过Hypervisor的虚拟交换系统,将访问流量转向到虚拟化防火墙系统,由虚拟化防火墙进行相关安全过滤后,再和其他安全边界进行业务通讯,各应用系统间的访问也可通过虚拟化防火墙系统进行集中管控。虚拟防火墙可以提供各类安全引擎,包含防火墙、入侵防御、WEB防护、应用识别、用户认证、VPN等功能。
5.2.6 数据安全
数据安全,就是要保障数据的保密性、完整性、可用性、真实性、授权、认证和不可抵赖性。主要实现以下目标。
数据存放位置:必须保证所有的数据包括所有副本和备份、存储在安全的地理位置。
数据删除或持久性:数据必须彻底有效地去除才被视为销毁。 不同客户数据的混合:数据尤其是保密/敏感数据不能在使用、存储或传输过程中,在没有任何补充控制的情况下与其他客户数据混合。数据的混合将在数据安全和地缘位置等方面增加了安全的挑战。
数据备份和恢复重建计划:必须保证数据可用,备份和恢复计划必须到位和有效,以防止数据丢失、意外的数据覆盖和破坏。
在数据的创建、存储、使用、共享、归档、销毁等阶段,都要采取相应的保护措施,访问控制、安全审计等技术手段,来保障数据安全。
针对数据安全防护,除了加强管理外,也可以针对采取安全措施对数据进行保护以及事后追查、审计。
5.2.7 应用安全
应用安全主要指运行在云计算主机系统上各种不同功能的应用系统的安全性。由于云计算是一种全新的Web服务模式,推动了
Internet的Web化趋势,应用安全主要体现在Web安全上。Web安全包括两个方面:一是Web应用本身的安全,即利用Web应用漏洞(如SQL注入、跨站脚本漏洞、目录遍历漏洞、敏感信息泄露等漏洞)获取用户信息、损害应用程序,以及得到Web服务的控制权限等;二是内容安全,即利用漏洞篡改网页内容,植入恶意代码,传播不正当内容等一系列问题。针对Web应用漏洞,应注重Web应用系统的全生命周期的安全管理,针对系统生命周期不同阶段的特点,采用不同的方法提高应用系统的安全性。Web应用形式多种多样,其防护也是一个复杂问题,可采取网页过滤、反间谍软件、邮件过滤、网页防篡改、Web应用防火墙等防护措施,同时加强安全配置,定期检查中间件版本及补丁安全情况,账户及口令策略设置,定期检查系统日志和异常安全事件。
1.1.5.2.7.1 应用漏洞扫描
为保证系统安全,除了被动防御外,还应做到主动预防。漏洞扫描系统可以对网络设备、主机及操作系统、网络协议、应用软件(数据库、中间件、Web服务器)等进行漏洞检测,分析和指出系统平台的安全漏洞及被测系统的薄弱环节,给出详细的检测报告,并针对检测到的安全隐患给出相应的修补措施和安全建议,增强网络的安全性。
后期根据业务实际需要,采用旁路监听方式,在核心交换机上部署漏洞扫描系统,该设备可以通过内部网络定期的对云资源区域内的网络信息系统进行全面或部分扫描和漏洞分析。
1.1.5.2.7.2 WEB应用防护
数据中心的web应用系统在向外提供业务的时候,有可能遭受来自外网的安全威胁,如SQL注入,跨站点攻击等,为了保障业务的正常运行,需要对web应用系统进行安全防护。
后期根据业务实际需要,在安全管理区部署应用防火墙,以WAF资源池的形式为web应用提供安全防护。所有访问web系统的流量都通过在核心交换机上配置的策略路由引到WAF上进行实时检测。抵御web应用攻击,防网站挂马,防缓冲区攻击,防ddos攻击,防sql注入等。
WAF对网络层、Web服务层、Web应用程序层、应用内容属性四个层面进行全方位安全分析与防御。针对各个层面不同的安全属性,分别采取相互独立的安全防御技术针对性防御。从整体上提升Web应用的安全防御能力。
另外,还可通过如下技术手段保证Web服务的安全:
(1)自动将客户请求转换成HTTPS:Web服务平台能够自动把客户的请求转向到HTTPS连接。当用户使用HTTP访问Web服务平台时,Web服务平台能自动将用户的访问方式转向为HTTPS,以增强Web服务平台访问安全性。
(2)防止跨站脚本攻击:跨站点脚本攻击是指攻击者利用不安全的网站作为平台,对访问本网站的用户进行攻击。
(3)防止SQL注入式攻击:SQL注入式攻击是指,攻击者把SQL
命令插入到Web表单的输入域或页面请求的查询字符串,欺骗服务器执行恶意的SQL命令。
(4)防止跨站请求伪造:跨站请求伪造是指用户登录A网站且在Session未超时情况下,同时登录B网站(含攻击程序),攻击者可在这种情况下获取A网站的Ssession ID,登录A网站窃取用户的关键信息。
(5)隐藏敏感信息:隐藏敏感信息防止攻击者获取此类信息攻击系统。
(6)限制上传和下载文件:限制用户随意上传和下载文件,防止高安全文件泄漏,以及非安全文件被上传。
(7) 防止URL越权:每类用户都会有特定的权限,越权指用户对系统执行超越自己权限的操作。
(8)登录页面支持图片验证码:在Web系统的登录页面,系统随机生成验证码;只有当用户名、密码和随机验证码全部验证通过时,用户才能登录。
(9)帐号密码安全:Web帐号和密码满足系统账号密码安全原则。
(10)网页防篡改:按照网页篡改事件发生的时序,提供事中防护以及事后补偿的在线防护。事中,实时过滤HTTP请求中混杂的网页篡改攻击流量(如SQL注入、XSS等);事后,自动监控网站所有需保护页面的完整性,检测到网页被篡改,第一时间对管理员进行短信告警,对外仍显示篡改前的正常页面,保证用户可正常访问网站。
5.2.8 安全设备选型
结合上述安全防护建设方案内容,建设本期项目安全体系需购置的安全设备主要包括:
1、防火墙
边界网络访问控制,防止未授权的恶意访问,提供网关防病毒,支持网页(HTTP)、邮件、文件传输等病毒过滤,提供入侵防御,消除防蠕虫攻击、木马后门、间谍软件、灰色软件、网络钓鱼等入侵攻击事件。根据部署方案要求,采用双链路的模式,在边界部署2台防火墙。单台设备配置如下:
不少于9千兆电口2万兆多模光口,提供不少于3个扩展槽位;防火墙吞吐量:不少于40Gbps;最大并发会话数:不少于360万;每秒新增会话数:不少于15万 ;开启防病毒功能,8Gbps以上;开启IPS功能,12Gbps以上;2U机架式,支持冗余电源。
2、入侵防御系统
对数据流量检测及阻断,挖掘异常流量,消除潜在威胁,提供可视化监控页面。根据部署方案要求,采用双链路的模式,在边界部署2台入侵防御设备。单台设备配置如下:
配置8GE电+8GE光+2*10GE光(含2个光模块),2交流电源,2块300GB硬盘,含知识库升级服务36个月。
3、网络审计系统
提供WEB访问控制、外发信息及邮件审计控制、FTP/HTTP 传输等
网络行为进行审计,主要采用旁路模式部署1台在核心业务区。配置要求如下:
不低于2个万兆光口,6个千兆电口;冗余电源模块;最大检测能力≥4Gbps;提供不低于4路检测能力。
4、堡垒机
对授权人员的运维操作进行记录、分析、展现,以帮助内控工作事前规划预防、事中实时监控、违规行为响应、事后合规报告、事故追踪回放,加强内部业务操作行为监管、避免核心资产(服务器、网络设备、安全设备等)损失、保障业务系统的正常运营。采用旁路部署模式,在管理区域部署1台。设备配置要求如下:
管理口不低于2个千兆以太电口,业务口不低于2个千兆以太电口,2个千兆以太光口;支持并发用户数(个):字符会话≥1000,图形会话≥300;可管理设备数无限制,管理员数量无限制;支持快速授权,直接一个文件导入用户、密码、用户组、用户姓名、资产IP、账号、主机标签、主机部门、账户名称、密码、协议等对应的授权关系。
5.3 安全管理体系
安全管理体系作为安全体系结构中相当重要的一个组成部分,是通过行政管理的方式,保障安全技术措施贯彻执行。通过安全管理措施,对网络安全体系进行有效的制约和调控,才能更好的保障网络系
统的安全保密。
安全管理体系的内容有:
设置系统安全管理部门,落实责任人; 可以考虑机构合作,将系统安全外包出去; 加强设备管理,确保设备运行安全;
制订安保措施,确保设备的物理安全和环境安全; 制订严格的运行管理制度,并严格执行; 制订严格的访问控制措施,并严格执行;
落实部门、落实实施人员、落实安全责任人,定期进行安全检查;
系统安全定期评估,持续改进。
5.3.1 安全管理机构
建立信息安全管理组织体系,视情况成立信息安全管理小组等信息安全管理机构,明确信息安全管理机构的组织形式和运作方式。设置安全管理主管、专职安全管理员、安全审计员、系统管理员、网络管理员和数据库管理员等岗位,明确岗位职责。
信息安全管理机构和部门负责指导安全体系规划建设,制定信息安全的相关标准和方针,管理信息安全事件,建立授权和审批制度,保持内外相关部门的沟通和合作,定期开展全面信息安全检查。
《信息系统安全等级保护基本要求》在岗位设置、人员配备、授
权和审批、沟通和合作、审核和检查等方面对安全管理机构提出了具体的要求。应该建立专门的安全职能部门,配备专门的安全管理人员,管理外部信息应用系统的信息安全管理工作,同时对安全管理人员的活动进行指导。
1.1.5.3.1.1 岗位设置
安全管理机构应设立信息安全管理工作的职能部门,设立安全主管、安全管理各个方面的负责人岗位,并定义各负责人的职责,设立系统管理员、网络管理员、安全管理员等岗位,并定义各个工作岗位的职责;
成立指导和管理信息安全工作的委员会或领导小组,其最高领导由单位主管领导委任或授权,制定文件明确安全管理机构各个部门和岗位的职责、分工和技能要求。
1.1.5.3.1.2 人员配备
安全管理机构应配备一定数量的系统管理员、网络管理员、安全管理员等,同时配备专职安全管理员,不可兼任,关键事务岗位应配备多人共同管理。
1.1.5.3.1.3 授权和审批
安全管理机构应根据各个部门和岗位的职责明确授权审批事项、审批部门和批准人等,针对系统变更、重要操作、物理访问和系统接
入等事项建立审批程序,按照审批程序执行审批过程,对重要活动建立逐级审批制度,定期审查审批事项,及时更新需授权和审批的项目、审批部门和审批人等信息,记录审批过程并保存审批文档。
1.1.5.3.1.4 沟通和合作
信息安全是一种由安全管理团队所有成员共同承担的业务责任,应该建立一个安全的团队交流机制,确保团队成员可以及时沟通并对安全措施有一个明确的方向并得到管理层的实际支持。交流机制应通过合理的责任分配和有效的资源管理促进组织内部安全。
安全管理机构应加强各类管理人员之间、组织内部机构之间以及信息安全职能部门内部的合作与沟通,定期或不定期召开协调会议,共同协作处理信息安全问题。应严格限制对安全信息的交换,以确保组织的保密信息没有传播给未经授权的人。
安全管理机构应建立外联单位联系列表,包括外联单位名称、合作内容、联系人和联系方式等信息,聘请信息安全专家作为常年的安全顾问,指导信息安全建设,参与安全规划和安全评审等。
1.1.5.3.1.5 审核和检查
安全管理员应负责定期进行安全检查,检查内容包括系统日常运行、系统漏洞和数据备份等情况。由内部人员或上级单位定期进行全面安全检查,检查内容包括现有安全技术措施的有效性、安全配置与安全策略的一致性、安全管理制度的执行情况等。
应制定安全检查表格实施安全检查,汇总安全检查数据,形成安全检查报告,并对安全检查结果进行通报,制定安全审核和安全检查制度规范安全审核和安全检查工作,定期按照程序进行安全审核和安全检查活动。
1.检查和核准信息安全策略以及总体责任; 2.当信息资产暴露受到严重威胁时,监视重大变化; 3.审查和监控安全事故; 4.审核加强信息安全的重要活动。
5.3.2 安全管理制度
《信息系统安全等级保护基本要求》从管理制度、制定和发布、评审和修订等三个方面对安全管理制度提出了要求。应根据外部应用系统的实际情况,在信息安全领导小组的负责下,组织相关人员制定和发布信息安全工作的总体方针、政策,说明信息安全工作的总体目标、范围、方针、原则和责任。并定期进行评审和修订。
管理层要形成信息系统机构纲领性的安全策略文件,包括确定安全方针,制定安全策略,以便结合等级保护基本要求和关键信息系统安全保护要求,构建机构信息系统的安全技术体系结构和安全管理体系结构。
图 错误!文档中没有指定样式的文字。-14 信息安全管理体系制度
架构图
根据信息安全管理工作的特点,制定信息安全工作的总体方针和安全策略,明确安全管理工作的总体目标、范围、原则和安全框架等。根据安全管理活动中的各类管理内容建立安全管理制度;并由管理人员或操作人员执行的日常管理操作建立操作规程,形成由安全策略、管理制度、操作规程等构成的全面的信息安全管理制度体系,从而指导并有效地规范各级部门的信息安全管理工作。通过制定严格的制度规定与发布流程、方式、范围等,定期对安全管理制度进行评审和修订。
1.1.5.3.2.1 管理制度
应制定信息安全工作的总体方针和安全策略,说明机构安全工作的总体目标、范围、原则和安全框架等,应对安全管理活动中的各类管理内容建立安全管理制度,应对要求管理人员或操作人员执行的日常管理操作建立操作规程,应形成由安全策略、管理制度、操作规程等构成的全面的信息安全管理制度体系。
1.1.5.3.2.2 制定和发布
应指定或授权专门的部门或人员负责安全管理制度的制定,安全管理制度应具有统一的格式,并进行版本控制。
应组织相关人员对制定的安全管理制度进行论证和审定,安全管理制度应通过正式、有效的方式发布,安全管理制度应注明发布范围,并对收发文进行登记。
1.1.5.3.2.3 评审和修订
信息安全领导小组应负责定期组织相关部门和相关人员对安全管理制度体系的合理性和适用性进行审定,应定期或不定期对安全管理制度进行检查和审定,对存在不足或需要改进的安全管理制度进行修订。
1、确定安全方针
形成机构最高层次的安全方针文件,阐明安全工作的使命和意愿,
定义信息安全的总体目标,规定信息安全责任机构和职责,建立安全工作运行模式等。
2、制定安全策略
形成机构高层次的安全策略文件,说明安全工作的主要策略,包括安全组织机构划分策略、业务系统分级策略、数据信息分级策略、子系统互连策略、信息流控制策略、备份与恢复策略、应急计划和响应策略、运行管理策略、身份鉴别策略、信息完整性策略、系统性能安全检测策略、安全审计策略等。
管理层应把制定的相关信息安全策略整个组织中发布和维护,表明自己对信息安全的支持和保护责任。
策略文档应该由管理层批准,根据情况向所有员工公布传达。文档应说明管理人员承担的义务和责任,并制定组织的管理信息安全的步骤。至少应包括以下指导原则:
(1)信息安全的定义、其总体目标及范围以及安全作为保障信息共享的机制所具有的重要性;
(2)陈述信息安全的管理意图、支持目标以及指导原则; (3)简要说明安全策略、原则、标准以及需要遵守的各项规定。 1)符合法律和合约的要求; 2)安全教育的要求; 3)防止并检测威胁; 4)业务连续性管理; 5)违反安全策略的后果。
(4)确定信息安全管理的一般责任和具体责任,包括报告安全事故。
3、策略审查评估
每个策略应该有一个负责人,他根据明确规定的审查程序对策略进行维护和审查。审查过程应该确保在发生影响最初风险评估的基础的变化(如发生重大安全事故、出现新的漏洞以及组织或技术基础结构发生变更)时,对策略进行相应的审查。还应该进行以下预定的、阶段性的审查:
(1)检查策略的有效性,通过所记录的安全事故的性质、数量以及影响反映出来;
(2)控制措施的成本及其业务效率的影响; (3)技术变化带来的影响。
5.3.3 人员安全管理
在信息安全管理制度体系框架之上,进一步细化有关人员录用、离岗、考核、培训和外部人员管理的相关规章,以及日常管理工作配套的机制和措施手段。重点制定完善相关的人员信息安全宣传手册、第三方外包服务机构和人员安全管理规范、外部人员访问数据中心机房等受控区域的流程和规定,建立重要岗位、外部人员和第三方服务单位的信息安全和保密协议签订机制。
加强信息安全意识,提高信息安全管理水平,分阶段、分层次对
各岗位人员进行安全技能与安全知识的培训和考核。培训内容纳入的金保工程培训计划。
人员安全管理要求在人员的录用、离岗、考核、培训以及第三方人员管理上,都要考虑安全因素。
人员入职管理:从信息安全角度对在人员录用过程中各流程提出安全需求。
人员在职管理:从员工信息安全守则、系统用户信息安全考核、教育培训三个方面提高在职人员的信息安全意识。
人员离职管理:分析员工在离职过程中存在的信息安全风险。 第三方人员安全管理:对第三方人员进行定义,阐述第三方人员管理中存在的信息安全风险,并需要采取的管理方法。
5.4 安全运行服务保障体系
运行服务保障体系对于提高、完善系统的安全性有着相当重要的意义。作为系统安全的后继支撑系统,运行服务保障体系将紧随技术发展方向,不断完善各种安全措施,以动态的方式为业务网络提供持续的安全保障。
运行安全服务内容包括下面五个方面内容: 安全评估服务; 安全加固服务; 应急响应服务;
安全培训服务; 咨询服务。
由于网络技术不断发展,非专业人员很难全面、准确的掌握所有知识。有鉴于此,采用两种方法实现运行服务保障体系。
在系统实施初期和质量保证期内,上述五个方面的服务由软件开发商提供
系统正式运行,过了软件开发商的质保期之后,通过专业的安全服务公司的协助,为系统提供一套行之有效的整体运行安全服务保障体系。
6 异地灾备管理体系设计
6.1 灾备管理平台设计
6.1.1 灾备管理平台技术框架
本期灾备管理平台以Openstack云架构为核心,在云资源服务能力的基础上,通过集成定制化流程的方式,不仅实现对异地灾备中心的基础设施资源管理,同时实现对数据备份系统的统一管控、配置及运维管理。灾备管理平台的总体建设架构如下图所示:
图 错误!文档中没有指定样式的文字。-15 灾备管理平台总体建设
架构
数据备份管理平台通过定制开发软件实现,通过将备份域管理服务器、备份介质管理服务器、备份客户端的备份信息集中采集并汇总展现,实现对集中备份系统的数据资源可视化管理,。
灾备管理平台的主要设计需求包括如下几方面: 集中管控
通过数据备份管理平台可集中管控备份域中相关备份服务端、存储介质端、客户端。可进行相应的配置及权限划分。
统一报表
可根据需要,按租户,用户,存储容量,作业策略等不同方式进行报表统计及自定义报表内容。方便进行全局统计、监控、审查。
统一监控
可统一监控备份设备、作业情况、资源使用情况,并根据预设报警策略进行短信或邮件告警。
配置管理
可进行配置维护,提出维护申请后,需得到领导审批,方能进行维护,并记录维护结果。
安全管理
根据需求开发相应的用户权限管理及安全传输、加密等功能,从多个纬度保证备份系统的安全性。
运维管理
可对备份系统进行统一维护包括软件升级,策略调整等操作。 基于业务部门管理员的角度,整合传统备份管理组件的配置功能,极大简化系统管理流程,降低运维工作量,包括:数据源、备份策略、资源管理等;
实时监控数据保护环境的运行信息端到端可视化,动态化图形界面展示,提升系统管理真实感:备份准实时信息、存储资源使用率、网络带宽占用率、重要节点信息等;便于准确全面的把控备份系统的实时性能、第一时间发现潜在风险点。
6.1.2 灾备管理平台功能
1.1.6.1.2.1 监控管理
系统运维人员登录数据备份管理平台实时监控备份系统运行情况,包括设备状态、客户端状态、备份/恢复作业状态等。
作业监控
作业监控包括了对所有作业,以及执行的历史作业进行监控。 用户登录平台后,可查看当前用户具有操作权限的所有客户端的所有资源的备份恢复作业,全面了解作业的执行计划,作业展现信息包括:作业名称、状态(运行、已完成、空闲、错误)、主机、资源,以及作业的备份时间。用户可通过这些信息,及时了解每个作业的执行情况。
作业显示信息提供了筛选功能,用户可以根据作业、状态、主机、资源等筛选需要显示的作业信息。同时,点击作业名称,可查看该作业的详细信息。
对于历史作业的监控,提供了对当前所有客户端所有资源的历史作业进行信息展现,展现内容包括:作业名称、状态(运行、已完成、空闲、错误)、主机、资源、开始时间、耗时、原始数据量、备份存储数据量、空间节约率等信息。
用户可以根据作业、状态、主机等信息来筛选需要展现的内容。同时可以对作业的详情进行查阅。
短信接口
备份管理平台与用户提供的第三方SMS网关建立接口。平台管理员根据警报的内容将警报转发给系统维护工程师进行故障处理。发送的警报信息在通过第三方SMS网关进行认证和信息有效性核对后,系统维护工程师的移动终端可以收到相应的警报信息。
客户端主机资源监控
针对客户端主机的监控,查看每个客户端主机的在线情况、IP地址等信息。并可表示出在线、离线,以及过期的客户端数量。
通过数据备份管理平台,可及时了解到出现异常情况的客户端主机。
存储服务器监控
提供对备份存储介质服务器的监控管理,实时统计和显示存储的容量情况,包括:总容量、已用容量、可用容量等。当存储设备空间使用率达到80%以上时,进度条颜色变为橙色,使用率达到90%以上时,进度条颜色变为红色,同时系统向用户发送警报邮件。
存储池监控
存储池是基于存储介质服务器上,根据备份业务需要建立的不同容量存储空间。平台提供了对存储池的监控,当存储容量不足时会及时发出告警信息。
警报信息
在数据备份管理平台的警报信息中,将会收集到系统运行、作业执行等事务处理后反馈的警报信息,警报的消息类型包括系统警报、
存储警报、作业运行警报等。每条警报信息都将设置警报级别,包括:致命错误、重要错误、警告错误等。
用户可根据警报级别、主机等信息进行搜索。
警报信息支持通过界面展现、邮件、短信等方式推送给相关用户。
1.1.6.1.2.2 配置管理
资源配置管理
数据备份管理平台提供了对资源信息的统一管理,将灾备系统的备份源、备份设备、备份数据库等信息配置到数据备份管理平台中,平台管理员可对相关资源信息进行管理,包括资源的新增、修改、删除、查看等。
资源配置包括对备份源、备份设备等信息的配置。 备份源配置
备份源即为需要备份的客户端主机以及主机中的相关内容,在数据备份管理平台中,可以把灾备系统中的备份源信息配置到平台中,具有权限的系统用户可以查看当前用户可操作的客户端主机及主机下的资源,主机下的资源包括文件、数据库、操作系统等可备份资源。
数据备份管理平台提供了对客户端主机资源的相关信息进行查看,支持对客户端主机的注册名称进行修改。
备份设备配置
备份服务器:提供对备份服务器的信息管理。
存储池:存储池是基于存储介质服务器上配置的不同容量存储空
间,提供给客户端主机备份后备份集的存储。
存储池的类型包括:磁盘存储池、磁带库存储池等。 备份作业管理
数据备份管理平台中,系统用户可对当前用户可操作的客户端主机进行备份作业的配置操作,包括新增、修改、删除、执行等。
新增作业:创建不同类型的备份作业,包括文件、数据库、操作系统、应用、虚拟机等类型的备份作业。新增备份作业需要配置主机信息、备份内容、备份目标、备份策略等相关信息。
作业修改:支持对备份作业的相关信息进行修改。 删除作业:支持对备份作业的删除操作。 恢复作业管理
数据备份管理平台中,系统用户可对当前用户可操作的客户端主机进行恢复作业的配置。
新增恢复作业需要配置的信息包括:主机信息、备份集、恢复目标、恢复计划,以及相关的恢复配置内容。
1.1.6.1.2.3 数据安全管理
数据传输加密
为了保证系统数据传输的完整性、机密性、不可抵赖性,保证信息传输的过程中不被恶意篡改或窃听,以保证通过黑客工具对这些业务数据进行分析破解甚至篡改,而使系统所到攻击产生严重的后果,系统采用https方式进行数据通信,支持客户端证书和服务端证书双
向认证,实现对传输数据的加密,从而保证数据信息的安全性、机密性。
数据存储加密
对于本地需要存储的数据信息,支持加密后再进行数据存储,提高数据的安全性,即使数据被盗取,也无法识别数据的原型。
1.1.6.1.2.4 报表统计管理
数据备份管理平台提供报表统计功能,支持对存储容量、作业情况、备份统计、恢复统计等信息的统计。为了满足用户在报表统计上的不同需求,在报表的建立上,用户可以进行自定义。
提供多租户管理功能,提供多维度多产品多服务的报表展现和统计计费功能,并提供租户自定义报表功能。
资源全视图
租户或用户登录平台后,根据当前用户的权限,即可查看整个灾备管理中所有资源的监控全视图,全视图向用户展示系统运行的基本信息,有助于租户或用户实时掌握系统的基本运行状况。展示模块主要包括主机、资源、存储池、作业数量以及状态,同时也展示了存储设备空间的使用情况以及系统版本号等。
报表展现
根据用户的自定义数据统计,可以展现出用户需要了解的相关统计数据,包括:
根据存储设备、客户端运行状态、作业完成情况等信息,生成统
计报表和图表展示;
将一段时间内备份恢复操作、备份设备及介质使用等信息进行统计,并生成统计报表和图表展示;
支持对存储容量、备份速率等宏观数据进行统计信息,并提供数据查询。
数据分析
提供对备份历史数据进行备份周期、数据类型等多维度的统计分析、趋势分析,根据这些数据的统计分析,用户能清楚的了解到相关资源的扩容需求。
1.1.6.1.2.5 多租户管理
在同一个独立的灾备系统管理域,针对各单位的业务系统和备份系统提供多租户管理功能。从而保证各单位共同使用云平台的数据备份管理平台基础上,且通过多租户技术实现各用户使用不同的资源和监控管理界面。
多租户隔离
通过不同的数据管理手段,多租户的数据可以用不同的方式进行数据隔离,通过良好的数据隔离法可以降低管理平台的维护成本(包含设备与人力)。
统计和计费
通过多租户管理和灾备资源的使用情况,提供针对各用户在云平台使用的灾备资源进行统计和计费功能,统计维度和计费的依据包括
不限于:备份存储使用量、备份客户端数量、备份数据存放时间、备份占用带宽等;
1.1.6.1.2.6 运维管理
审计管理
平台建立了日志审计制度,对所有用户的操作行为进行审计,包括备份策略配置、更新备份策略、恢复作业配置,以及执行这些操作的用户信息、时间信息等,日志信息进行审计后,日志只能提供查看,不能进行修改、删除等操作,避免日志信息被篡改。
日志审计管理,起到了防止违规操作或鉴别危险操作的作用。同时,出现问题时,可以根据日志内容追朔到问题源头。
客户端主机升级
通过数据备份管理平台,可以对已连接且在线的客户端进行集中升级,无需对每个客户端主机进行单独升级。
具有升级操作权限的用户在进行客户端主机升级的时候,可查看当前已连接客户端的主机名、状态、IP地址、操作系统信息及当前版本。
用户选择需要升级的升级包,平台将自动上传到客户端主机,客户端主机接收到升级包后,默认在完成升级包上传后的规定时间内执行自动升级。
对于上传的升级包,平台提供了查看功能,可查看已上传升级包的相关信息,包括升级包名称、修改时间及大小。
1.1.6.1.2.7 接口设计
数据备份管理平台需要和第三方软件进行数据交互,可提供定制开发与第三方管理平台软件对接,在接口的设计上,包括:
数据备份管理平台向第三方软件提供数据访问接口。 数据备份管理平台调用第三方软件提供的数据接口。 API接口
数据备份管理平台建立标准的APIKey数据接口,第三方厂商可进行数据调用。数据备份管理平台的主要接口服务包括:
作业信息接口:可以获取到作业信息,包括作业和作业历史记录,并可对作业信息进行增加、修改和删除等管理操作。
用户信息接口:可获取到记录在平台中的用户信息,并可对用户信息进行增加、修改和删除等管理操作。
资源信息接口:可获取到客户端主机、备份服务器、存储介质服务器、存储池等资源信息,并可对这些资源信息进行增加、删除、修改等管理操作。
警报信息接口:可获取到灾备系统中的警报信息。
日志信息接口:可获取到平台执行的所有日志信息,并提供对日志的下载管理。
调用第三方接口
数据备份管理平台可根据业务需要,调用第三方软件提供的标准数据服务接口,实现业务处理数据的交互。
1.1.6.1.2.8 系统管理
用户管理
用户管理模块主要提供了对平台中用户信息的管理以及维护,平台支持创建多用户,在创建新用户时,根据要求输入用户名、密码、密码使用期限、邮箱信息、联系电话。对于用户管理,还包括对用户信息的修改、删除。
角色和权限管理
在用户给管理上,可设定不同用户角色并分配相应权限,确保不同角色的用户仅具有相应的模块访问及操作权限。用户可分为系统用户、审计用户两大类型,分别包括以下用户角色:
系统用户:包括系统管理员、管理员、租户/用户、监控员。 审计用户:包括审计管理员、审计员。 如下角色对应表示例:
表 错误!文档中没有指定样式的文字。-21 角色对应表格示例 角色 系统管理系统管理 员 管理员 系统管理 由系统管理员添加,对系统进行管理。 由系统自动生成,对系统进行管理。 访问操作权限 说明 租户/用客户端管理、虚拟机由系统管理员添加,对客户端、虚拟机户 监控员 管理 监控管理 进行管理。 由系统管理员添加,对系统及作业状
态进行监控。 审计管理系统管理-系统日志、由系统自动生成,对系统进行审计管员 审计员 用户管理 系统管理-系统日志 管理。 用户方规划的备份系统运营人员、备份系统领导或规划人员、备份系统管理员等人员,将根据各自不同的操作和系统要求,分配到对应的角色中,不同的角色具有不同的系统操作权限,用户登录平台后,平台将根据用户所属角色具有的权限,在界面上呈现出相应的功能和信息。
理。 由审计管理员添加,对系统进行审计1.1.6.1.2.9 日志管理
日志信息包括两部分:作业执行日志、用户操作日志。 作业执行日志
对于备份业务的执行,将会生成日志信息,具有权限的系统用户将可以下载日志信息,包括:代理端日志、备份服务器日志、存储服务器日志等。
用户操作日志
系统对登录用户每个步骤操作都有详细记录,包括查看,添加,删除,修改数据记录都做了详尽记录,每次查询设备信息,下载备份文件都有日志记录。日志不单记录了操作行为,而且记录了操作者操
作的时间等信息。
1.1.6.1.2.10 平台定制化业务需求和功能
1、审批和流程管理 配置审批管理
数据备份管理平台提供了对资源信息的统一管理,将灾备系统的备份源、备份设备、备份数据库等信息配置到灾备管理平台中,平台管理员可对相关资源信息进行管理,包括资源的新增、修改、删除、查看等,并提供流程审批功能。
备份源配置
系统用户对客户端主机的改名等更新操作,首先需要提供给平台管理员进行审核,只有审核通过后才可以生效。
备份设备配置
备份设备包括备份服务器和存储介质服务器,在灾备管理平台中支持对设备的相关信息进行更新操作,更新内容将由系统管理员审核通过后启用。
备份服务器
提供对备份服务器的信息管理。
备份服务器信息包括SMTP、服务器时间、网卡信息,用户可根据权限情况对相关信息进行更新,更新信息将提交给系统管理员审批。
存储池
对于配置好的存储池,用户可以对存储池的名称、容量配额、备
份集保存时间等信息提供修改操作,修改的信息将提交给系统管理员审核。
作业配置管理
灾备管理平台提供对备份作业、恢复作业的配置操作,包括作业的新增、修改、删除,作业配置操作将需要通过平台管理员进行审批,只有审批通过的信息才会生效使用。
作业审批
灾备管理平台中,用户进行作业配置操作后,所有的作业将需要提交给系统管理员进行审核,只有审核通过的操作才能生效,并执行。
配置审批管理
灾备管理平台中建立了信息审批管理,平台的系统管理员可以对平台用户配置的数据进行审批,只要审批通过的信息才能生效,并开始执行。
在审批的管理页面中,管理员可查看待审批、已审批等信息,信息包括:审批内容、提交人、申请时间等信息,已审批的信息记录中还增加审批通过时间。
2、自定义报表开发
灾备管理平台提供报表统计功能,支持对存储容量、作业情况、备份统计、恢复统计等信息的统计。为了满足用户在报表统计上的不同需求,在报表的建立上,用户可以进行自定义。提供多租户管理功能,提供多维度多产品多服务的报表展现和统计计费功能,并提供租户自定义报表功能。
自定义报表
数据备份管理平台提供了报表自定义功能,利用平台中记录的相关信息,由租户来自行选择需要统计的数据项,平台将根据用户选择的内容自动生成统计报表。报表可分为租户部门表或业务系统表。
在报表的管理上,平台提供了创建报表、添加报表、修改报表、删除报表等多项管理功能。对于生成的报表数据,平台提供了报表的下载,用户点击下载后,报表可自动下载到本地。
报表展现
根据用户的自定义数据统计,可以展现出用户需要了解的相关统计数据,包括:
根据存储设备、客户端运行状态、作业完成情况等信息,生成统计报表和图表展示;
将一段时间内备份恢复操作、备份设备及介质使用等信息进行统计,并生成统计报表和图表展示;
支持对存储容量、备份速率等宏观数据进行统计信息,并提供数据查询。
数据分析
提供对备份历史数据进行备份周期、数据类型等多维度的统计分析、趋势分析,根据这些数据的统计分析,用户能清楚的了解到相关资源的扩容需求。
6.2 备份恢复演练设计
6.2.1 恢复演练需求和目标
备份系统的建设是需要同时满足RTO和RPO指标的,恢复时间对我们及用户来说是至关重要的,如果没有一套行之有效的DRP,在灾难发生时,即使“硬件”是运行正常的,没有经常的测试来验证,又如何能保证是正常的。谁来组织进行灾难恢复?人员如何分工?根据什么来进行恢复?因此,必须为灾难备份系统建立一套灾难恢复计划,包括建立灾难备份系统的管理机制和组织架构、灾难响应流程、灾难切换流程、灾难应急流程等。
本项目灾难恢复计划必须定期的进行演练,演练不但是为了熟悉备份恢复切换、恢复流程,使运维管理人员熟悉自己在容灾中所扮演的角色,做到胸有成竹,才能够在灾难真正发生的时刻有条不紊地开展恢复的过程,而且可以提高运维人员的安全意识,在平时维护、软件升级时注意灾难备份系统的维护。通过演练,还可以发现备份恢复切换、恢复流程的不足,验证和优化灾难恢复计划,确保在灾难发生时,灾难恢复计划能够行之有效的。
通过备份恢复演练可以实现以下目的:
检验灾难恢复计划可以满足客户灾难恢复的要求; 验证灾难恢复系统的高可用性、高可靠性和高响应度; 确认灾难恢复水平满足客户灾难恢复目标的要求;
确认灾难备份系统的处理能力符合客户的要求; 提高恢复团队的恢复技能。
建议根据业务系统的重要性和安全级别,建议至少每半年要进行一次恢复演练。
6.2.2 备份恢复演练方法论
1.1.6.2.2.1 业务影响和关联性分析
1、确定和实施信息收集
信息收集采用和风险分析类似的方式,可通过问卷、人员访谈、会议研讨等方式进行。信息收集过程中提出并获得如何量化和评估潜在财务和非财务影响的一致意见,提出并获得非量化影响信息需求的一致意见并尽可能多地达成一致,制定问卷(如果需要)并完成答卷说明。
2、确定关键业务功能
确定关键业务功能,分析的要素包括(但不限于): (1)各业务系统的基本情况、职能和流程相关信息; (2)运行要求,包括业务功能的政策性和社会要求、业务系统的时间敏感性要求、与其他机构业务功能之间的依赖程度;
(3)服务提供程度,包括功能可替代方法和效率、数据集中程度、管理的账户数量、涉及的用户范围、业务总量。
3、确定业务关联性
对于业务系统之间的关联、依赖性,按照关联影响的程度进行等级划分。下为某业务关联性表格示例。
表 错误!文档中没有指定样式的文字。-22 业务关联性表格示意 业务功能 业务种类 如前一业务对该业如该业务对后一业请填写灾难发务有影响,指出该务有影响,指出影生对机构影响前业务及其影响程响的后业务及其影较大的相关业度。 务种类,并简 要描述该业务。 业务功能业务种类 1 1…. 业务种类 2…. 业务功能业务种类 2 1…. 业务种类 2…. 4、评估影响
响程度。
分析团队通过业务影响分析,采用定量和定性的方法评估信息系统中断所造成的经济损失和非经济损失。
1.1.6.2.2.2 业务恢复演练顺序分析
根据业务关联性分析调研结果,在进行备份恢复演练时,需严格参照业务关联性分析结果执行,主要几类恢复演练顺序有:
业务系统A的业务关联顺序为:首先恢复虚拟机操作系统或搭建物理操作系统环境,数据库服务优先进行恢复和启动,应用和中间件服务其次进行恢复和启动,web和其它关联服务最后进行恢复和启动的顺序执行;
业务系统B的业务关联顺序为:在业务系统A宕机情况下,首先恢复虚拟机操作系统或搭建物理操作系统环境,需优先启动业务系统A(包括:数据库/应用/web等服务),其次依次启动数据库/应用/web和相关服务;
业务系统C的业务关联顺序为:在业务系统C宕机情况下,业务系统A、业务系统B及其他很多业务系统均无法执行正常业务运行,因此,在业务系统A和业务系统B的恢复之前,必须完成业务系统C的所有业务服务恢复工作。
1.1.6.2.2.3 制定恢复演练需求与目标
根据风险分析和业务影响分析的结果,以及制定的业务恢复演练顺序等信息,确定最终恢复演练目标,包括如下几方面:
1、确定灾难恢复范围:
根据风险分析和业务影响分析的结果,确定业务恢复范围,确定信息系统的恢复范围。
2、确定需求等级:
根据风险分析和业务影响分析的结果,将信息系统按时间敏感性分成几个需求等级,一般可分为三类等级。第一类短时间中断对直接经济损失和非经济损失有重大影响;第二类在短时间内,业务功能具有一定可替代方式的系统,用户具有一定的容忍度系统,单位对损失有一定容忍度的系统。第三类业务功能容许一段时间中断的系统,业务功能在一段时间内具有可替代方式的系统。
3、确定最低恢复时间范围
确定各系统的灾难恢复时间目标RTO和恢复点目标RPO。 4、确定灾难恢复顺序
根据业务影响分析中业务恢复的优先级要求,结合各系统间的资源倚赖关系,制定信息系统的恢复顺序和优先级关系。
5、确定灾难恢复的最小资源要求,包括内部和外部资源等。 对组织的各项业务功能及各项业务功能之间的相关性进行分析,确定支持各种业务功能的相应信息系统资源及其它资源,明确相关信息的保密性、完整性和可用性要求。
6、举行复审会议以验证上述灾难恢复需求与目标。 业务影响分析记录及管理。业务影响文件包括分析过程中产生的过程文档和结果文档。
7、编制《业务影响分析报告》,向业主方作总结报告。
1.1.6.2.2.4 备份恢复演练操作步骤
1、普通文件恢复演练操作步骤
(1) 在windows或linux文件服务器,安装备份备份客户端和文本备份插件;
(2) 登入到备份管理服务器,并进入文件备份管理界面创建备份作业,查看备份执行情况;
(3) 创建文件恢复作业,并且恢复到自定义路径; (4) 查看恢复作业执行情况; (5) 查看恢复文件;
(6) 将将恢复后的文件导入到云平台;
(7) 将通过在云平台上安装原始应用软件,并由用户配合提供应用系统配置环境,实现应用系统的恢复。
2、虚拟机恢复演练操作步骤
(1) 使用局域网方式能够实现虚拟机原虚拟机恢复、新建虚拟机恢复、本宿主机恢复;
(2) 通过管理界面,将虚拟机恢复到原虚拟机、新建虚拟机恢复或异机;
(3) 登陆备份系统,进行虚拟机备份的界面,创建恢复作业; (4) 登陆备份系统,查看作业执行情况;
(5) 登陆备份系统,进入作业管理页面,查看恢复作业完成情
况;
(6) 登陆备份系统,启动恢复后的虚拟机,验证恢复后的虚拟机是否启动正常;
(7) 登陆备份系统,进入恢复后的虚拟机与原虚拟机进行对比,查看虚拟机系统配置及软件是否恢复。
3、数据库恢复演练步骤
(1) 提供数据库类型版本(表格);应用及恢复演练前提条件; (2) 在数据库服务器上安装迪备代理端,并配置好代理设置; (3) 进入备份软件管理界面,登入到数据库服务器备份管理界面,创建立即备份和备份策略任务;
(4) 登陆备份系统,查看备份执行情况;
(5) 进入数据库服务器,登入到服务器,删除测试表; (6) 登陆备份系统,创建恢复作业,选择备份集及时间点恢复; (7) 登陆备份系统,查看作业运行情况; (8) 登入到数据库服务器,查看数据是否恢复。
1.1.6.2.2.5 备份恢复演练验证
1、普通文件恢复验证
普通应用文件恢复验收流程如下图所示:
图 错误!文档中没有指定样式的文字。-16 文件恢复验证流程 (1)普通文件恢复服务的内容
备份系统需定期对备份的普通文件数据进行恢复演练服务,普通文件主要区别于数据库、应用程序文件而言,主要针对一些普通的配置文件、用户文档、系统日志、软件目录等。
(2)普通文件恢复服务的目标
需定期对备份的普通文件数据进行恢复演练服务,以检验普通文件备份的可恢复性。
需定期对备份的普通文件数据进行恢复演练服务,检查备份数据的可恢复性。恢复工作完成后需要提供恢复演练报告,记录恢复过程和异常信息。
当恢复出现异常导致恢复演练失败后,应该对异常进行排查处理,
对备份设置做必要的优化和调整,并在后续重新对普通文件进行恢复演练测试。
2、数据库恢复验证
数据库恢复验证流程如下图所示:
图 错误!文档中没有指定样式的文字。-17 数据库恢复验证流程 (1)数据库恢复演练服务的内容
需定期对备份的数据库数据进行恢复演练服务,数据库备份数据包含在线备份的数据文件和归档日志文件,以及用户使用数据库导出工具生成的文件。
(2)数据库恢复演练服务的目标
需定期对备份的数据库数据进行恢复演练服务,检查备份数据的完整性、连续性、可恢复性。
需定期对备份的数据库数据进行恢复演练服务,检查备份数据的完整性、连续性、可恢复性。恢复工作完成后需要提供恢复演练报告,
记录恢复过程和异常信息。
当恢复出现异常导致恢复演练失败后,应该对异常进行排查处理,对备份设置做必要的优化和调整,并在后续重新对数据库进行恢复演练。
3、应用程序恢复验证
应用程序恢复验证流程如下图所示:
图 错误!文档中没有指定样式的文字。-18 应用程序恢复验证流程
(1)应用程序恢复演练服务的内容
需定期对备份的应用程序数据进行恢复演练服务,灾备系统支持的应用程序数据备份如Vmware、Hyper-V、Oracle、SQLServre等。
(2)应用程序恢复演练服务的目标
需定期对备份的应用程序数据进行恢复演练服务,可检查应用程序备份数据的可恢复性。
需定期对备份的应用程序数据进行恢复演练服务,检查备份数据的可恢复性。恢复工作完成后需要提供恢复演练报告,记录恢复过程和异常信息。
当恢复出现异常导致恢复演练失败后,应该对异常进行排查处理,对备份设置做必要的优化和调整,并在后续重新对应用程序进行恢复演练。
6.2.3 恢复演练预案设计
备份恢复演练需制定详细的演练预案和规范流程,防止在灾难和故障发生时,可以依据恢复演练预案进行快速恢复和应急启动工作。恢复演练预案至少包括:应急恢复的组织和人员、恢复演练工作范围、恢复演练操作步骤、恢复演练的验证标准、恢复演练的交付物等内容。
7 异地灾备运维体系设计
7.1 基于ITIL的运维管理流程框架
ITIL即IT基础架构库(Information Technology
Infrastructure Library, ITIL,信息技术基础架构库)由英国政府部门CCTA(Central Computing and Telecommunications Agency)在20世纪80年代末制订,现由英国商务部OGC(Office of Government
Commerce)负责管理,主要适用于IT服务管理(ITSM)。ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准和规范。
ITIL目前已经发展到3.0版本,其将从战略、战术和运作三个层面,针对业务和IT快速变化提出完整的服务管理实施方案,把所有IT服务管理的最佳实践按照生命周期重新组合,分为服务策略、服务设计、服务实施、服务改进5大模块。
以ITIL3.0为参考,提出本项目整体平台运维的总体框架,如下图所示:
图 错误!文档中没有指定样式的文字。-19基于ITIL云运维架构 1、服务战略
任何服务策略都必须承认这样一个基本事实:使用单位申请的不是产品,是对某种需要的满足,因此,为了获得成功,所提供的服务必须让客户意识到,而为了让他们意识到就必须交付给他们非常有价
值的结果并且这种结果是客户所希望获得的。
因此,服务战略处于ITILv3生命周期的核心地位。它可以向平台以及他们的使用单位阐明指导意见,帮助他们在很长的时间里能够切实可行。这些都是建立在一个清楚的服务策略之上,比如:如何通过资金管理来实现价值创造的可见性和控制;如何建立健壮的业务案例来保证在服务资产和服务管理中的战略投资是有用的;如何分配可用的资源才能在服务组合中产生最理想的结果;如何评测服务结果。
2、服务设计
服务设计是整个服务生命周期的一个阶段,也是业务变化过程的一个重要的元素。服务设计在业务变化过程中所扮演的角色可定义为:对包括架构、过程、政策和文档的新颖而合适的IT服务的设计是为了满足目前和将来获得认可的业务需求。
3、服务转换
服务过渡的角色就是把业务所需的服务交付至可操作的实际使用中。服务转换是如何交付的:从服务设计阶段接受服务设计包,对于服务持续操作和支持所需的每个元素,把他们交付至可操作的阶段。如果业务环境、或假设、或需求在设计阶段发生变化,那么为了交付修改后所需的服务,那么就必须在服务转变阶段作出修改。
服务转变专注于实施服务的所有方面,而不仅仅是简单的应用或是在理想的环境下使用。必须做到可以在可预见的极端或反常的环境中操作服务,并且对操作失败或错误的支持是可用的。
4、服务运营
服务操作的目的就是把己经同意的服务级别交付给使用者和客户,并且管理支持服务交付的应用、技术和设施。
在整个生命周期中,只有这个阶段才是真正的为业务创造出价值。在这个阶段,服务操作人员要负责这些价值被交付。
5、服务持续改进
持续服务改进关心的是维护客户的价值。通过对服务质量进行持续的评价和改进以及增加IT服务管理生命周期和下层流程的成熟度来实现。
持续服务改进包括质量管理,变更管理和性能改进的规范、实践和方法,进而改进服务生命周期的每个阶段,以及现今的服务、流程和相关的活动、技术。
持续服务改进并不是一个新的概念,但对大多数机构来说,该概念仅仅是停留在讨论的阶段。对大多数机构来说,只有当有状况出现,或是发生对业务有严重影响的事,持续服务改进才会成为一个项目。当状况得到解决,这个概念又会被抛诸脑后,知道下一个重大的问题发生。对于成功的持续服务改进来说,它必须融入到机构的文化当中,成为一个日常的活动。
环境信息系统涉及到不同类型的操作系统、虚拟化片平台、数据库系统等,同时系统规模庞大,技术复杂度较高,对IT运营团队的服务能力较高,因此建设和维护异地灾备中心的备份系统需要专业的容灾备份运维团队和技术顾问专家支持。备份系统运维服务重点包括:备份系统的日常巡检、系统优化服务、系统资源监控和配置、备份恢
复演练、系统迁移和数据迁移、数据故障和恢复、备份系统运维管理规范和制度的制定等大量服务性工作,此类工作均需专业人员的服务来完成。
7.2 运维组织架构设计
平台的运行维护是对平台运行过程中所涉及的组织机构、制度规范、IT资产(包括平台涉及的硬件系统、软件系统、IT业务流程,以及建立在这些系统和流程之上的、建设单位内部业务流程与知识资源的总和)、信息安全、运行维护等进行管理,有效的融合组织、制度、流程和技术,制定和完善相应的管理制度,实施规范和专业化管理,落实运行维护费用,使运行维护管理体系成为日常工作的重要组成部分,并通过持续改进运维工作,完善运维过程中各个流程管理来确保平台健康运行,达到平台建设的预期目标。平台运维架构如下图所示:
服务管理PDCA环服务管理策划计划服务管理执行计划管理对象IT基础设施应用系统人员技术支撑IT运维支撑服务系统管理模式实施检查监视评审服务管理持续改进完全外包自运维混合组织建设制度规范管理模式/规范
图错误!文档中没有指定样式的文字。-20平台运维架构图 平台运维服务管理要按照计划 (Plan)、执行 (Do)、检查 (Check)和处理(Action)的循环过程进行,其中运维服务是指IT 运维服务供应商或IT运维部门综合利用各种IT运维支撑工具提供的确保IT 基础设施和应用系统正常、安全、高效、经济运行的服务。
IT运维服务支撑系统是指参与IT 运维的各方为支持IT运维服务目标所使用的信息化工具,是支撑IT 运维服务实施的平台。
7.3 运维管理模式设计
目前国内电子政务领域存在如下三种方式的运维管理模式:
1、完全外包模式:由系统的原开发商或运维外包公司负责运维,即IT资产拥有单位通过与其他单位签署运维外包协议,将所拥有的全部IT资源的运维工作外包 给其他单位,由外包单位为本单位提供IT运维服务。一般情况下,由本单位IT部门负责运维外包管理工作。这种运维模式技术响应迅速,但业务适应性稍差。
2、自运维模式:由建设单位的政务服务中心负责运维,即IT资产拥有单位自行负责对所拥有的所有IT资源的运维工作。一般情况下,相关的维护工作由本单位IT部门负责,即本单位IT部门为本单位提供IT运维服务。这种运维模式业务适应性好,但技术响应性稍差。建议本项目采用自主运维模式,原软件开发商负责应用系统的运维和应急处理,硬件部分主要由省信息中心负责统一运维。
3、混合模式:IT资产拥有单位对所拥有的一部分IT资源自行运维;同时, 通过与其他单位签署运维外包协议,将所拥有的另一部IT资源的运维工作外包给其他单位。一般情况下,由本单位IT部门负责运维工作和外包管理,即本单位的 IT部门和外包单位共同向本单位提供IT运维服务。这种运维模式技术响应性好、业务适应性强,但组织管理难度较大。
本期项目建议采用混合运维模式。
7.4 运维组织建设
组织建设要求确定和规范平台运维体系的管理方式和与之相配套的人员岗位职责安排、机构设置,将平台运维体系相关的全部活动 进行统一决策与规划,形成集中统一的平台运维管理机制。在集中统一的平台运维管理模式下,按照平台运维管理任务科学设置或调整组织机构,划分任务、角色、岗位,合理配置平台运维管理资源,达到人、工具、流程的有机融合。
建设单位应该从全局的角度定位平台运行维护和服务工作,在平台运维过程中,建议将分散进行的各项运行维护和服务的工作职能逐渐整合,进行集中统一管理,统一调度平台运行维护和服务的技术力量,并结合各建设单位实际情况和管理需要进行配套的组织机构的设置和逐步完善。
7.5 运维制度建设
异地灾备中心运行维护建立一套完善的管理制度,包含岗位职责、制度和相应的工作流程。保障异地灾备中心的正常运行,确保灾难发生后能够按照各种应急措施和灾难恢复预案成功执行灾后数据恢复。
制度规范分别从管理与操作方面建立平台运维管理过程中各个参与要素(人、流程、工具)的行为准则与工作程序,从平台运维管理体系总体运行、流程执行和岗位职责3个层次建立考核评价体系,
确定运维费用的组成与计算方式,规范运维费用的来源保障,实现平台运维管理的量化管理。具体内容包括管理制度的制定、管理流程的设计、评价考核体系的执行、运维费用的管理等。
7.6 运维服务范围及要求
平台运维服务范围包括平台基础设施运维服务、平台应用系统运维服务、安全管理服务、网络接入服务、内容信息服务以及综合管理服务。
1、平台基础设施运维服务
平台基础设施运维服务是对平台基础设施进行监视、日常维护和维修保障。服务涉及的基础设施包括网络系统、主机系统、存储/备份系统、终端系统、安全系统、机房动力及环境等。服务内容主要包括:
监控类服务:异常报告及时率、异常漏报率。
日常维护类服务:维护作业计划的及时完成率、故障隐患发现率、异常主动发现率、故障服务请求及时满足率、业务服务请求及时满足率、问题解决率等。
维修保障类服务:服务响应及时率、到达现场及时率、故障修复及时率。
2、平台应用系统运维服务
平台系统运维服务对平台中所包含的应用系统进行设计、集成、维护及改进。
3、安全管理服务
安全管理服务对IT环境涉及的网络、应用系统、终端、内容信息的安全进行管 理,包括安全评估、安全保护、安全监控、安全响应及安全预警等服务。主要服务 内容有:漏洞扫描覆盖率、安全报告呈报及时率、安全漏洞遗漏数量、安全漏洞遗 漏率、加固设备覆盖率、安全补丁安装及时率、安全事件次数等。
4、网络接入服务
网络接入服务提供网络规划和接入,包括互联网接入服务、信息网络接入服务等。主要服务内容有:平均响应时间、问题解决比率等。
5、内容信息服务
内容信息服务对内容信息进行采集、发布、巡检、统计、编辑、信息挖掘以及汇报,为内容信息的获取和进一步处理提供支持。主要服务内容有:检索成功率、响应及时率等。
6、综合管理服务
综合管理服务包括咨询与培训服务、技术支持服务、综合系统服务等。主要服务内容有:平均响应时间、问题解决比率等。
结合本期异地灾备中心的建设需求,异地灾备中心的运维服务要求应至少包括以下几个方面:
7.6.1 例行系统巡检服务
按时按质完成云备份系统例行巡检服务,发现问题及时处理,保证日常备份作业的成功率和可恢复性,确保系统的安全、稳定、高效运行。
7.6.2 紧急故障处理现场服务
提供的紧急故障现场服务,提供云备份系统的备份故障迅速响应,缩短故障时长和业务恢复时长,最大限度地提高云平台和备份平台的业务连续性。
7.6.3 系统深度健康巡检服务
提供的深度健康巡检服务,是对现场例行巡检任务的一个补充工作,是现场例行巡检服务的一项加强工作,确保系统的持续稳定的运行。
7.6.4 系统优化调整服务
定期对备份软件系统进行优化服务,提高备份系统性能和稳定性,保证备份系统高效稳定运行。
7.6.5 备份恢复演练服务
提供容灾演练服务,本项目灾难恢复计划必须定期的进行演练,演练不但是为了熟悉容灾切换、回切流程,使运维管理人员熟悉自己在容灾中所扮演的角色,做到胸有成竹,才能够在灾难真正发生的时刻有条不紊地开展恢复的过程,而且可以提高运维人员的安全意识,在平时维护、软件升级时注意灾难备份系统的维护。通过演练,还可以发现切换、回切流程的不足,验证和优化灾难恢复计划,确保在灾难发生时,灾难恢复计划能够行之有效的。
通过灾难恢复演练可以实现以下目的:
检验灾难恢复计划可以满足客户灾难恢复的要求; 验证灾难恢复系统的高可用性、高可靠性和高响应度; 确认灾难恢复水平满足客户灾难恢复目标的要求; 确认灾难备份系统的处理能力符合客户的要求; 提高恢复团队的恢复技能;
建议至少每半年要进行一次恢复演练。
7.6.6 周期巡检报告和汇报服务
为XXX信息中心制订远程月度巡检报告,每月巡检数据汇总及分析。每月提供容灾备份系统的月度服务报告,每年提供年度服务报告。内容包括但不限于:备份系统的运行情况、资源利用效率、业务开通
办理、故障处理、用户技术支持以及数据分析等。
7.6.7 备份管理办法完善
为了加强XXX异地灾备中心的备份工作的管理,制定规范和制度用来明确和规范备份工作的流程,提高备份工作的有效开展并得到较好执行,防止系统或设备出现异常事故所造成的数据丢失,应每半年完善备份管理办法。
因篇幅问题不能全部显示,请点此查看更多更全内容