浅析大数据的数据灾备建设
发布时间:2022-08-23 13:02 所属栏目:125 来源:互联网
导读:大数据时代,数据呈爆炸趋势增长,很多企业都从大数据中获得了利益,推动各自的业务上升了一个台阶。通过大数据技术的完善尤其是大数据和云容器技术相结合,各个企业已经把自己的重要业务迁移到了大数据平台。与此同时企业对数据可靠性和业务连续性保证的诉
大数据时代,数据呈爆炸趋势增长,很多企业都从大数据中获得了利益,推动各自的业务上升了一个台阶。通过大数据技术的完善尤其是大数据和云容器技术相结合,各个企业已经把自己的重要业务迁移到了大数据平台。与此同时企业对数据可靠性和业务连续性保证的诉求也与日俱增,大数据灾备刻不容缓。 在讨论信息系统灾备之前,需要明确两个概念:RTO和RPO RTO:(RecoveryTime Object)是指灾难发生后,从IT系统宕机导致业务停顿之刻开始,到IT系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为RTO。 RPO:(RecoveryPoint Objective,复原点目标)是指数据中心能容忍的最大数据丢失量,是指当业务恢复后,恢复得来的数据和灾难发生前数据的差异,也就是能够容忍的数据丢失量。 使用distcp的好处在于备份过程简单。并且可以根据自身的需要,对整体集群或对指定的目标进行备份。由于distcp能够灵活使用,所以非常方便配合各种业务操作。当每日完成数据加工操作后,可以在批量作业中调用disctcp将重要数据备份到异地机房进行保存。 使用此种方法,需要建立目标集群,同时对网络带宽有一定需求,所以此种灾备系统的成本较高。如果需要降低成本同时对备份和恢复的效率要求不高,也可以将HDFS中的数据导出为文本,使用磁带库的方式进行备份。 大数据平台中不仅需要对HDFS的数据进行备份,HBase数据库的灾备也尤为重要。HBase在大数据体系中,不仅承载OLAP的业务,同时也具备OLTP业务承载能力。 在OLTP业务场景下,通常对RTO要求较高。可以考虑使用HBase数据库提供的Replication(复制)技术。HBase当前有3种Replication方式: 异步Replication 串行Replication 同步Replication 使用哪一种复制方式,需要根据对RTO和RPO的要求进行确定。不同种类的复制方式,对于前端业务在数据库中的操作效率,会有不同的感受。 HBase数据库的备份原理,是对HLog进行读取并发给Slave端中进行应用,从而实现数据同步。每个Master节点中的RegionServer都有HLog,开启HBase的复制方式,在RegionServer上会开启一个单独的线程读取HLog,同时发送给Slave端。并通过Zookeeper记录已经发送的HLog的偏移量。在3种复制方式中,异步的复制方式对源端的HBase影响最小。 (编辑:ASP站长网) |
相关内容
网友评论
推荐文章
热点阅读