10分钟零基础就可搞懂的Hadoop架构原理,阿里架构师详解(3)
MemStore是Sorted Memory Buffer,用户写入的数据首先会放入MemStore,当MemStore满了以后会Flush成一个StoreFile(底层实现是HFile), 当StoreFile文件数量增长到一定阈值,会触发Compact合并操作,将多个 StoreFiles 合并成一个 StoreFile,合并过程中会进行版本合并和数据删除。 因此可以看出HBase其实只有增加数据,所有的更新和删除操作都是在后续的 compact 过程中进行的,这使得用户的写操作只要进入内存中就可以立即返回,保证了 HBase I/O 的高性能。 当StoreFiles Compact后,会逐步形成越来越大的StoreFile,当单个 StoreFile 大小超过一定阈值后,会触发Split操作,同时把当前 Region Split成2个Region,父 Region会下线,新Split出的2个孩子Region会被HMaster分配到相应的HRegionServer 上,使得原先1个Region的压力得以分流到2个Region上。 三、Hadoop的应用实例1.回顾Hadoop的整体架构 2.Hadoop的应用——流量查询系统 (1)流量查询系统总体框架 (2)流量查询系统总体流程 (3)流量查询系统数据预处理功能框架 (4)流量查询系统数据预处理流程 (5)流量查询NoSQL数据库功能框架 (6)流量查询服务功能框架 (7)实时流计算数据处理流程图
(编辑:ASP站长网) |