Hadoop 生态之 MapReduce 及 Hive 简介(2)

发布时间：2019-10-31 13:29 所属栏目：21 来源：李一帆

导读：还拿上面例子来说：统计相同单词在所有输入数据中出现的次数，一个 Map 只能处理一部分数据，而热点单词就很可能会出现在所有 Map 中了，意味着同一单词必须要合并到一起统计才能得到正确结果。这种数据关联几乎在

还拿上面例子来说：统计相同单词在所有输入数据中出现的次数，一个 Map 只能处理一部分数据，而热点单词就很可能会出现在所有 Map 中了，意味着同一单词必须要合并到一起统计才能得到正确结果。这种数据关联几乎在所有的大数据计算场景都需要处理，如果是例子这种的当然只对 Key 合并就OK了，但类似数据库 join 操作这种较复杂的，就需对两种类型(或更多)的数据依据 Key 关联。

这个数据关联操作在 MapReduce中的叫做：shuffle。

2.4 shuffle

shuffle 从字面意思来看，洗牌。下面是一个完整的MR过程，看一看如何洗牌。

先看左半边

1. 从 HDFS 中读取数据，输入数据块到一个个的 map，其中 map 完成计算时，计算结果会存储到本地文件系统。而当 map 快要进行完时，就会启动 shuffle 过程。

2. 如图，shuffle 也可分为两种，在Map端的是 Map shuffle。大致过程为：Map 任务进程会调用一个 Partitioner 接口，对 Map 产生的每个

这里就实现了对 Map 结果的分区、排序、分割，以及将同一分区的输出合并写入磁盘，得到一个分区有序的文件。这样不管 Map 在哪个服务器节点，相同的 Key 一定会被发送给相同 Reduce 进程。Reduce 进程对收到的

再看右半边

1. Reduce shuffle，又可分为复制 Map 输出、排序合并两阶段。

Copy：Reduce 任务从各个 Map 任务拖取数据后，通知父 TaskTracker 状态已更新，TaskTracker 通知 JobTracker。Reduce 会定期向JobTracker 获取 Map 的输出位置，一旦拿到位置，Reduce 任务会从此输出对应的 TaskTracker 上复制输出到本地，不会等到所有的Map任务结束。
Merge sort：
Copy 的数据先放入内存缓冲区，若缓冲区放得下就把数据写入内存，即内存到内存 merge。
Reduce 向每个 Map 去拖取数据，内存中每个 Map 对应一块数据，当内存缓存区中存储的数据达到一定程度，开启内存中 merge，把内存中数据merge 输出到磁盘文件中，即内存到磁盘 merge。
当属于该 reduce 的 map 输出全部拷贝完成，会在 reduce 上生成多个文件，执行合并操作，即磁盘到磁盘 merge。此刻 Map 的输出数据已经是有序的，Merge 进行一次合并排序，所谓 Reduce 端的 sort 过程就是这个合并的过程。

2. 经过上一步Reduce shuffle后，reduce进行最后的计算，将输出写入HDFS中。

以上便是 shuffle 大致四个步骤，关键是 map 输出的 shuffle 到哪个 Reduce 进程，它由 Partitioner 来实现，MapReduce 框架默认的 Partitioner 用 Key 哈希值对 Reduce 任务数量取模，相同 Key 会落在相同的 Reduce 任务 ID 上。

public int getPartition(K2 key, V2 value, int numReduceTasks) { 
 return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;  
 }

如果对 Shuffle 总结一句话: 分布式计算将不同服务器中的数据合并到一起进行后续计算的过程。

shuffle 是大数据计算过程中神奇的地方，不管是 MapReduce 还是 Spark，只要是大数据批处理计算，一定会有 shuffle 过程，只有让数据关联起来，它的内在关系和价值才会呈现。

3. Hive

上一部分介绍了 MapReduce，接下来简单谈谈 Hive .

我觉得任何一项技术的出现都是为了解决某类问题， MapReduce 毫无疑问简化了大数据开发的编程难度。但实际上进行数据计算更常用的手段可能是 SQL，那么有没有办法直接运行 SQL ?

3.1 Hive是什么

基于Hadoop的一个数据仓库系统，定义了一种类SQL查询语言：Hive SQL。

这里有一个名词数据仓库，数据仓库是指：面向主题(Subject Oriented)、集成(Integrated)、相对稳定(Non-Volatile)、反应历史变化(Time Variant)的数据集合，用于支持管理决策。

这么说可能有点抽象，分解一下：

主题：数据仓库针对某个主题来进行组织，指使用数据仓库决策时所关心的重点方面。比如订阅分析就可以当做一个主题。
集成：数据仓库要将多个数据源数据存到一起，但数据以前的存储方式不同，要经过抽取、清洗、转换。(也就是 ETL)
稳定：保存的数据是一系列历史快照，不允许修改，只能分析。
时变：会定期接收到新的数据，反应出新的数据变化。

现在再看下定义：数据仓库是将多个数据源的数据按照一定的主题集成，进行抽取、清洗、转换。且处理整合后的数据不允许随意修改，只能分析，还需定期更新。

3.2 为什么是 Hive

了解了 Hive 的基础定义，想一下：一个依赖于 HDFS 的数据仓库在 Hadoop 环境中可以扮演什么角色?

前面说到，可不可以让 SQL 直接运行在 Hadoop 平台，这里的答案便是 Hive。它可以将 Hive SQL 转换为 MapReduce 程序运行。

Hive 初期版本默认 Hive on Mapreduce

启动 hive 前通常要先启动 hdfs 和 yarn, 同时一般需要配置 MySQL，Hive 依赖于 HDFS 的数据存储，但为了能操作 HDFS 上的数据集，要知道数据切分格式、存储类型、地址等。这些信息通过一张表存储，称为元数据，可以存储到 MySQL 中。

现在来看下 Hive 的部分命令
新建数据库：create database xxx;
删除数据库：drop database xxx;
建表：
create table table_name(col_name data_type);
Hive 的表有两个概念：**内部表和外部表**。默认内部表，简单来说，内部表数据存储在每个表相应的HDFS目录下。外部表的数据存在别处，要删除这个外部表，该外部表所指向的数据是不会被删除的，只会删除外部表对应的元数据。
查询：
select * from t_table **where** a<100 **and** b>1000;
连接查询：
select a.*,b.* from t_a a join t_b b on a.name=b.name;

看到这里，可能会觉得我在写 SQL, 没错，对于熟悉 SQL 的人来说，Hive 是非常易于上手的。

3.3 HIVE SQL To MapReduce

（编辑：ASP站长网）