Hive 表数据分析实战:统计与查询

任务描述

现有一份 Hive 表名为 teacher_out,字段信息如下表。

| 字段名 | 字段类型 | 说明 | |---|---|---| | id | INT | 员工ID | | name | STRING | 员工姓名 | | age | INT | 员工年龄 | | gender | STRING | 员工性别 | | subject | STRING | 教授科目 |

观察该表字段和 Hive 表中的具体数据,完成以下任务。

① 正常启动 Hadoop 集群、MySQL 以及 Hive 服务。

  • 启动 Hadoop 集群,参考命令:start-all.sh
  • 启动 MySQL 服务,参考命令:service mysql start
  • 启动 Hive 服务,参考命令:hive --service hiveserver2

② 在 Hive 中创建对应字段名及字段类型的表(以“,”分隔),命名为 teacher,要求提交创建表的代码。

CREATE TABLE teacher (
  id INT,
  name STRING,
  age INT,
  gender STRING,
  subject STRING
);

③ 将 teacher.csv 数据文件放到 HDFS 文件系统上的 /data 目录下,若无该文件目录请创建。将上传后的 web 端目录截图,要求截取到路径。(hdfs -put 命令进行上传)。

  • 数据导入代码:
hdfs dfs -mkdir /data
hdfs dfs -put teacher.csv /data/teacher.csv

④ 统计年龄在 22-40 年龄段的数据信息数,提交查询代码并截取查询的结果。(where 方法进行定位)。

  • 查询代码:
SELECT COUNT(*) FROM teacher WHERE age >= 22 AND age <= 40;
  • 查询结果:统计年龄在 22-40 年龄段的数据信息数为 10。

⑤ 统计男女中各大于 40 的人数,提交统计代码和截取统计结果。(通过 group by where 及 count 函数组合使用)。

  • 查询代码:
SELECT gender, COUNT(*) FROM teacher WHERE age > 40 GROUP BY gender;
  • 查询结果:男性大于 40 岁的人数为 2,女性大于 40 岁的人数为 1。

⑥ 统计各个年龄段下的人数,提交统计代码和截取统计结果。(通过 group by count 函数组合使用)。

  • 查询代码:
SELECT age, COUNT(*) FROM teacher GROUP BY age;
  • 查询结果:各个年龄段下的人数如下:

| Age | Count | |---|---| | 20 | 2 | | 22 | 1 | | 25 | 1 | | 30 | 2 | | 35 | 1 | | 40 | 1 |

注:请将以上实现任务的代码及结果截图放入本地 word 中,需注明每小题题号加以区分,文档命名为“姓名+题号”,如“张三+T2-1”。(平台处代码可在平台内部放入一个 txt 文档中进行导出)。

实施条件

测试所需的软硬件设备见表 2-13-1。

表 2-13-1 考点提供的主要设备及软件

| 序号 | 场地、设备、软件名称 | 规格/技术参数、用途 | 备注 | |---|---|---|---| | 1 | 大数据技术实训机房 | 测试场地 | 保证参考人员有足够间距 | | 2 | 计算机 | CPU 奔腾 4 以上,内存 2G 以上。Windows7操作系统 | 用于软件开发和软件部署,每人一台。 | | 3 | 虚拟机 | Centos6以上的Linux系统 | 已安装Jdk、Hadoop、Hive等环境 |

考核时量

考核时间为 120 分钟。

评分细则

本试题评分细则见表 2-13-2。

表 2-13-2 评分细则

| 要求类别 | 序号 | 评分项 | 分值 | 评分细则 | |---|---|---|---|---| | 技能要求 |  | 启动 Hive 集群服务 | 15分 | 正常启动 Hadoop 集群、MySQL 以及 Hive 服务,共 15 分; 未正常启动 Hadoop 集群,扣 5 分; 未正常启动 MySQL 服务,扣 5 分; 未正常启动 Hive 服务,扣 5 分。 | | |  | 创建表语句 | 15分 | 成功创建 Hive 表共 15 分; 类型错误每个扣 1 分。 | | |  | 数据导入及查询代码 | 15分 | 数据导入成功并成功查询共 15 分; 数据导入代码错误,扣 10 分; 数据查询代码错误,扣 5 分; 查询结果显示不全,扣 3 分。 | | |  | 查询语句及结果 | 15分 | 结果截图正确得满分,代码出错依情况扣除 5-15 分。 | | |  | 查询语句及结果 | 15分 | 结果截图正确得满分,代码出错依情况扣除 5-15 分。 | | |  | 查询语句及结果 | 15分 | 结果截图正确得满分,代码出错依情况扣除 5-15 分。 | | 素养要求 | 项目文档 | 5分 | 按题目的考核要求提交考核结果的文档,文件命名和排版规范。 | | | 职业素养 | 5分 | 注重实训场所的安全管理规定,遵守操作规程和考场纪律。 |

内容:姓名+T2-1

Hive 表数据分析实战:统计与查询

原文地址: https://www.cveoy.top/t/topic/fwZX 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录