Hive 表数据分析实战:统计与查询
Hive 表数据分析实战:统计与查询
任务描述
现有一份 Hive 表名为 teacher_out,字段信息如下表。
| 字段名 | 字段类型 | 说明 | |---|---|---| | id | INT | 员工ID | | name | STRING | 员工姓名 | | age | INT | 员工年龄 | | gender | STRING | 员工性别 | | subject | STRING | 教授科目 |
观察该表字段和 Hive 表中的具体数据,完成以下任务。
① 正常启动 Hadoop 集群、MySQL 以及 Hive 服务。
- 启动 Hadoop 集群,参考命令:start-all.sh
- 启动 MySQL 服务,参考命令:service mysql start
- 启动 Hive 服务,参考命令:hive --service hiveserver2
② 在 Hive 中创建对应字段名及字段类型的表(以“,”分隔),命名为 teacher,要求提交创建表的代码。
CREATE TABLE teacher (
id INT,
name STRING,
age INT,
gender STRING,
subject STRING
);
③ 将 teacher.csv 数据文件放到 HDFS 文件系统上的 /data 目录下,若无该文件目录请创建。将上传后的 web 端目录截图,要求截取到路径。(hdfs -put 命令进行上传)。
- 数据导入代码:
hdfs dfs -mkdir /data
hdfs dfs -put teacher.csv /data/teacher.csv
④ 统计年龄在 22-40 年龄段的数据信息数,提交查询代码并截取查询的结果。(where 方法进行定位)。
- 查询代码:
SELECT COUNT(*) FROM teacher WHERE age >= 22 AND age <= 40;
- 查询结果:统计年龄在 22-40 年龄段的数据信息数为 10。
⑤ 统计男女中各大于 40 的人数,提交统计代码和截取统计结果。(通过 group by where 及 count 函数组合使用)。
- 查询代码:
SELECT gender, COUNT(*) FROM teacher WHERE age > 40 GROUP BY gender;
- 查询结果:男性大于 40 岁的人数为 2,女性大于 40 岁的人数为 1。
⑥ 统计各个年龄段下的人数,提交统计代码和截取统计结果。(通过 group by count 函数组合使用)。
- 查询代码:
SELECT age, COUNT(*) FROM teacher GROUP BY age;
- 查询结果:各个年龄段下的人数如下:
| Age | Count | |---|---| | 20 | 2 | | 22 | 1 | | 25 | 1 | | 30 | 2 | | 35 | 1 | | 40 | 1 |
注:请将以上实现任务的代码及结果截图放入本地 word 中,需注明每小题题号加以区分,文档命名为“姓名+题号”,如“张三+T2-1”。(平台处代码可在平台内部放入一个 txt 文档中进行导出)。
实施条件
测试所需的软硬件设备见表 2-13-1。
表 2-13-1 考点提供的主要设备及软件
| 序号 | 场地、设备、软件名称 | 规格/技术参数、用途 | 备注 | |---|---|---|---| | 1 | 大数据技术实训机房 | 测试场地 | 保证参考人员有足够间距 | | 2 | 计算机 | CPU 奔腾 4 以上,内存 2G 以上。Windows7操作系统 | 用于软件开发和软件部署,每人一台。 | | 3 | 虚拟机 | Centos6以上的Linux系统 | 已安装Jdk、Hadoop、Hive等环境 |
考核时量
考核时间为 120 分钟。
评分细则
本试题评分细则见表 2-13-2。
表 2-13-2 评分细则
| 要求类别 | 序号 | 评分项 | 分值 | 评分细则 | |---|---|---|---|---| | 技能要求 | | 启动 Hive 集群服务 | 15分 | 正常启动 Hadoop 集群、MySQL 以及 Hive 服务,共 15 分; 未正常启动 Hadoop 集群,扣 5 分; 未正常启动 MySQL 服务,扣 5 分; 未正常启动 Hive 服务,扣 5 分。 | | | | 创建表语句 | 15分 | 成功创建 Hive 表共 15 分; 类型错误每个扣 1 分。 | | | | 数据导入及查询代码 | 15分 | 数据导入成功并成功查询共 15 分; 数据导入代码错误,扣 10 分; 数据查询代码错误,扣 5 分; 查询结果显示不全,扣 3 分。 | | | | 查询语句及结果 | 15分 | 结果截图正确得满分,代码出错依情况扣除 5-15 分。 | | | | 查询语句及结果 | 15分 | 结果截图正确得满分,代码出错依情况扣除 5-15 分。 | | | | 查询语句及结果 | 15分 | 结果截图正确得满分,代码出错依情况扣除 5-15 分。 | | 素养要求 | 项目文档 | 5分 | 按题目的考核要求提交考核结果的文档,文件命名和排版规范。 | | | 职业素养 | 5分 | 注重实训场所的安全管理规定,遵守操作规程和考场纪律。 |
内容:姓名+T2-1
原文地址: https://www.cveoy.top/t/topic/fwZX 著作权归作者所有。请勿转载和采集!