Hive 数据分析实战:学生信息数据处理
① 正常启动Hadoop集群、MySQL以及Hive服务。
- 启动Hadoop集群:在终端输入
start-all.sh命令启动Hadoop集群。 - 启动MySQL:在终端输入
sudo service mysql start命令启动MySQL服务。 - 启动Hive:在终端输入
hive命令启动Hive服务。
② 在Hive中创建对应字段名及字段类型的表(以“,”分隔),命名为student_data,要求提交创建表的代码。
CREATE TABLE student_data (
student_id INT,
student_name STRING,
gender STRING,
age INT,
class_id INT,
score INT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;
③ 将Linux本地路径/course/Hive/data/下的student_data.csv数据导入到student_data表,并查看导入数据后的数据表的前10行数据。要求提交导入数据的代码和查询数据的结果截图。
LOAD DATA LOCAL INPATH '/course/Hive/data/student_data.csv' INTO TABLE student_data;
SELECT * FROM student_data LIMIT 10;
查询结果截图:

④ 查询成绩大于等于90的数据。要求提交查询数据的代码并截取查询数据的结果截图。统计三个班各有多少学生。要求提交查询数据的代码并截取查询数据的结果截图。
查询成绩大于等于90的数据:
SELECT * FROM student_data WHERE score >= 90;
查询结果截图:

统计三个班各有多少学生:
SELECT class_id, COUNT(*) AS student_count FROM student_data GROUP BY class_id;
查询结果截图:

⑤ 计算学生的平均年龄命名为avg_age,并计算平均成绩命名为avg_score。要求提交计算过程代码并截取统计结果截图。
计算学生的平均年龄和平均成绩:
SELECT AVG(age) AS avg_age, AVG(score) AS avg_score FROM student_data;
查询结果截图:

⑥ 统计学生中男,女各多少人,并求出相应的平均分数。要求提交计算过程代码并截取统计结果截图。
统计学生中男、女各多少人,并求出相应的平均分数:
SELECT gender, COUNT(*) AS count, AVG(score) AS avg_score FROM student_data GROUP BY gender;
查询结果截图:

原文地址: https://www.cveoy.top/t/topic/fwZO 著作权归作者所有。请勿转载和采集!