① 正常启动Hadoop集群、MySQL以及Hive服务。

  • 启动Hadoop集群:在终端输入start-all.sh命令启动Hadoop集群。
  • 启动MySQL:在终端输入sudo service mysql start命令启动MySQL服务。
  • 启动Hive:在终端输入hive命令启动Hive服务。

② 在Hive中创建对应字段名及字段类型的表(以“,”分隔),命名为student_data,要求提交创建表的代码。

CREATE TABLE student_data (
  student_id INT,
  student_name STRING,
  gender STRING,
  age INT,
  class_id INT,
  score INT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

③ 将Linux本地路径/course/Hive/data/下的student_data.csv数据导入到student_data表,并查看导入数据后的数据表的前10行数据。要求提交导入数据的代码和查询数据的结果截图。

LOAD DATA LOCAL INPATH '/course/Hive/data/student_data.csv' INTO TABLE student_data;
SELECT * FROM student_data LIMIT 10;

查询结果截图:

查询结果

④ 查询成绩大于等于90的数据。要求提交查询数据的代码并截取查询数据的结果截图。统计三个班各有多少学生。要求提交查询数据的代码并截取查询数据的结果截图。

查询成绩大于等于90的数据:

SELECT * FROM student_data WHERE score >= 90;

查询结果截图:

查询结果

统计三个班各有多少学生:

SELECT class_id, COUNT(*) AS student_count FROM student_data GROUP BY class_id;

查询结果截图:

查询结果

⑤ 计算学生的平均年龄命名为avg_age,并计算平均成绩命名为avg_score。要求提交计算过程代码并截取统计结果截图。

计算学生的平均年龄和平均成绩:

SELECT AVG(age) AS avg_age, AVG(score) AS avg_score FROM student_data;

查询结果截图:

查询结果

⑥ 统计学生中男,女各多少人,并求出相应的平均分数。要求提交计算过程代码并截取统计结果截图。

统计学生中男、女各多少人,并求出相应的平均分数:

SELECT gender, COUNT(*) AS count, AVG(score) AS avg_score FROM student_data GROUP BY gender;

查询结果截图:

查询结果

Hive 数据分析实战:学生信息数据处理

原文地址: https://www.cveoy.top/t/topic/fwZO 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录