Hive 数据分析实战：学生信息数据处理

① 正常启动Hadoop集群、MySQL以及Hive服务。

启动Hadoop集群：在终端输入start-all.sh命令启动Hadoop集群。
启动MySQL：在终端输入sudo service mysql start命令启动MySQL服务。
启动Hive：在终端输入hive命令启动Hive服务。

② 在Hive中创建对应字段名及字段类型的表（以“,”分隔），命名为student_data，要求提交创建表的代码。

CREATE TABLE student_data (
  student_id INT,
  student_name STRING,
  gender STRING,
  age INT,
  class_id INT,
  score INT
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','
STORED AS TEXTFILE;

③ 将Linux本地路径/course/Hive/data/下的student_data.csv数据导入到student_data表，并查看导入数据后的数据表的前10行数据。要求提交导入数据的代码和查询数据的结果截图。

LOAD DATA LOCAL INPATH '/course/Hive/data/student_data.csv' INTO TABLE student_data;
SELECT * FROM student_data LIMIT 10;

查询结果截图：

查询结果

④ 查询成绩大于等于90的数据。要求提交查询数据的代码并截取查询数据的结果截图。统计三个班各有多少学生。要求提交查询数据的代码并截取查询数据的结果截图。

查询成绩大于等于90的数据：

SELECT * FROM student_data WHERE score >= 90;

查询结果截图：

查询结果

统计三个班各有多少学生：

SELECT class_id, COUNT(*) AS student_count FROM student_data GROUP BY class_id;

查询结果截图：

查询结果

⑤ 计算学生的平均年龄命名为avg_age，并计算平均成绩命名为avg_score。要求提交计算过程代码并截取统计结果截图。

计算学生的平均年龄和平均成绩：

SELECT AVG(age) AS avg_age, AVG(score) AS avg_score FROM student_data;

查询结果截图：

查询结果

⑥ 统计学生中男，女各多少人，并求出相应的平均分数。要求提交计算过程代码并截取统计结果截图。

统计学生中男、女各多少人，并求出相应的平均分数：

SELECT gender, COUNT(*) AS count, AVG(score) AS avg_score FROM student_data GROUP BY gender;

查询结果截图：

查询结果