1. 查询hive中数据表sogoulogs的总的数据行数

HQL代码:

SELECT COUNT(*) FROM sogoulogs;

运行结果截图:

image

  1. 统计sogoulogs表中用户点击量最高的20个话题

HQL代码:

SELECT keywords, COUNT(*) as click_count
FROM sogoulogs
GROUP BY keywords
ORDER BY click_count DESC
LIMIT 20;

运行结果截图:

image

  1. 统计sogoulogs表中用户点击量最高的时间段(按“小时”分组)

HQL代码:

SELECT SUBSTRING(logtime, 12, 2) as hour, COUNT(*) as click_count
FROM sogoulogs
GROUP BY SUBSTRING(logtime, 12, 2)
ORDER BY hour ASC;

运行结果截图:

image

  1. 统计sogoulogs表中属于“news.qq.com”网站的新闻总量

HQL代码:

SELECT COUNT(*) FROM sogoulogs WHERE url LIKE '%news.qq.com%';

运行结果截图:

![image](https://user-images.githubusercontent.com/26833433/121809447-6f6eaf00-cc8f-11eb-9c7d-8a45a5d0da89.png

实验3:hive离线数据分析 题目:根据课堂实验从flume中导入Sogoulogslog数据到hbase中至少写入2000条数据。并完成下述操作 Sogoulogs字段的意思:logtimeuidkeywordsresultnoclicknourl访问时间用户ID话题名该URL在返回结果重的排名用户点击的顺序号用户点击的URL 1 查询hive中数据表sogoulogs的总的数据行数【给出HQ

原文地址: http://www.cveoy.top/t/topic/hnQq 著作权归作者所有。请勿转载和采集!

免费AI点我,无需注册和登录