实验3:hive离线数据分析 题目:根据课堂实验从flume中导入Sogoulogslog数据到hbase中至少写入2000条数据。并完成下述操作 Sogoulogs字段的意思:logtimeuidkeywordsresultnoclicknourl访问时间用户ID话题名该URL在返回结果重的排名用户点击的顺序号用户点击的URL 1 查询hive中数据表sogoulogs的总的数据行数【给出HQ
- 查询hive中数据表sogoulogs的总的数据行数
HQL代码:
SELECT COUNT(*) FROM sogoulogs;
运行结果截图:

- 统计sogoulogs表中用户点击量最高的20个话题
HQL代码:
SELECT keywords, COUNT(*) as click_count
FROM sogoulogs
GROUP BY keywords
ORDER BY click_count DESC
LIMIT 20;
运行结果截图:

- 统计sogoulogs表中用户点击量最高的时间段(按“小时”分组)
HQL代码:
SELECT SUBSTRING(logtime, 12, 2) as hour, COUNT(*) as click_count
FROM sogoulogs
GROUP BY SUBSTRING(logtime, 12, 2)
ORDER BY hour ASC;
运行结果截图:

- 统计sogoulogs表中属于“news.qq.com”网站的新闻总量
HQL代码:
SELECT COUNT(*) FROM sogoulogs WHERE url LIKE '%news.qq.com%';
运行结果截图:
![image](https://user-images.githubusercontent.com/26833433/121809447-6f6eaf00-cc8f-11eb-9c7d-8a45a5d0da89.png
原文地址: http://www.cveoy.top/t/topic/hnQq 著作权归作者所有。请勿转载和采集!