大数据学习笔记14-Hive基础2-CFANZ编程社区

前言

书接上回大数据分析入门10分钟快速了解SQL。
本篇将会进一步介绍group by语法。

SELECT column_name, aggregate_function(column_name)
FROM table_name
GROUP BY column_name
HAVING condition

假设我们有students表，其中有id,grade_number,class_number,name4个字段

SELECT grade_number, count(id) as cnt
FROM students
GROUP BY grade_number

SELECT grade_number, class_number, count(id) as cnt
FROM students
GROUP BY grade_number,class_number -- GROUP BY 支持多列

SELECT grade_number, class_number, count(id) as cnt
FROM students
GROUP BY grade_number,class_number
HAVING count(id) > 50 -- 对聚合结果进行过滤

刚刚只展示了1个count函数，实际可用的聚合函数有很多。

以SparkSQL为例

“数学函数”比较简单，就不用举例子了

举个例子，想知道每个班级有哪些人

SELECT grade_number, class_number, collect_list(id) as cnt
FROM students
GROUP BY grade_number,class_number -- GROUP BY 支持多列

结果将会是

1年级,1班, [‘张三’,'李四']
...
1年级, 8班, ['秦朗']
...

聚合函数能搭配distinct来使用，例如count(distinct name)统计name去重后的结果。

不过大数据场景一般少用count (distinct name)，会用approx_count_distinct(name)来替代.

因为大数据的计算比较慢，抽样可以更快地得到一个近似值。

聚合语法主要在于了解各种聚合函数，每个引擎都有自己的函数手册可以查阅，下面就是SparkSQL的函数手册。
在这里插入图片描述