祈澈菇凉

关注

Spark,控制输入 group by 的每个group的row数量

祈澈菇凉

关注

阅读 105

2022-11-06


inputDF.withColumn("row_number", 
row_number().over(Window.partitionBy("the_id").orderBy("the_id")) - 1)
.withColumn("bucket", col("row_number") / 10)
.rdd.groupBy(row => (row.getAs[String]("the_id") + "---" + row.getAs[Long]("bucket")))
.repartition(10000)
.map(pair => {

其实等于还是只能是 二次groupby 的方法​


相关推荐

滚过红尘说红尘

Spark-读取Parquet-为什么task数量会多于Row Group的数量

滚过红尘说红尘 98 0 0

互联网码农

Spark 对每个groupby的每个group的string进行concat

互联网码农 189 0 0

星河出山

136-Row 61 was cut by GROUP_CONCAT()

星河出山 126 0 0

编程练习生J

DataEase查询报“Row XXX was cut by GROUP_CONCAT()”异常的解决

编程练习生J 116 0 0

梦为马

skyline里的group

梦为马 60 0 0

西红柿上校

Hive Spark Partition by 和 Group by的区别(面试可以看看)

西红柿上校 94 0 0

非衣所思

Mysql 中的group by

非衣所思 89 0 0

穆风1818

only_full_group_by问题而引发的对group by的深入思考

穆风1818 82 0 0

热爱生活的我一雷广琴

GROUP_CONCAT的使用

热爱生活的我一雷广琴 108 0 0

微言记

Kafka 的 Consumer Group 解读

微言记 31 0 0

精彩评论(0)

0 0 举报