互联网码农

关注

Spark 对每个groupby的每个group的string进行concat

互联网码农

关注

阅读 189

2022-11-26


不易OOM写法

import org.apache.spark.sql.functions._

inputDF.groupBy("the_key")
.agg(concat_ws(",", collect_set("string_column")) as "string_set_concat_column")

易OOM的写法(优点是可以对每个group里自定义操作)

inputDF.rdd.groupBy(row => row.getAs[Long]("the_key"))
.map( //each group ...


相关推荐

祈澈菇凉

Spark,控制输入 group by 的每个group的row数量

祈澈菇凉 105 0 0

朱悟能_9ad4

opencv对每个像素进行操作

朱悟能_9ad4 69 0 0

芥子书屋

对JS代码中的每个函数单独进行混淆加密

芥子书屋 116 0 0

热爱生活的我一雷广琴

GROUP_CONCAT的使用

热爱生活的我一雷广琴 108 0 0

Jonescy

快速查询快递,对每个快递单号进行跟踪

Jonescy 82 0 0

君心浅语

【34】kotlin 统计每个字符串出现的个数 groupBy

君心浅语 70 0 0

钎探穗

【SqlServer 对分组的内容进行拼接-group_concat】

钎探穗 90 0 0

王远洋

SQL的GROUP_CONCAT()函数

王远洋 55 0 0

小飞侠熙熙

Spark编程案例:针对每个分区进行数据库操作

小飞侠熙熙 45 0 0

爱做梦的夏夏

数据挖掘如何分箱以及如何对每个箱子中的数据进行平滑处理

爱做梦的夏夏 70 0 0

精彩评论(0)

0 0 举报