dataDF
.rdd
.groupBy(row => row.getAs[Long]("the_key"))
.repartition(2000) // 这个
.flatMap(pair => {
Spark,groupby之后加上repartition可以显著加快速度
阅读 57
2022-08-28
dataDF
.rdd
.groupBy(row => row.getAs[Long]("the_key"))
.repartition(2000) // 这个
.flatMap(pair => {
相关推荐
精彩评论(0)