Spark,groupby之后加上repartition可以显著加快速度

阅读 57

2022-08-28


dataDF
.rdd
.groupBy(row => row.getAs[Long]("the_key"))
.repartition(2000) // 这个
.flatMap(pair => {


精彩评论(0)

0 0 举报