Spark，groupby之后加上repartition可以显著加快速度-CFANZ编程社区

Spark，groupby之后加上repartition可以显著加快速度

海滨公园

阅读 60

2022-08-28

dataDF
  .rdd
  .groupBy(row => row.getAs[Long]("the_key"))
  .repartition(2000) // 这个
  .flatMap(pair => {