爱喝酒的幸福人

关注

Spark 利用udf只对DataFrame其中几列操作,而不对所有列map

爱喝酒的幸福人

关注

阅读 47

2022-07-27


定义UDF

import org.apache.spark.sql.functions.udf

def theUDF = udf((inputColumn1: String, inputColumn2: BigInt)=>{
var resultColumn = 0
inputColumn1.split(",").foreach(item=>{
if(java.lang.Long.valueOf(item).equals(inputColumn2)) {
resultColumn = 1
}
})
resultColumn
})

调用

dataFrame.withColumn("result_column", 
theUDF(col("input_column1"), col("input_column2"))
)


相关推荐

Sky飞羽

spark dataframe udf

Sky飞羽 62 0 0

Alex富贵

spark DataFrame操作

Alex富贵 64 0 0

westfallon

pandas Dataframe 其中2列取小(大)值合成新列

westfallon 101 0 0

你带来了我的快乐

spark 取dataframe 某列某行的值

你带来了我的快乐 39 0 0

登高且赋

Spark DataFrame join后移除重复的列

登高且赋 27 0 0

Sophia的玲珑阁

Spark DataFrame添加一列单调递增的id列

Sophia的玲珑阁 140 0 0

Sky飞羽

学习笔记13—python DataFrame获取行数、列数、索引及第几行第几列的值

Sky飞羽 116 0 0

辰鑫chenxin

R语言使用names函数查看dataframe的所有字段(数据列)的名称(list the variables in dataframe)

辰鑫chenxin 161 0 0

fbd4ffd0717b

Spark算子:RDD基本转换操作map、flatMap

fbd4ffd0717b 73 0 0

慕犹清

spark 一个dataframe的两个列的编辑距离join

慕犹清 67 0 0

精彩评论(0)

0 0 举报