Spark大数据分析与实战笔记（第二章 Spark基础-03）-CFANZ编程社区

import os
from pyspark import SparkConf, SparkContext
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

# 绑定指定的Python解释器
os.environ['SPARK_HOME'] = '/export/server/spark'
os.environ['PYSPARK_PYTHON'] = '/root/anaconda3/bin/python3'
os.environ['PYSPARK_DRIVER_PYTHON'] = '/root/anaconda3/bin/python3'
# 绑定指定的Python解释器
from pyspark.sql.types import StructType, IntegerType, StringType, StructField

if __name__ == '__main__':
# 1- 创建SparkSession对象
    spark = SparkSession.builder\
        .appName('RDD转DataFrame')\
        .master('local[*]')\
        .getOrCreate()
# 通过SparkSession得到SparkContext
    sc = spark.sparkContext
# 2- 数据输入
# 2.1- 创建一个RDD
    init_rdd = sc.textFile('hdfs://node1:8020/input/words.txt')
# 2.2- 将RDD的数据结构转换成二维结构
    new_rdd = init_rdd.flatMap(lambda line:line.split()).map(lambda line:(line,1))
    print(new_rdd.collect())
    '''
    [('hadoop', 1), ('hive', 1), ('hadoop', 1), ('sqoop', 1),
     ('hive', 1), ('sqoop', 1), ('hadoop', 1), ('zookeeper', 1),
      ('hive', 1), ('hue', 1), ('hue', 1), ('sqoop', 1), ('hue', 1),
       ('zookeeper', 1), ('hive', 1), ('spark', 1), ('oozie', 1),
        ('spark', 1), ('hadoop', 1), ('oozie', 1), ('hive', 1), 
        ('oozie', 1), ('spark', 1), ('hadoop', 1)]
    '''

    init_df = new_rdd.toDF(schema=['word','cnt'])

    '''
    +---------+---+
|     word|cnt|
+---------+---+
|   hadoop|  1|
|     hive|  1|
|   hadoop|  1|
|    sqoop|  1|
|     hive|  1|
|    sqoop|  1|
|   hadoop|  1|
|zookeeper|  1|
|     hive|  1|
|      hue|  1|
|      hue|  1|
|    sqoop|  1|
|      hue|  1|
|zookeeper|  1|
|     hive|  1|
|    spark|  1|
|    oozie|  1|
|    spark|  1|
|   hadoop|  1|
|    oozie|  1|
+---------+---+
only showing top 20 rows

root
 |-- word: string (nullable = true)
 |-- cnt: long (nullable = true)

    '''
    init_df.show()
    init_df.printSchema()

    print('sql方法进行词频统计')
    # 创建临时视图
    init_df.createTempView('word_table')
    spark.sql("""
        select word,count(1) as cnt 
        from word_table
        group by word
        order by word desc 
        """).show()

    print('DSL方法进行词频统计')
    init_df.select(
        'word','cnt'
    ).groupby('word').agg(
        F.count('word').alias('count_col')
    ).withColumnRenamed('word','bigdata_col')\
        .orderBy('count_col',ascending=False).show()

# 5- 释放资源
    spark.stop()
    sc.stop()

4.创建Spark DataFrame的几种方式?

1 . 通过RDD得到DataFrame

2. 内部初始化数据得到DataFrame

3. 读取外部文件得到DataFrame

5. 创建得到DataFrame的方式有哪些,各自适用场景是怎么样的?

1 . RDD转DataFrame , 场景 : RDD可以存储任意结构的数据类型,而DataFrame只能存储二维表结构化数据, 在使用Spark处理数据的初期,可能输入进来的数据是半结构化或者非结构化的,那么可以先通过RDD对数据进行ETL处理成结构化数据,再使用开发高效率的SparkSQL进行后续数据处理;

2. 内部初始化数据得到DataFrame , 通过createDataFrame创建DataFrame , 一般用在开发和测试中.因为只能处理少量的数据

3. 读取外部文件得到DataFrame , Text方式\CSV方式\JSON方式 ;