0
点赞
收藏
分享

微信扫一扫

Windows安装Pyspark

君之言之 2022-09-14 阅读 201


又重新装一遍真开心,装的版本太新了spark2.4.0版本,具体原因请看​​​​我装完之后运行程序一直报这个错

Windows安装Pyspark_spark


spark安装和配置

spark下载地址:​​http://spark.apache.org/downloads.html​​ 最好是下载2.0~2.3之前的spark,spark2.0以下是不支持Python3.6及其以上的,spark2.4又存在一些bug。

这是我装的版本

Windows安装Pyspark_spark_02


以下截图是我之前安装spark2.4,懒得改截图了,就这样看吧

Windows安装Pyspark_hadoop_03


下载完成后解压

新建SPARK_HOME,填你的解压路径

在Path中追加一句,配置好环境变量

;%SPARK_HOME%;%SPARK_HOME%\bin;%SPARK_HOME%\sbin

许多人装好了spark,在cmd输入spark-shell出现如下输出

Windows安装Pyspark_hadoop_04


这还是没装好(我之前就是卡在这了),请接下去跟着我的教程做就可以解决了

pyspark的安装

一种是pip install pyspark==版本号安装
另一种是直接将spark\python\pyspark复制到D:\Python37\Lib\site-packages下(我是选择这种方式装的)

hadoop的安装和配置

在​​https://archive.apache.org/dist/hadoop/common/​​下载spark对应版本的hadoop

将hadoop下载完解压好,设置好环境变量
添加 HADOOP_HOME 值为hadoop解压目录
添加到path环境变量 ;%HADOOP_HOME%\bin

下载2.7版本hadoop 会缺少winutils.exe ​​​)​​​ 下载对应hadoop 版本的winutils.exe
下载完毕后 将 winutils.exe 复制到 %HADOOP_HOME%\bin 目录下,然后以管理员的身份打开cmd,然后通过cd命令进入到Hadoop的bin目录下,然后执行以下命令:
winutils.exe chmod 777 c:\tmp\Hive
如果没有c:\tmp\Hive则自己建一下

测试代码:

from pyspark import SparkContext

logFile = "D:/spark/spark-2.4.0-bin-hadoop2.7/README.md"
sc = SparkContext("local","Simple App")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()

print("Lines with a: %i, lines with b: %i"%(numAs, numBs))

终于装成功之后(我是直接将spark下的pyspark复制到Python下的)

Windows安装Pyspark_spark_05


举报

相关推荐

0 条评论