0
点赞
收藏
分享

微信扫一扫

python 多线程的使用,爬取新发地菜价

今天使用多线程来获取200页数据

公众号回复 菜价 获取源码

目标网站:

#  新发地菜价
http://www.xinfadi.com.cn/priceDetail.html

打开网站,发现是异步加载,然后点击xhr

python 多线程的使用,爬取新发地菜价_公众号

可以看到,数据就在这里

然后我们点击负载,观察发现20代表每页展示多少条数据,不用管

current 则是代表页数

python 多线程的使用,爬取新发地菜价_数据_02

点击标头,可以看到 请求url 和 请求方法

python 多线程的使用,爬取新发地菜价_公众号_03

然后敲代码


定义一个函数(任务,后期扔给线程)

用post发送请求,加上参数,然后.json()获取字典数据

接下来开始提取数据

whd.writerow(dit)   是写入

python 多线程的使用,爬取新发地菜价_数据_04

没问题,然后在最上方加入以下代码

打开csv文件,写入头部

python 多线程的使用,爬取新发地菜价_数据_05


然后在程序的入口下写上线程池,这里是50个线程

50个线程池会同时进行,50个线程都执行完毕之后,才会再接着执行

如果是单线程这里会执行的很慢,一个一个来,所以用多线程

然后for循环爬取200页数据


python 多线程的使用,爬取新发地菜价_多线程_06

最后看效果

3900多行

python 多线程的使用,爬取新发地菜价_多线程_07


想要源代码可以在公众号回复 菜价

代码仅供学习

感谢观看


举报

相关推荐

0 条评论