0

点赞

收藏

分享

Spider based on scrapy

秀妮_5519 2022-09-08 阅读 75

标签: python mongodb scrapy spider crawl 虚拟化云计算

Spider based on scrapy

Overview

Spider based on scrapy is create for crawl useful information.

Structure

Needs
Usage
Note

Needs

python
scrapy
pymongo
MongoDB

Usage

1.开启mongodb 服务器 sudo or not.
$sudo mongod
$password: 

OR
$mongod

JOBDIR Jobs: pausing and resuming crawls.

2.在含有.cfg文件的目录下,输入以下命令, 
$scrapy crawl doubanSpider -s JOBDIR=crawls/doubanisbnSpider -s MONGODB_DB=douban -s MONGODB_COLLECTION=books


3.开启mongo客户端
$mongo      
>show dbs
>use amazon
>show collections    # collections相当于mysql里面的tables
>db.books.find()     # 查看books中的所有书籍信息


4 关闭mongo客户端
>use admin           # 切换数据库
>db.shutdownServer() # 关闭服务器
>exit                # 退出客户端

Note

‘.idea’文件夹是我用Pycharm创建工程时，自动生成的工程配置信息。
‘.UserAgentString.json’文件里面包含有9502个PC浏览器代理信息和512个Mobile浏览器代理信息。
默认启用CrawleraProxy服务, 需要自己设置 CRAWLERA_USER 的值。(具体如何设置CRAWLERA_USER，请参考官网)
GoogleCache和RandomUserAgent, 参考gnemoug
RandomProxy 参考aivarsk.
我对RandomUserAgent和RandomProxy做了相应的修改。如果，启用RandomProxy, 请重新设置randomproxy.py中的代理地址url, 并重新分析实现updateIPs函数。

0 条评论

关注