Spider based on scrapy
Overview
Spider based on scrapy is create for crawl useful information.
Structure
- Needs
- Usage
- Note
Needs
- python
- scrapy
- pymongo
- MongoDB
Usage
1.开启mongodb 服务器 sudo or not.
$sudo mongod
$password:
OR
$mongod
JOBDIR Jobs: pausing and resuming crawls.
2.在含有.cfg文件的目录下,输入以下命令,
$scrapy crawl doubanSpider -s JOBDIR=crawls/doubanisbnSpider -s MONGODB_DB=douban -s MONGODB_COLLECTION=books
3.开启mongo客户端
$mongo
>show dbs
>use amazon
>show collections # collections相当于mysql里面的tables
>db.books.find() # 查看books中的所有书籍信息
4 关闭mongo客户端
>use admin # 切换数据库
>db.shutdownServer() # 关闭服务器
>exit # 退出客户端
Note
- ‘.idea’文件夹是我用Pycharm创建工程时,自动生成的工程配置信息。
- ‘.UserAgentString.json’文件里面包含有9502个PC浏览器代理信息和512个Mobile浏览器代理信息。
- 默认启用CrawleraProxy服务, 需要自己设置 CRAWLERA_USER 的值。(具体如何设置CRAWLERA_USER,请参考官网)
- GoogleCache和RandomUserAgent, 参考gnemoug
- RandomProxy 参考aivarsk.
- 我对RandomUserAgent和RandomProxy做了相应的修改。如果,启用RandomProxy, 请重新设置randomproxy.py中的代理地址url, 并重新分析实现updateIPs函数。