0
点赞
收藏
分享

微信扫一扫

Spider based on scrapy


Spider based on scrapy

Overview

Spider based on scrapy is create for crawl useful information.

Structure

  1. Needs
  2. Usage
  3. Note

Needs

  • ​​python​​
  • ​​scrapy​​
  • ​​pymongo​​
  • ​​MongoDB​​

Usage

1.开启mongodb 服务器 sudo or not.
$sudo mongod
$password:

OR
$mongod

​​JOBDIR​​ Jobs: pausing and resuming crawls.

2.在含有.cfg文件的目录下,输入以下命令, 
$scrapy crawl doubanSpider -s JOBDIR=crawls/doubanisbnSpider -s MONGODB_DB=douban -s MONGODB_COLLECTION=books


3.开启mongo客户端
$mongo
>show dbs
>use amazon
>show collections # collections相当于mysql里面的tables
>db.books.find() # 查看books中的所有书籍信息


4 关闭mongo客户端
>use admin # 切换数据库
>db.shutdownServer() # 关闭服务器
>exit # 退出客户端

Note

  • ‘.idea’文件夹是我用Pycharm创建工程时,自动生成的工程配置信息。
  • ‘.UserAgentString.json’文件里面包含有9502个​​PC浏览器​​代理信息和512个​​Mobile浏览器​​代理信息。
  • 默认启用​​Crawlera​​Proxy服务, 需要自己设置 CRAWLERA_USER 的值。(具体如何设置CRAWLERA_USER,请参考官网)
  • GoogleCache和RandomUserAgent, 参考​​gnemoug​​
  • RandomProxy 参考​​aivarsk​​.
  • 我对RandomUserAgent和RandomProxy做了相应的修改。如果,启用RandomProxy, 请重新设置randomproxy.py中的代理地址url, 并重新分析实现updateIPs函数。


举报

相关推荐

0 条评论