标题 python爬虫工作的前期准备
Python的一个主要功能就是网络爬虫,网络爬虫同时也是大数据的一个重要环节,信息收集整理工作如果全是手工完成,任务量是无法想象的,网络爬虫很好的解决了人机交互的问题。
首先,我们要对网络爬虫有一个大概的了解,网络爬虫(又称为网页蜘蛛,网络机器人,网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。从名字可以看出 ,主要特点是自动化搜集数据并粗加工处理数据。
那么,要使用爬虫需要做一些前期的准备工作,都需要哪些准备工作呢?
首先,需要两个及以上的不同种类的浏览器,每个浏览器都有自己的独特的ua,也就是表头,由于爬虫的高效率(通常单机爬虫不可怕,可怕的是分布式爬虫,可以在短时间内瘫痪网站,从而造成正常用户无法使用网站的服务,因此很多网站有各种各样的反爬虫策略,表头判断是网站常用的一种反爬策略)。而多种多样的表头是有效防止反爬策略的一种方法,。
其次,可能需要一个数据库,可以是分布式的,如果爬取的数据量巨大,通常使用MySQL和Redis将数据固化后,进行后期的处理工作。
第三,Python网络编程的的环境,通常,在Linux下需要pyenv做Python环境控制,也就是一个爬虫项目一个Python环境,方便管理项目以及后期的维护项目。在Windows下,通常使用pycharm,这个IDE自带环境控制,也就是说,环境控制可以很好的分隔没一个项目。举例说明,比如。有的爬虫项目需要urllib模块,有的只需要request模块,而有的爬虫项目可能需要scrapy框架来迅速开发。
第四,从技术角度来说,需要比较强的正则表达式,能灵活的指示爬虫需要爬取的目标,当然,也有很多工具,比如,lxml,beautiful soup。
俗话说,工欲善其事必先利其器,如果,准备工作都不想做,那么必定无法学习好爬虫。加油吧!!