准备工作
- 安装google浏览器;
- 查看csdn等博客相关页面的源码;
- 安装python3以上版本;
- 安装python3相关库及浏览器驱动;
python及库安装
修改源
临时修改pip源
- 安装命令
# 默认使用国外pip源
pip install 库名
# 指定pip源,加上参数-i和镜像地址
pip install 库名 -i https://mirrors.aliyun.com/pypi/simple/
- 升级命令
# 默认使用国外pip源
pip install --upgrade 库名
# 指定pip源,加上参数-i和镜像地址
pip install --upgrade 库名 -i https://mirrors.aliyun.com/pypi/simple/
Linux环境下永久修改pip源
- 建pip配置文件目录:
mkdir /root/.pip
- 编辑pip配置文件,这里以aliyun目录为例来说明:
vi /root/.pip/pip.conf
[global]
index-url=http://mirrors.aliyun.com/pypi/simple/
[install]
trusted-host=mirrors.aliyun.com
Windows环境下永久修改pip源
- 需修改这个文件:%APPDATA%\pip\pip.ini(C:\Users\qxhgd\AppData\Roaming\pip\pip.ini)
和爬虫相关的库及驱动
以下这些不一定都用上,根据需要选用。
请求库
- fake_useragent:可以伪装生成headers请求头中的User Agent值;
- urllib、urllib3:python自带库;
- mechanize:是对urllib2的部分功能的替换,能够更好的模拟浏览器行为,在web访问控制方面做得更全面。
- requests:可代替urllib、urllib2等;
- aiohttp:基于asyncio实现的HTTP框架;
- Selenium:自动化测试工具,可以驱动浏览器执行特定动作;
- chrome及chrome驱动:用于对接Selenium,具体可见参考资料部分;
- splinter:依靠Cython、lxml、selenium这三个软件,默认对接firefox浏览器,其他浏览器需要安装驱动;对已有的自动化工具(如:Selenium、PhantomJS和zope.testbrowser)进行抽象,形成一个全新的上层应用API
- PhantomJS:PhantomJS是一个基于webkit的JavaScript API。它使用QtWebKit作为它核心浏览器的功能,使用webkit来编译解释执行JavaScript代码。任何你可以在基于webkit浏览器做的事情,它都能做到。
解析库
- re模块:python自带,不需要安装;
- lxml:支持HTML和XML的解析: pip3 install lxml
- html5lib:纯 Python 实现的 html5lib , html5lib 的解析方式与浏览器相同
- Beautiful Soup:支持HTML和XML的解析: pip3 install beautifulsoup4
- pyquery:jQuery语法解析HTML文档和CSS选择器: pip3 install pyquery
- tesserocr:验证码识别: sudo apt-get intall -y tesserocr-ocr libtesserocr-dev libleptonica-dev
使用chrome查看网页源码
- 在网页空白处鼠标右键,然后点view page source(或查看网页源代码)。即可查看源代码。
- 在浏览器中,在网址前加上view-source:即可,如:
- 开发者工具:
– 按F12
– 菜单:三个点—>更多工具->开发者工具
– 选中某一元素,右键检查(这点在爬虫开发中尤为有用)
有了以上准备工作,接下来就可以开始爬虫相关的开发了。
参考资料
- selenium各版本下载地址
- ChromeDriver各版本下载地址1
- ChromeDriver各版本下载地址2
- Chrome各版本下载地址
如本文对你有些许帮助,欢迎打赏:
支付宝及微信打赏方式