0
点赞
收藏
分享

微信扫一扫

【爬虫软件】用python开发的油管博主达人批量采集工具,含国家、邮箱等

一、背景分析

1.1 开发背景

爬取目标: 油管博主

As everyone knows,YouTube(以下简称油管)是全世界最大的视频社交平台,拥有上亿的用户群体和海量日活用户。尤其是平台上来自各个国家地区的达人博主,蕴含着巨大的商业价值。通过收集油管的用户数据,客户可以更深入地了解达人博主的最新动向和商业价值,从而更有效地助力业务合作。 因此,我用python开发了一个爬虫采集工具,叫"爬油管博主软件",下面详细介绍。

1.2 软件界面

软件界面,如下: 软件运行中截图

1.3 结果展示

爬取结果1:(字段太多,可能看不清) 爬取结果抽查

爬取结果2:(清晰版)

https://docs.qq.com/sheet/DVEFhZlFKR1NXVEdN?tab=ht1er

1.4 演示视频

软件运行过程演示,小破站视频:BV147B1YkEn8

1.5 软件说明

几点重要说明,请详读了解:

  1. Windows用户可直接双击打开exe使用,无需Python运行环境,非常方便!
  2. 软件通过模拟浏览器爬取,能有效规避对端反爬
  3. 支持筛选:国家地区(多)和粉丝数范围
  4. 支持多个的设置项有:搜索关键词、国家地区
  5. 爬取过程中,每爬一条,存一次csv。并非爬完最后一次性保存,防止因异常中断导致丢失前面的数据(每条间隔1~2s)
  6. 爬取过程中,有log文件详细记录运行过程,方便回溯
  7. 爬取过程中,博主筛选同时进行。并非全部博主爬完再一次性筛选,所以效率较高!
  8. 博主csv含16个核心字段:搜索关键词,视频标题,视频链接,当前视频播放数,博主名称,博主链接,国家,telegram链接,whatsapp链接,twitter链接,facebook链接,instagram链接,粉丝数,视频总数,总观看次数,邮箱

二、主要技术

软件全部模块采用python语言开发,主要分工如下:

tkinter:GUI软件界面  
selenium:爬虫请求
json:解析响应数据
csv:保存csv结果、数据清洗
logging:日志记录

出于版权考虑,暂不公开源码,仅向用户提供软件使用。

三、功能介绍

3.1 配置chromedriver

开始采集前,先安装最新版Chrome浏览器,再配置对应版本的chromedriver驱动:

chromedriver下载说明:https://docs.qq.com/doc/DVFZNdk91eGV0cVRH

3.2 采集软件

配置好chromedriver后,打开youtube_user.exe软件,登录用户: 软件登录界面

并在主界面填写爬取条件: 设置爬取条件

点击开始执行按钮进行采集。

四、爬取逻辑

软件爬取流程图,如下: 流程图.png

五、软件首发

【爬油管博主软件】首发于公众号【老男孩的平凡之路】,欢迎交流!

举报

相关推荐

0 条评论