0
点赞
收藏
分享

微信扫一扫

学会这几行代码,白嫖所有vip电影-多线程-爬取

python爬虫

爱看影视

40行代码爬取vip电影

超凡蜘蛛侠

公众号回复 爱看影视 获取源代码


打开网站,打开一个视频,按f12打开开发者模式

点击网络,然后刷新页面,再点击xhr

可以看到有很多的.ts文件

这就是m3u8格式

m3u8格式就是把视频分割成好多的.ts文件,每个.ts文件只有几秒

播放完整视频只需要连续播放.ts文件就可以了


学会这几行代码,白嫖所有vip电影-多线程-爬取_正则

所以我只需要把每个.ts文件下载下来再合并就可以了

每个.ts文件的请求url都是有序号的

从0000开始

学会这几行代码,白嫖所有vip电影-多线程-爬取_公众号_02

再看这个文件里,它包含了所有的ts请求url的最后的序号

我们把它复制下来到一个txt里

学会这几行代码,白嫖所有vip电影-多线程-爬取_公众号_03


开始写代码

打开这个txt

读取信息,然后用re正则来提取序号

学会这几行代码,白嫖所有vip电影-多线程-爬取_开发者模式_04


然后开始访问下载

一共有一千多个ts文件,一个一个下载太慢了

所以这里用线程池,开了500个线程

然后已二进制的形式保存

访问的时候带上了一个timeout=30

因为有的可能下载的慢,所以需要多等等

学会这几行代码,白嫖所有vip电影-多线程-爬取_正则_05

学会这几行代码,白嫖所有vip电影-多线程-爬取_正则_06

学会这几行代码,白嫖所有vip电影-多线程-爬取_开发者模式_07


然后再把这些片段合并成一个完整的视频

先按照列表读取每一个文件的二进制,然后再追加到一个.mp4文件里

学会这几行代码,白嫖所有vip电影-多线程-爬取_公众号_08

查看效果

学会这几行代码,白嫖所有vip电影-多线程-爬取_公众号_09

没问题

公众号回复 爱看影视 获取源代码

代码仅供学习参考



举报

相关推荐

0 条评论