爬虫正则表达式遇到的困难

阅读 177

2022-07-12



我观察数据大多存放在<p>标签里面。现在如果能够去掉p标签的同时。保留住<img>标签就好啦。
【感觉要用正则表达式】
我拿出这两个链接,你可以看看:

 


爬虫正则表达式遇到的困难_单引号

<p><img alt="" class="has" height="449" src="https://img-blog.csdnimg.cn/20190403103117694.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0RhcmtIUQ==,size_16,color_FFFFFF,t_70" width="738" /></p>

 

主要就是,既要保留img标签里面的图片链接。又要去掉所有的其他标签、

查找来筛选:


结果有一个双引号。【虽然留着也可以】

但是,我并不想保留。

 

头大了好久,终于看到了一个用单引号包裹着的。

于是,我就想试试。结果成功了!

p = re.findall('src="(.*?)"/>', str(p))#匹配!

 


精彩评论(0)

0 0 举报