我观察数据大多存放在<p>标签里面。现在如果能够去掉p标签的同时。保留住<img>标签就好啦。
【感觉要用正则表达式】
我拿出这两个链接,你可以看看:
<p><img alt="" class="has" height="449" src="https://img-blog.csdnimg.cn/20190403103117694.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L0RhcmtIUQ==,size_16,color_FFFFFF,t_70" width="738" /></p>
主要就是,既要保留img标签里面的图片链接。又要去掉所有的其他标签、
查找来筛选:
结果有一个双引号。【虽然留着也可以】
但是,我并不想保留。
头大了好久,终于看到了一个用单引号包裹着的。
于是,我就想试试。结果成功了!
p = re.findall('src="(.*?)"/>', str(p))#匹配!