学习爬虫第五天-CFANZ编程社区

学习爬虫第五天

#bs4解析
#对html的初步理解 标记语言，标签，属性，属性值
#<标签 属性=“属性值”> 被标记内容</标签>
#<标签 />
#img src ="xxx.jpg"/>   自带闭合
import requests
from bs4 import BeautifulSoup

url="http://www.xinfadi.com.cn/priceDetail.html"
resp=requests.get(url)
#print(resp.text)
#用BeautifulSoup处理页面源代码，生成bs对象
page = BeautifulSoup(resp.text,"html.parser")#指定html解析器
#从page中查找数据
#find(标签,属性=值) 只找第一个
#find_all(标签,属性=值)  找全部
table=page.find("table",class_="hq_table")
print(table)
trs = table.find_all("td")[1:]  #做切片
for tr in trs:
    tds = tr.find_all("td")#拿到行中所有的td
    name=tds[0].text#.text标识拿到被标签标记的内容

0 条评论