高家俊 3.15 css基础及选择器、requests的用法、bs4的用法
css基础
1.css:层叠样式表,简称样式、样式表,负责网页内容的布局和样式
2.css代码写在哪里
1)内联样式表:将css代码写在标签的style属性中;
2)内部样式表:将css代码写在style标签中;
3)外部样式表:将css代码写在css文件中,然后在html代码中用link标签导入。
3.css代码怎么写
css语法:
选择器{属性1:属性值1;属性2:属性值2;…}
注意:选择器是用来选中需要设置样式的标签
css选择器
1.元素选择器(标签选择器)- 将标签名作为选择器,选中所有的指定标签;
例如:a{} - 选中所有的a标签
2.id选择器 - 在id属性值前加#作为一个选择器,选中id属性值是指定值的标签,id是唯一;
例如:#a1{} - 选中id属性值为a1的标签
3.class选择器 - 在class属性值前加.作为一个选择器,选中class属性值是指定值的标签;
不同的标签可以有相同的class值,用一个标签可以有不同的class;
例如:.c1{} - 选中所有class属性值为c1的标签
4.群组选择器 - 将多个选择器用逗号隔开作为一个选择器,选中每个独立选择器选中的所有标签;
例如:p,.c1{} - 选中所有的p标签和所有class值为c1的标签
5.子代选择器 - 将多个选择器用>隔开作为一个选择器,前后必须是父子关系;
例如:div>#a1>.c1 - 选中div下面一个tad间距的id值是a1的标签下面一个tad间距的class值是c1的标签
6.后代选择器 - 将多个选择器用空格隔开作为一个选择器,前后是后代关系。
例如:div div a - 选中div下面的div下面的a标签
requests的用法
requests是Python用于网络请求的第三方库,也是爬虫获取网络数据的重要工具
1.向目标地址(网络地址)发送请求
以指定的方式给地址发送网络请求,返回值是服务器返回的响应对象。
语法:
requests.get(url, *, hesders, proxies, timeout)
参考说明:
url - 字符串;请求的网络地址,可能是目标网站的网站也可以是数据接口;
headers - 字典;请求头,用于配置浏览器设置user-agent、完成自动登录设置cookie;
proxies - 字典;设置代理ip;
timeout - 设置;设置超时时间。
2.获取响应头
print(返回的响应对象.headers)
3.设置响应的编码方式
返回的响应对象.encoding = ‘utf-8’
4.获取请求结果
1)获取字符串格式的结果
print(返回的响应对象.trxt)
2)获取二进制格式的结果
print(返回的响应对象.content)
3)获取json解析的结果
print(返回的响应对象.json)
bs4的用法
注意:安装第三方库的时候安装beautifulSoup4而不是bs4
1.创建BeautifulSoup对象
BeautifulSoup(html代码,'lxml') - 将html代码编译成BeautifulSoup对象
2.获取标签
1)基于整个网页获取标签
BeautifulSoup对象.select(css选择器) - 返回css选择器在整个网页中选中的所有标签;返回值是列表,列表中元素是标签对象;
BeautifulSoup对象.select_one(css选择器) - 返回css选择器在整个网页中选中的第一个标签,返回值是标签对象。
2)基于指定标签获取标签
标签对象.select(css选择器) - 在指定标签中按照选择器选中相关的标签
标签对象.select_one(css选择器) - 在指定标签中按照选择器选中相关的第一个标签
3.获取标签内容和标签属性值
1)获取标签内容
标签对象.text
2)获取标签属性
标签对象.attrs[属性名]










