论文解读：利用大模型进行基于上下文的OCR校正-CFANZ编程社区

论文解读：利用大模型进行基于上下文的OCR校正

芭芭蘑菇 2024-09-16 阅读 22

学习路线：爬虫基础知识-requests模块-数据提取-selenium-反爬与反反爬-MongoDB数据库-scrapy-appium。

对应视频链接(百度网盘)：正在整理中

爬虫基础知识：

1.爬虫的概念

总结：模拟浏览器，发送请求，获取响应。
2.爬虫的作用
        数据采集
        软件测试
        抢票
        网站上的投票
        网络安全
3.爬虫的分类
        数量
        是否获取数据
        url与数据的关系

4.爬虫的流程
        url
        发请求，获取响应
        解析

5.http复习
        http以及https的概念和区别
        HTTPSH比HTTP更安全，但是性能更低
6.常见的请求头与响应头
请求头
host                                         域名
Connection                                     长连接
Upgrade-Insecure-Requests 升级为HTTPS请求
***User-Agent                                 用户代理，提供系统信息和浏览器信息
***Referer 页面跳转处，防盗链(图片/视频)
***Cookie 状态保持
响应头 Set-Cookie
7.状态码
所有的状态码都不可信，一切以是否从抓包得到的响应中获取到数据为准
network中抓包得到的源码才是判断依据，elements中的源码是渲染之后的源码

8.浏览器请求的过程
发送所有请求，进行渲染
爬虫
只发送指定请求，不会渲染

骨骼文件：html静态文件
肌肉文件：js/ajax请求
皮肤：css/font/图片

源代码控制台所有源代码响应