0
点赞
收藏
分享

微信扫一扫

Thinkphp5与QueryList,实现采集(爬虫)页面功能


QueryList 是什么

QueryList是一套用于内容采集的PHP工具,它使用更加现代化的开发思想,语法简洁、优雅,可扩展性强。相比传统的使用晦涩的正则表达式来做采集,QueryList使用了更加强大而优雅的CSS选择器来做采集,大大降低了PHP做采集的门槛,同时也让采集代码易读易维护,让你从此告别晦涩难懂且不易维护的正则表达式?。


QueryList 提供的一整套内容采集解决方案

DOM内容选择:CSS选择器

HTTP客户端:GuzzleHTTP

内容过滤:CSS选择器

解决乱码:内置多套乱码解决方案

额外功能:丰富的扩展插件


前提

项目主要用thinkphp5框架,主要会用到`QueryList.php`和`phpQuery.php`这两个文件。我们可以切换到项目目录,extend里新建QL,然后在QL目录执行composer命令安装QueryList:

composer require jaeger/querylist

小例子:

//需要采集的目标页面
$page = 'http://cms.querylist.cc/news/566.html';
//采集规则
$reg = array(
//采集文章标题
'title' => array('h1','text'),
//


举报

相关推荐

0 条评论