php采集类 GitHub
QueryList是一个基于phpQuery的通用列表采集类,是一个简单、 灵活、强大的采集工具php采集类,采集任何复杂的页面基本上就一句话就能搞定了。
QueryList 安装
通过composer安
QueryList简介 QueryList是一个基于phpQuery的通用列表采集类,是一个简单、 灵活、强大的采集工具php采集类,采集任何复杂的页面基本上就一句话就能搞定了。 QueryList 安装 通过composer安装:
更多安装方法:QueryList多种安装方式 QueryList 使用 下面演示QueryList用一句代码采集百度搜索结果: array('h3','text'),'link'=>array('h3>a','href')));//输出结果:二维关联数组print_r($hj->data);"> //获取采集对象 $hj = QueryList::Query('http://www.baidu.com/s?wd=QueryList',array( 'title'=>array('h3','text'), 'link'=>array('h3>a','href') )); //输出结果:二维关联数组 print_r($hj->data); 上面的代码实现的功能是采集百度搜索结果页面的所有搜索结果的标题和链接,然后分别以二维关联数组的格式输出。 采集结果: Array([title] => QueryList|基于phpQuery的无比强大的PHP采集工具[link] => )[1] => Array([title] => 介绍- QueryList指导文档[link] => ) //省略....)">
Query() 静态方法 返回值:QueryList对象 Query方法为QueryList唯一的主方法,用静态的方式调用。 原型: QueryList::Query($page,array $rules, $range = '', $outputEncoding = null, $inputEncoding = null,$removeHead = false) 中文解释: array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]), '规则名2' => array('jQuery选择器','要采集的属性'[,"标签过滤列表"][,"回调函数"]),..........[,"callback"=>"全局回调函数"]);//注:方括号括起来的参数可选">
参数解释: 查看文档: QueryList 扩展 Request 网络操作扩展
Login 模拟登陆扩展
Multi 多线程插件
DImage图片下载扩展
扩展安装以及使用教程:QueryList扩展文档,获取更多扩展可以关注QueryList社区和交流群。 其它说明 1.QueryList内置的只是简单的源码抓取方法,遇到更复杂的抓取情况,如:需要登陆身份验证 时,请配合其它的PHP的HTTP工具(推荐使用Guzzle)来使用,通过将辅助的HTTP类抓取到的网页源码传给QueryList即可。 2.采集程序请在PHP命令行模式(PHP CLI)下运行。 3.QueryList依赖phpQuery,phpQuery项目主页:phpQuery文档 寻求帮助?Author Jaeger JaegerCode@gmail.com Lisence QueryList is licensed under the license of MIT. See the LICENSE for more details. (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |