laravel+Guzzle配合正则实现爬虫功能爬取或批量爬取网站数据-侯体宗的博客

laravel+Guzzle配合正则实现爬虫功能爬取或批量爬取网站数据
Laravel / 管理员发布于 6年前 3841

laravel+Guzzle配合正则爬取或批量爬取网站数据；

思路：模拟请求url,把页面数据通过正则处理保存有用的数据存入数据库或文件

请求url：http://www.zongscan.com/demo333/178.html 用我博客里面的一篇文章测试

看看html

//Guzzle 简单爬取数据
$url = "http://www.zongscan.com/demo333/178.html";
$request = new GuzzleRequest('GET', $url);
$client = new \GuzzleHttp\Client();
$response = $client->send($request, ['timeout' => 5]);
//获取页面数据
$content = $response->getBody()->getContents();
// 通过 preg_replace 函数使页面源码由多行变单行
$htmlOneLine = preg_replace("/\r|\n|\t/","",$content);
//获取这个标签及里面的内容
preg_match("/<div class=\"jumbotron\">(.*)<\/div>/iU",$htmlOneLine,$titleArr);
$a = $titleArr[0];
//如果想要把html标签清掉就用strip_tags() 自己去发挥
dd( $a );
//拿到这数据就可以自己操作了 比如存数据库就拼sql...

最后如果要批量爬取的话可以封装个方法循环添加id爬取，可能你有其他的方式curl等等...

上一条：
PHP函数strtr,对自己的网站文章或评论等内容做敏感字转换成星星(**)代替
下一条：
很久以前刚学php的时候写的中文验证码功能分享一下

2条评论 (评论内容有缓存机制,请悉知!)

最新最热

相关文章
Laravel 11.15版本发布 - Eloquent Builder中添加的泛型(0个评论)
Laravel 11.14版本发布 - 新的字符串助手和ServeCommand改进(0个评论)
Laravel 11.12版本发布 - Artisan的`make`命令自动剪切`.php `扩展(0个评论)
Laravel的轻量型购物车扩展包:binafy/laravel-cart(37个评论)
Laravel 11.11版本发布 - 查看模型中的第三方关系：show(0个评论)

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top