在laravel中使用Symfony的Crawler组件分析HTML-侯体宗的博客

在laravel中使用Symfony的Crawler组件分析HTML
Laravel / 管理员发布于 9年前 339

Crawler全名是DomCrawler，是Symfony框架的组件。令人发指的是DomCrawler的没有中文文档，Symfony也没有翻译该部分，所以使用DomCrawler开发只能一点一点摸索，现将使用过程中的经验总结。

首先是安装

composer require symfony/dom-crawlercomposer require symfony/css-selector

css-seelctor 是 css选择器，用css选择节点时一些函数会用到

手册里面使用的例子是

use Symfony\Component\DomCrawler\Crawler;$html = <<<‘HTML‘Hello World!Hello Crawler!HTML;$crawler = new Crawler($html);foreach ($crawler as $domElement){var_dump($domElement->nodeName);}

打印的结果是

string ‘html‘ (length=4)

因为这段html代码的nodeName就是html，英语不好，开始使用的时候还以为程序错了。。。

实际使用过程，如果new Crawler($html)会出现乱码问题，应该是与页面编码有关，所以可以采用下面的方式，先初始化crawler，然后添加node

$crawler = new Crawler();$crawler->addHtmlContent($html);

addHtmlContent的第二个参数是charset，默认是utf-8。

其他例子可以参考官方文档，http://symfony.com/doc/current/components/dom_crawler.html

记录一下工作中一点点试出来的用法

filterXPath(string $xpath) 方法，按照手册上的说法，该方法的参数是$xpath，经常用的是p，div等块。

echo $crawler->filterXPath(‘//body/p‘)->text();echo $crawler->filterXPath(‘//body/p‘)->last()->text();

输出是第一个和下一个p标签块的文本

var_dump($crawler->filterXPath(‘//body‘)->html());

输出body内的html

foreach ($crawler->filterXPath(‘//body/p‘) as $i => $node) {$c = new Crawler($node);echo $c->filter(‘p‘)->text();}

filterXPath获得的是DOMElement块的数组，每个DOMElement块可以使用新的crawler对象继续解析

$nodeValues =$crawler->filterXPath(‘//body/p‘)->each(function (Crawler $node, $i) {return $node->text();});

crawler提供了each循环，使用闭包函数简化代码，不过注意的是，这种写法$nodeValues得到的是数组，需要进一步处理。

其他用法

echo $crawler->filterXPath(‘//body/p‘)->attr(‘class‘);

可以获得第一个p标签对应class属性的值“message”

$crawler->filterXPath(‘//div[@class="样式"]‘)->filter(‘a‘)->attr(‘href‘);$crawler->filterXPath(‘//div[@class="样式"]‘)->filter(‘a>img‘)->extract(array(‘alt‘, ‘href‘))

以上是获得标签属性的一些方法

filter和filterXPath不同，手册上写的是css选择器，不太明白，我理解是div这种XPath节点包含的元素，具体情况还需要在实际开发中去尝试。

总的来说感觉DomCrawler要比simple html dom好用一些，可能是我用的比较浅显。

上述只是Crawler的基本功能，更过用法请查阅symfony手册关于Crawler部分的函数

http://api.symfony.com/3.2/Symfony/Component/DomCrawler/Crawler.html

Crawler主要问题还是示例太少，函数手册里面没有使用实例，只能在实际使用中去摸索。。。。

symfony关于DomCrawler的文档，里面有少数例子

http://symfony.com/doc/current/components/dom_crawler.html

以上所述是小编给大家介绍的在laravel中使用Symfony的Crawler组件分析HTML，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对站的支持！

您可能感兴趣的文章:

laravel+vue组合的项目中引入ueditor方式(打包成组件形式)
Laravel框架中扩展函数、扩展自定义类的方法
PHP框架Laravel插件Pagination实现自定义分页
laravel通过创建自定义artisan make命令来新建类文件详解
Laravel中重写资源路由自定义URL的实现方法
Laravel Validator自定义错误返回提示消息并在前端展示
Laravel认证原理以及完全自定义认证详解
关于Laravel-admin的基础用法总结和自定义model详解
Laravel5.5以下版本中如何自定义日志行为详解
laravel框架学习笔记之组件化开发实现方法

上一条：
详解如何在云服务器上部署Laravel
下一条：
Laravel给生产环境添加监听事件（SQL日志监听）

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

相关文章
Laravel 11.15版本发布 - Eloquent Builder中添加的泛型(0个评论)
Laravel 11.14版本发布 - 新的字符串助手和ServeCommand改进(0个评论)
Laravel 11.12版本发布 - Artisan的`make`命令自动剪切`.php `扩展(0个评论)
Laravel的轻量型购物车扩展包:binafy/laravel-cart(37个评论)
Laravel 11.11版本发布 - 查看模型中的第三方关系：show(0个评论)

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top