PHP代码实现爬虫记录――超管用-侯体宗的博客

PHP代码实现爬虫记录――超管用
php / 管理员发布于 8年前 373

实现爬虫记录本文从创建crawler 数据库，robot.php记录来访的爬虫从而将信息插入数据库crawler,然后从数据库中就可以获得所有的爬虫信息。实现代码具体如下：

数据库设计

create table crawler  (   crawler_ID bigint() unsigned not null auto_increment primary key, crawler_category varchar() not null, crawler_date datetime not null default '-- ::', crawler_url varchar() not null, crawler_IP varchar() not null)default

以下文件 robot.php 记录来访的爬虫，并将信息写入数据库：

-) {  $Bot = "Other Crawler"; } if (strpos($agent,"googlebot")>-) {  $Bot = "Google"; }    if (strpos($agent,"mediapartners-google")>-) {  $Bot = "Google Adsense"; } if (strpos($agent,"baiduspider")>-) {  $Bot = "Baidu"; } if (strpos($agent,"sogou spider")>-) {  $Bot = "Sogou"; } if (strpos($agent,"yahoo")>-) {  $Bot = "Yahoo!"; } if (strpos($agent,"msn")>-) {  $Bot = "MSN"; } if (strpos($agent,"ia_archiver")>-) {  $Bot = "Alexa"; } if (strpos($agent,"iaarchiver")>-) {  $Bot = "Alexa"; } if (strpos($agent,"sohu")>-) {  $Bot = "Sohu"; } if (strpos($agent,"sqworm")>-) {  $Bot = "AOL"; } if (strpos($agent,"yodaoBot")>-) {  $Bot = "Yodao"; } if (strpos($agent,"iaskspider")>-) {  $Bot = "Iask"; } require("./dbinfo.php"); date_default_timezone_set('PRC');  $shijian=date("Y-m-d h:i:s", time()); // 连接到 MySQL 服务器 $connection = mysql_connect ($host, $username, $password); if (!$connection) {  die('Not connected : ' . mysql_error()); } // 设置活动的 MySQL 数据库 $db_selected = mysql_select_db($database, $connection); if (!$db_selected) {  die ('Can\'t use db : ' . mysql_error()); } // 向数据库插入数据 $query = "insert into crawler (crawler_category, crawler_date, crawler_url, crawler_IP) values ('$Bot','$shijian','$GetLocationURL','$serverip')"; $result = mysql_query($query); if (!$result) {  die('Invalid query: ' . mysql_error()); }?>

成功了，现在访问数据库即可得知什么时候哪里的蜘蛛爬过你的什么页面。

view sourceprint? num_rows($mysql -> query("select * from crawler"));$pages = new PageClass($count,,$_GET['page'],$_SERVER['PHP_SELF'].'?page={page}');$sql = "select * from crawler order by ";$sql .= "crawler_date desc limit ".$pages -> page_limit.",".$pages -> myde_size;$result = $mysql -> query($sql);?> fetch_array($result)){?>           爬虫访问时间     爬虫分类    爬虫IP    爬虫访问的URL   
 
     
 
 myde_write();?>

以上代码就是PHP代码实现爬虫记录――超管用的全部内容，希望对大家有所帮助。

您可能感兴趣的文章:

PHPCrawl爬虫库实现抓取酷狗歌单的方法示例
php与python实现的线程池多线程爬虫功能示例
利用php抓取蜘蛛爬虫痕迹的示例代码
PHP+HTML+JavaScript+Css实现简单爬虫开发
php实现简单爬虫的开发
PHP实现简单爬虫的方法
一个PHP实现的轻量级简单爬虫
php 向访客和爬虫显示不同的内容
php IIS日志分析搜索引擎爬虫记录程序
PHP一个简单的无需刷新爬虫

上一条：
PHP中filter函数校验数据的方法详解
下一条：
PHP 前加at符合@的作用解析

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

相关文章
Laravel从Accel获得5700万美元A轮融资(0个评论)
PHP 8.4 Alpha 1现已发布！(0个评论)
用Time Warden监控PHP中的代码处理时间(0个评论)
在PHP中使用array_pop + yield实现读取超大型目录功能示例(0个评论)
Property Hooks RFC在PHP 8.4中越来越接近现实(0个评论)

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top