侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

PHP写微信公众号文章页采集方法

微信(小程序)  /  管理员 发布于 7年前   278

通过搜狗搜索采集公众号历史消息有几个问题:

1、有验证码;

2、历史消息列表只有最近10条群发内容;

3、文章地址是有有效期的;

4、据说批量采集还要换ip;

通过我前面文章的方法就没有这些问题,虽然采集系统搭建不如传统采集器写个规则去爬就可以了那么简单。但是一次搭建好之后批量采集的效率还是可以的。而且采集的文章地址是永久有效的,并且可以采集到一个公众号所有的历史消息。
我们还是从一个公众号文章的链接地址开始看:

1、从微信右上角菜单复制到的链接地址:

http://mp.weixin.qq.com/s/fF34bERZ0je_8RWEJjoZ5A

2、历史消息列表中获取到的地址:

http://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=4#wechat_redirect

3、完整的真实地址:

https://mp.weixin.qq.com/s?__biz=MjM5NDAwMTA2MA==&mid=2695729619&idx=1&sn=8be0b6bd0210cee0d492ebdf20f7371f&chksm=83d74818b4a0c10ef286b33bb7deb73226125f866ddb5b2781166066a69afef3705eabdb3b85&scene=37&key=c81d77271180a0e6ce32be2d9dcaa2a7436aeba2c1d47a20d02194d1c944a8286a8eded93495eeadd05da412bbfaa638a379750aeaa4cf5c00e4d7851c5710d9b9736b80e3c72770a57a515c23ff2400&ascene=3&uin=MzUyOTIyNQ%3D%3D&devicetype=iOS10.1.1&version=16050120&nettype=WIFI&fontScale=100&pass_ticket=FGRyGfXLPEa4AeOsIZu7KFJo6CiXOZex83Y5YBRglW4%3D&wx_header=1

以上这3个地址是同一篇文章的地址,在不同位置获取到就得到了完全不同的3个结果。

和历史消息页一样,微信有一套自动补充参数的机制。第一个地址是复制链接得到的,看起来是一个伪装的编码。其实没什么用我们不做考虑了。第二个地址是通过前面文章介绍的方法,从历史消息的json文章列表中获得到的链接地址,我们就是可以将这个地址保存到数据库中。之后就可以通过这个地址从服务器获取到文章内容。而第三个链接补充了参数之后,目的是为了让文章页面中的阅读量js可以获取到阅读量点赞量的json结果而加上的参数。我们前面文章的方法中因为文章页面被客户端打开显示了出来,因为有了这些参数,文章页面中的js就去自动获取阅读量了,所以我们才能通过代理服务获取到这篇文章的阅读量。

这篇文章的内容就是以通过本专栏前面文章介绍的方法已经获取到了大量微信文章的基础上,详细研究如何获取到文章内容和其它一些有用的信息的方法。

(我的数据库中保存的文章列表,一部分字段)

1、获取文章源代码:

通过php的函数file_get_content()就可以将文章源代码读取到变量中。微信文章的源代码因为可以从浏览器中打开所以我就不在这里粘贴了,以免浪费页面空间。

2、源代码中有用的信息:

1)原文内容:

原文内容是包含在一个

标签中的,通过php代码获取:

(.*)
								
  • 分类目录
  • 人生(杂谈)
  • 技术
  • linux
  • Java
  • php
  • 框架(架构)
  • 前端
  • ThinkPHP
  • 数据库
  • 微信(小程序)
  • Laravel
  • Redis
  • Docker
  • Go
  • swoole
  • Windows
  • Python
  • 苹果(mac/ios)
  • 相关文章
  • 微信模板消息改版后发送规则记录(微信订阅消息参数值内容限制说明)(1个评论)
  • 微信支付v3对接所需工具及命令(0个评论)
  • 2023年9月1日起:微信小程序必须备案才能上线运营(0个评论)
  • 腾讯官方客服回应了:微信好友上限约10000个!(1个评论)
  • 2023年做微信小程序的老铁注意:新增收费项、微信小程序获取手机号也收费了(2个评论)
  • 近期文章
  • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
  • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
  • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
  • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
  • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
  • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
  • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
  • Laravel从Accel获得5700万美元A轮融资(0个评论)
  • 在go + gin中gorm实现指定搜索/区间搜索分页列表功能接口实例(0个评论)
  • 在go语言中实现IP/CIDR的ip和netmask互转及IP段形式互转及ip是否存在IP/CIDR(0个评论)
  • 近期评论
  • 122 在

    学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
  • 123 在

    Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
  • 原梓番博客 在

    在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
  • 博主 在

    佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
  • 1111 在

    佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
  • 2016-10
  • 2017-10
  • 2018-01
  • 2020-03
  • 2021-06
  • 2021-10
  • 2022-03
  • 2023-02
  • 2023-06
  • 2023-07
  • 2023-08
  • 2023-10
  • 2023-11
Top

Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

侯体宗的博客