Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】-侯体宗的博客

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】
Python / 管理员发布于 8年前 251

本文实例讲述了Python3实现爬取简书首页文章标题和文章链接的方法。分享给大家供大家参考，具体如下：

from urllib import requestfrom bs4 import BeautifulSoup #Beautiful Soup是一个可以从HTML或XML文件中提取结构化数据的Python库#构造头文件，模拟浏览器访问url="http://www.jianshu.com"headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36'}page = request.Request(url,headers=headers)page_info = request.urlopen(page).read().decode('utf-8')#打开Url,获取HttpResponse返回对象并读取其ResposneBody# 将获取到的内容转换成BeautifulSoup格式，并将html.parser作为解析器soup = BeautifulSoup(page_info, 'html.parser')# 以格式化的形式打印html#print(soup.prettify())titles = soup.find_all('a', 'title')# 查找所有a标签中class='title'的语句'''''# 打印查找到的每一个a标签的string和文章链接  for title in titles:    print(title.string)    print("http://www.jianshu.com" + title.get('href'))'''#open()是读写文件的函数,with语句会自动close()已打开文件with open(r"D:\articles.txt","w") as file:    #在磁盘以只写的方式打开/创建一个名为 articles 的txt文件  for title in titles:    file.write(title.string+'\n')    file.write("http://www.jianshu.com" + title.get('href')+'\n\n')

本机测试运行结果如下：

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

上一条：
Python3爬虫学习入门教程
下一条：
python绘制散点图并标记序号的方法

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top