侯体宗的博客
  • 首页
  • Hyperf版
  • beego仿版
  • 人生(杂谈)
  • 技术
  • 关于我
  • 更多分类
    • 文件下载
    • 文字修仙
    • 中国象棋ai
    • 群聊
    • 九宫格抽奖
    • 拼图
    • 消消乐
    • 相册

python书籍信息爬虫实例

Python  /  管理员 发布于 7年前   238

python书籍信息爬虫示例,供大家参考,具体内容如下

背景说明

需要收集一些书籍信息,以豆瓣书籍条目作为源,得到一些有效书籍信息,并保存到本地数据库。

获取书籍分类标签

具体可参考这个链接:
https://book.douban.com/tag/?view=type

然后将这些分类标签链接存到本地某个文件,存储内容如下

https://book.douban.com/tag/小说https://book.douban.com/tag/外国文学https://book.douban.com/tag/文学https://book.douban.com/tag/随笔https://book.douban.com/tag/中国文学https://book.douban.com/tag/经典https://book.douban.com/tag/日本文学https://book.douban.com/tag/散文https://book.douban.com/tag/村上春树https://book.douban.com/tag/诗歌https://book.douban.com/tag/童话......

获取书籍信息,并保存本地数据库

假设已经建好mysql表,如下:

CREATE TABLE `book_info` ( `id` int(11) NOT NULL AUTO_INCREMENT, `bookid` varchar(64) NOT NULL COMMENT 'book ID', `tag` varchar(32) DEFAULT '' COMMENT '分类目录', `bookname` varchar(256) NOT NULL COMMENT '书名', `subname` varchar(256) NOT NULL COMMENT '二级书名', `author` varchar(256) DEFAULT '' COMMENT '作者', `translator` varchar(256) DEFAULT '' COMMENT '译者', `press` varchar(128) DEFAULT '' COMMENT '出版社', `publishAt` date DEFAULT '0000-00-00' COMMENT '出版日期', `stars` float DEFAULT '0' COMMENT '评分', `price_str` varchar(32) DEFAULT '' COMMENT '价格string', `hotcnt` int(11) DEFAULT '0' COMMENT '评论人数', `bookdesc` varchar(8192) DEFAULT NULL COMMENT '简介', `updateAt` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP COMMENT '修改日期', PRIMARY KEY (`id`), UNIQUE KEY `idx_bookid` (`bookid`), KEY `idx_bookname` (`bookname`), KEY `hotcnt` (`hotcnt`), KEY `stars` (`stars`), KEY `idx_tag` (`tag`)) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='书籍信息';

并已实现相关爬虫逻辑,主要用到了BeautifulSoup包,如下:

#!/usr/bin/python# coding: utf-8import reimport loggingimport requestsimport pymysqlimport randomimport timeimport datetimefrom hashlib import md5from bs4 import BeautifulSouplogging.basicConfig(level=logging.INFO,     format='[%(levelname)s][%(name)s][%(asctime)s]%(message)s',     datefmt='%Y-%m-%d %H:%M:%S')class DestDB: Host = "192.168.1.10" DB = "spider" Table = "book_info" User = "test" Pwd = "123456"def connect_db(host, db, user, pwd): conn = pymysql.connect(  host=host,  user=user,  passwd=pwd,  db=db,  charset='utf8',  connect_timeout=3600) #,#  cursorclass=pymysql.cursors.DictCursor) conn.autocommit(True) return conndef disconnect_db(conn, cursor): cursor.close() conn.close()#提取评价人数,如果评价人数少于10人,按10人处理def hotratings(person): try:  ptext = person.get_text().split()[0]  pc = int(ptext[1:len(ptext)-4]) except ValueError:  pc = int(10) return pc# 持久化到数据库def save_to_db(tag, book_reslist): dest_conn = connect_db(DestDB.Host, DestDB.DB, DestDB.User, DestDB.Pwd) dest_cursor = dest_conn.cursor() isql = "insert ignore into book_info " isql += "(`bookid`,`tag`,`author`,`translator`,`bookname`,`subname`,`press`," isql += "`publishAt`,`price_str`,`stars`,`hotcnt`,`bookdesc`) values " isql += ",".join(["(%s)" % ",".join(['%s']*12)]*len(book_reslist)) values = [] for row in book_reslist:  # 暂时将md5(bookname+author)作为bookid唯一指  bookid = md5(("%s_%s"%(row[0],row[2])).encode('utf-8')).hexdigest()  values.extend([bookid, tag]+row[:10]) dest_cursor.execute(isql, tuple(values)) disconnect_db(dest_conn, dest_cursor)# 处理每一次访问的页面def do_parse(tag, url): page_data = requests.get(url) soup = BeautifulSoup(page_data.text.encode("utf-8"), "lxml") # 提取标签信息 tag = url.split("?")[0].split("/")[-1] # 抓取作者,出版社信息 details = soup.select("#subject_list > ul > li > div.info > div.pub") # 抓取评分 scores = soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.rating_nums") # 抓取评价人数 persons = soup.select("#subject_list > ul > li > div.info > div.star.clearfix > span.pl") # 抓取书名 booknames = soup.select("#subject_list > ul > li > div.info > h2 > a") # 抓取简介  descs = soup.select("#subject_list > ul > li > div.info > p") # 从标签信息中分离内容 book_reslist = [] for detail, score, personCnt, bookname, desc in zip(details, scores, persons, booknames, descs):  try:   subtitle = ""   title_strs = [s.replace('\n', '').strip() for s in bookname.strings]   title_strs = [s for s in title_strs if s]   # 部分书籍有二级书名   if not title_strs:    continue   elif len(title_strs) >= 2:    bookname, subtitle = title_strs[:2]   else:    bookname = title_strs[0]   # 评分人数   hotcnt = hotratings(personCnt)   desc = desc.get_text()   stars = float('%.1f' % float(score.get_text() if score.get_text() else "-1"))   author, translator, press, publishAt, price = [""]*5   detail_texts = detail.get_text().replace('\n', '').split("/")   detail_texts = [s.strip() for s in detail_texts]   # 部分书籍无译者信息   if len(detail_texts) == 4:    author, press, publishAt, price = detail_texts[:4]   elif len(detail_texts) >= 5:    author, translator, press, publishAt, price = detail_texts[:5]   else:    continue   # 转换出版日期为date类型   if re.match('^[\d]{4}-[\d]{1,2}', publishAt):    dts = publishAt.split('-')    publishAt = datetime.date(int(dts[0]), int(dts[1]), 1)   else:    publishAt = datetime.date(1000, 1, 1)   book_reslist.append([author, translator, bookname, subtitle, press,          publishAt, price, stars, hotcnt, desc])  except Exception as e:   logging.error(e) logging.info("insert count: %d" % len(book_reslist)) if len(book_reslist) > 0:  save_to_db(tag, book_reslist)  book_reslist = [] return len(details)def main(): with open("book_tags.txt") as fd:  tags = fd.readlines()  for tag in tags:   tag = tag.strip()   logging.info("current tag url: %s" % tag)   for idx in range(0, 1000000, 20):    try:     url = "%s?start=%d&type=T" % (tag.strip(), idx)     cnt = do_parse(tag.split('/')[-1], url)     if cnt < 10:      break     # 睡眠若干秒,降低访问频率     time.sleep(random.randint(10, 15))    except Exception as e:     logging.warn("outer_err: %s" % e)   time.sleep(300)if __name__ == "__main__": main()

小结

以上代码基于python3环境来运行;
需要首先安装BeautifulSoup: pip install bs4
爬取过程中需要控制好访问频率;
需要对一些信息进行异常处理,比如译者信息、评论人数等。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。


  • 上一条:
    Python实现替换文件中指定内容的方法
    下一条:
    python中字符串比较使用is、==和cmp()总结
  • 昵称:

    邮箱:

    0条评论 (评论内容有缓存机制,请悉知!)
    最新最热
    • 分类目录
    • 人生(杂谈)
    • 技术
    • linux
    • Java
    • php
    • 框架(架构)
    • 前端
    • ThinkPHP
    • 数据库
    • 微信(小程序)
    • Laravel
    • Redis
    • Docker
    • Go
    • swoole
    • Windows
    • Python
    • 苹果(mac/ios)
    • 相关文章
    • 在python语言中Flask框架的学习及简单功能示例(0个评论)
    • 在Python语言中实现GUI全屏倒计时代码示例(0个评论)
    • Python + zipfile库实现zip文件解压自动化脚本示例(0个评论)
    • python爬虫BeautifulSoup快速抓取网站图片(1个评论)
    • vscode 配置 python3开发环境的方法(0个评论)
    • 近期文章
    • 智能合约Solidity学习CryptoZombie第三课:组建僵尸军队(高级Solidity理论)(0个评论)
    • 智能合约Solidity学习CryptoZombie第二课:让你的僵尸猎食(0个评论)
    • 智能合约Solidity学习CryptoZombie第一课:生成一只你的僵尸(0个评论)
    • 在go中实现一个常用的先进先出的缓存淘汰算法示例代码(0个评论)
    • 在go+gin中使用"github.com/skip2/go-qrcode"实现url转二维码功能(0个评论)
    • 在go语言中使用api.geonames.org接口实现根据国际邮政编码获取地址信息功能(1个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf分页文件功能(0个评论)
    • gmail发邮件报错:534 5.7.9 Application-specific password required...解决方案(0个评论)
    • 欧盟关于强迫劳动的规定的官方举报渠道及官方举报网站(0个评论)
    • 在go语言中使用github.com/signintech/gopdf实现生成pdf文件功能(0个评论)
    • 近期评论
    • 122 在

      学历:一种延缓就业设计,生活需求下的权衡之选中评论 工作几年后,报名考研了,到现在还没认真学习备考,迷茫中。作为一名北漂互联网打工人..
    • 123 在

      Clash for Windows作者删库跑路了,github已404中评论 按理说只要你在国内,所有的流量进出都在监控范围内,不管你怎么隐藏也没用,想搞你分..
    • 原梓番博客 在

      在Laravel框架中使用模型Model分表最简单的方法中评论 好久好久都没看友情链接申请了,今天刚看,已经添加。..
    • 博主 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 @1111老铁这个不行了,可以看看近期评论的其他文章..
    • 1111 在

      佛跳墙vpn软件不会用?上不了网?佛跳墙vpn常见问题以及解决办法中评论 网站不能打开,博主百忙中能否发个APP下载链接,佛跳墙或极光..
    • 2016-10
    • 2016-11
    • 2018-04
    • 2020-03
    • 2020-04
    • 2020-05
    • 2020-06
    • 2022-01
    • 2023-07
    • 2023-10
    Top

    Copyright·© 2019 侯体宗版权所有· 粤ICP备20027696号 PHP交流群

    侯体宗的博客