Python爬虫实例_利用百度地图API批量获取城市所有的POI点-侯体宗的博客

Python爬虫实例_利用百度地图API批量获取城市所有的POI点
Python / 管理员发布于 8年前 288

上篇关于爬虫的文章，我们讲解了如何运用Python的requests及BeautifuiSoup模块来完成静态网页的爬取，总结过程，网页爬虫本质就两步：

1、设置请求参数（url，headers，cookies，post或get验证等）访问目标站点的服务器；

2、解析服务器返回的文档，提取需要的信息。

而API的工作机制与爬虫的两步类似，但也有些许不同：

1、API一般只需要设置url即可，且请求方式一般为“get”方式

2、API服务器返回的通常是json或xml格式的数据，解析更简单

也许到这你就明白了，API简直就是开放的“爬虫”呀，可以告诉你，基本就是这个意思。好的，言归正传，本篇我们就演示如何运用Python结合百度地图API来批量获取POI（兴趣点）。

所谓POI（兴趣点），指的是人们感兴趣，比较常去的地方，比如银行、医院、学校等，利用城市的POI的空间属性可以做非常多的事情，至于什么事情呢，此处省略10000字。。。

说干就干，Let's go!

（1）创建百度地图应用

访问百度地图API需要一个信令（AK）,打开百度地图开放平台，点击右上角“API控制台”，即进入了百度地图的开发界面。

选择“创建应用”-应用类型勾选“浏览器端”C勾选所用到的服务（一般全选即可），此时就创建好了应用账号，得到“AK”

（2）Place API 及Web服务API

打开百度地图API的POI模块，网址：http://lbsyun.baidu.com/index.php?title=webapi/guide/webservice-placeapi，这个页面详细介绍了Place API的请求参数及返回数据的情况。

可以看到，Place API 提供区域检索POI服务与POI详情服务。

1. 区域检索POI服务提供三种区域检索方法：

a.城市内检索（对应JavaScriptAPI的Search方法）

b.矩形检索（对应JavaScript API的SearchInBound方法）

c.圆形区域检索（对应JavaScript的SearchNearBy方法）。

2. POI详情服务提供查询单个POI的详情信息，如好评。

并给出了请求的一个示例，设置检索城市为北京，检索关键字为“饭店”，检索后返回10条数据：

http://api.map.baidu.com/place/v2/search?q=饭店®ion=北京&output=json&ak=您的AK

将上述url粘贴到浏览器里，返回的数据如下：

上图是将返回的json数据解析之后的结果，可以看到，服务器返回了10条北京市的饭店的信息，包括饭店名称、经纬度、地址、联系电话等。

具体的参数设置，自行去该网页去看吧，这里就不再赘述，这里我们主要利用“矩形检索”的方式来获取整个城市的特定POI信息，其url格式如下：

http://api.map.baidu.com/place/v2/search?query=美食&page_size=10&page_num=0&scope=1&bounds=39.915,116.404,39.975,116.414&output=json&ak={您的密钥}

通过实验可以发现，一个矩阵区域最多返回400(20*20)个POI点，即page_size = 20 & page_total = 20，虽然官方文档里说一个区域返回760+都不成问题的，但是测试了一下，发现并没有这么多，最多400个。

显然，整个城市不可能仅400个特定描述的POI点，所以我们需要对整个城市进行分片操作，然后每片进行访问，通过Python的循环实现。

（3）获取城市特定POI点集合

比如：我们想获取北京市四环以内所有饭店的信息，即可通过上述步骤借助Python快速实现，废话不多说，直接上代码：

# -*- coding: utf-8 -*-# Python 2.7# 提取城市的POI点信息并将其保存至MongoDB数据库import urllib2 import json from pymongo import MongoClientleft_bottom = [116.282387,39.835862]; # 设置区域左下角坐标（百度坐标系）right_top = [116.497405,39.996569]; # 设置区域右上角坐标（百度坐标系）part_n = 2; # 设置区域网格（2*2）client = MongoClient('localhost',27001)db = client.transdatadb.authenticate("user", "password")col = db.taxi; # 连接集合url0 = 'http://api.map.baidu.com/place/v2/search?';x_item = (right_top[0]-left_bottom[0])/part_n;y_item = (right_top[1]-left_bottom[1])/part_n;query = '饭店'; #搜索关键词设置ak = 'xxxxxxxxxxxxxxxxxxxxxx'; #百度地图api信令n = 0; # 切片计数器for i in range(part_n): for j in range(part_n): left_bottom_part = [left_bottom[0]+i*x_item,left_bottom[1]+j*y_item]; # 切片的左下角坐标 right_top_part = [right_top[0]+i*x_item,right_top[1]+j*y_item]; # 切片的右上角坐标 for k in range(20):  url = url0 + 'query=' + query + '&page_size=20&page_num=' + str(k) + '&scope=1&bounds=' + str(left_bottom_part[1]) + ',' + str(left_bottom_part[0]) + ','+str(right_top_part[1]) + ',' + str(right_top_part[0]) + '&output=json&ak=' + ak;   data = urllib2.urlopen(url);  hjson = json.loads(data.read());  if hjson['message'] == 'ok':  results = hjson['results'];    for m in range(len(results)): # 提取返回的结果   col.insert_one(results[m]); n += 1; print '第',str(n),'个切片入库成功'

执行为上述代码，运行结果如下：

可以看到，我们将北京市四环以内区域分成4个切片来进行处理，之所以分切片处理，主要是单个区域访问最多返回400个结果，当区域较大的时候，区域内往往不止400个，所以讲大区域进行切片处理，最后，我们通过数据聚合操作，发现返回的结果总共1014个。（理论上应该返回1600，实际返回1014，说明切片的数量是合适的）

好的，我们本篇的分享到这里就要结束了，最后只想说，API真的是个好东西，科学地使用它我们可以做出很多炫酷的应用，像现在比较活跃的数据型应用，其数据接口基本都是基于API形式的，后面的分享我们还会用到更多API的，大家一起期待吧，哈哈，今天就到这里了，各位回见。

上一条：
Python设计模式之命令模式简单示例
下一条：
Python之多线程爬虫抓取网页图片的示例代码

0条评论 (评论内容有缓存机制,请悉知!)

最新最热

近期文章
Claude Opus 4.8 正式发布，传闻:"Opus 4.8可能是蒸馏的Mythos!"(0个评论)
OpenAI GPT-5.5正式发布：更会编程和使用计算机的最强模型!(0个评论)
opencode AI智能体自主规划开发游戏:王者荣耀模拟战游戏初体验!英雄角色开发中...(0个评论)
opencode AI智能体自主规划开发游戏:王者荣耀模拟战游戏初体验!(0个评论)
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus(0个评论)
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用(0个评论)
Apifox桌面端被曝遭供应链投毒：CDN 脚本被篡改，窃取 SSH 密钥与 Git 凭证(0个评论)
在go语言中实现字符串可逆性压缩及解压缩功能(0个评论)
使用go + gin + jwt + qrcode实现网站生成登录二维码在app中扫码登录功能(0个评论)
在windows10中升级go版本至1.24后LiteIDE的Ctrl+左击无法跳转问题解决方案(0个评论)

近期评论
test1 在
opencode + Oh-my-openagent,我的第一个免费的ai编程智能体管家:Sisyphus中评论 test..
122 在
学历：一种延缓就业设计，生活需求下的权衡之选中评论工作几年后，报名考研了，到现在还没认真学习备考，迷茫中。作为一名北漂互联网打工人..
Zita 在
Google AI Studio升级全栈 vibe coding体验，可直接构建带登录和数据库的应用中评论 111222..
123 在
Clash for Windows作者删库跑路了，github已404中评论按理说只要你在国内，所有的流量进出都在监控范围内，不管你怎么隐藏也没用，想搞你分..
原梓番博客在
在Laravel框架中使用模型Model分表最简单的方法中评论好久好久都没看友情链接申请了，今天刚看，已经添加。..

Top