详解python中urllib爬虫模块-创新互联
小编这次要给大家分享的是详解python中urllib爬虫模块,文章内容丰富,感兴趣的小伙伴可以来了解一下,希望大家阅读完这篇文章之后能够有所收获。
创新互联建站成立于2013年,我们提供高端网站建设公司、重庆网站制作、成都网站设计、网站定制、成都全网营销推广、微信小程序、微信公众号开发、seo优化排名服务,提供专业营销思路、内容策划、视觉设计、程序开发来完成项目落地,为成都假山制作企业提供源源不断的流量和订单咨询。前言
网络爬虫也称为网络蜘蛛、网络机器人,抓取网络的数据。其实就是用Python程序模仿人点击浏览器并访问网站,而且模仿的越逼真越好。一般爬取数据的目的主要是用来做数据分析,或者公司项目做数据测试,公司业务所需数据。
而数据来源可以来自于公司内部数据,第三方平台购买的数据,还可以通过网络爬虫爬取数据。python在网络爬虫方向上有着成熟的请求、解析模块,以及强大的Scrapy网络爬虫框架。
爬虫分类
1、通用网络爬虫:搜索引擎使用,遵守robots协议(君子协议)
robots协议 :网站通过robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
2、聚焦网络爬虫 :自己写的爬虫程序
爬虫爬取数据步骤
- 确定需要爬取的URL地址
- 由请求模块向URL地址发出请求,并得到网站的响应
- 从响应内容中提取所需数据
- 所需数据,保存
- 页面中有其他需要继续跟进的URL地址,继续第2步去发请求,如此循环
请求模块
from urllib import request
request.urlopen() 向网站发起请求并获取响应对象
参数:
URL:需要爬取的URL地址
timeout: 设置等待超时时间,指定时间内未得到响应抛出超时异常
响应对象(response)方法
- string = response.read().decode('utf-8') 获取响应对象内容(网页源代码),返回内容为字节串bytes类型,顺便需要decode转换成string。
- url = response.geturl() 返回实际数据的URL地址
- code = response.getcode() 返回HTTP响应码
from urllib import request url = 'http://www.baidu.com/' # 向百度发请求,得到响应对象 response = request.urlopen(url) # 返回网页源代码 print(response.read().decode('utf-8')) # 返回http响应码 print(response.getcode()) # 200 # 返回实际数据URL地址 print(response.geturl()) # http://www.baidu.com/
本文名称:详解python中urllib爬虫模块-创新互联
文章网址:http://azwzsj.com/article/dgigco.html