Python爬虫开发的3大难题,别上了贼船才发现,水有多深-创新互联
写爬虫,是一个非常考验综合实力的活儿。有时候,你轻而易举地就抓取到了想要的数据;有时候,你费尽心思却毫无所获。
好多Python爬虫的入门教程都是一行代码就把你骗上了“贼船”,等上了贼船才发现,水好深~
比如爬取一个网页可以是很简单的一行代码:
r = requests.get('http://news.baidu.com')
非常的简单,但它的作用也仅仅是 爬取一个网页 ,而一个有用的爬虫远远不止于 爬取一个网页 。
一个有用的爬虫,只需两个词来衡量:
- 数量:能否抓全所有该类数据
- 效率:抓完所有数据需要多久一天还是一个月
但要做到这两个词,却是要下很多功夫。自己下功夫是一方面,也很重要的是你要抓全的目标网站给你出了多少难题。综合起来,就写一个爬虫有多少难度。
网络爬虫难度一:只需爬取html网页但要上规模
这里我们举个新闻爬虫的例子。大家都用过百度的新闻搜索吧,我就拿它的爬虫来讲讲实现上的难度。
新闻网站基本上不设防,新闻内容都在网页的html代码里了,抓全一个网页基本上就是一行的事情。似乎听上去很简单,但对于一个搜索引擎级的爬虫,就不那么简单了,要把几千几万家新闻网站的新闻都及时抓取到也不是一件容易的事情。
我们先看看新闻爬虫的简单流程图:
![Python爬虫开发的3大难题,别上了贼船才发现,水有多深](/upload/otherpic7/13090773-35b48e7ad0145ad3.jpg?imageMogr2/auto-orient/strip)
新闻名称:Python爬虫开发的3大难题,别上了贼船才发现,水有多深-创新互联
文章转载:http://azwzsj.com/article/jcphj.html