Python异步加载怎么爬取图片
这篇文章主要讲解了“Python异步加载怎么爬取图片”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python异步加载怎么爬取图片”吧!
创新互联建站秉承专业、诚信、服务、进取的价值观,坚持以客户为中心、客户至上的服务理念,以“关注企业需求,实现企业价值”为导向,努力为企业提供全面优质的互联网应用服务。服务包括空间域名、雅安服务器托管、企业邮箱、网站建设、网站优化、网络营销解决方案和咨询服务,以帮助企业客户应用互联网。
何为异步加载?
想理解异步加载技术,先要知道传统的网页是如何加载的,首先,传统的网页更新内容需要对整个页面进行刷新更新,资源浪费较大,但是现在常用的异步加载技术(AJAX:JavaScript和XML)指的就是一种交互式网页应用技术,如没有翻页,一致下滑可以不断更新网页部分数据信息,同时当前网页基础框架和网址等信息都不变指的就是异步加载技术,大大的节约了网络资源。
还有一种判断是否使用了异步加载的方法,就是通过查看数据是否在网页源代码中。
使用了异步加载的网页后,网页中的内容在HTML中是找不到文本信息的,这时候通过常规三大爬取库是抓不到信息的,因此需要逆向去寻找推导出来网页是如何加载数据的过程,这个过程就叫做逆向工程。
如何实现逆向工程?
以Pexels网站为例,我们来看一下如何实现逆向工程:
打卡Chrome浏览器对应Pexels网站,右键检查,打开网页源代码,选择Network选项卡。
继续手动下滑网页,会发现XHR文件在不断加载更新,通过上图红框可以发现在固定变化的URL
https://www.pexels.com/search/book/?format=js&seed=&page=2&type=
https://www.pexels.com/search/book/?format=js&seed=&page=3&type=
https://www.pexels.com/search/book/?format=js&seed=&page=4&type=
尝试删除上述URL中的部分,得到
https://www.pexels.com/search/book/? page=2发现也可以返回正常的网页
这样就逆向推导出来了真实的网页URL,也知道了网页的变化规律,可以开始进行数据爬取了。
由于Pexels图片网站设置了比较严格的反扒机制,后续我们来讲如何破解,我们用hippopx图片网站来进行实践练习,此网站也有大量精美免费无版权图片,大家可尝试看看。
详细代码如下:
import requestsfrom lxml import etreeimport osheaders={"accept": "xxxx","cookie": "xxxx","User-Agent": "xxxx","referer": "xxxx"}list=[]file='存储路径'url='https://www.hippopx.com/'html=requests.get(url,headers=headers)selector=etree.HTML(html.text)imgs=selector.xpath('//*[@id="flow"]/li/figure/a/img')for img in imgs: photo=img.get('src') list.append(photo)for item in list: print(item) data=requests.get(item,headers=headers) fp= open(file+'/'+item.split('/')[-1],'wb') fp.write(data.content) fp.close()
运行结果如下:
存储图片如下:
感谢各位的阅读,以上就是“Python异步加载怎么爬取图片”的内容了,经过本文的学习后,相信大家对Python异步加载怎么爬取图片这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是创新互联,小编将为大家推送更多相关知识点的文章,欢迎关注!
网页名称:Python异步加载怎么爬取图片
分享URL:http://azwzsj.com/article/jocegc.html