python开发之selenium-创新互联

使用selenium和PhantomJS来模拟浏览器点击下一页,获取页面数据进行抓取分析
用python写爬虫的时候,主要用的是selenium的Webdriver来获取页面数据
使用webdriver需要安装对应浏览器的driver,并加入到环境变量中
from selenium import webdriver
driver = webdriver.PhantomJS() 使用PhantomJS浏览器创建浏览器对象
driver.get("https://www.douyu.com/directory/all") 使用get方法加载页面
driver.find_element_by_class_name("shark-pager-next").click() class="shark-pager-next"是下一页按钮,click() 是模拟点击
利用BeatuifulSoup 对页面信息进行提取
模拟点击时需要安装 https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-windows.zip

公司主营业务:成都做网站、成都网站制作、移动网站开发等业务。帮助企业客户真正实现互联网宣传,提高企业的竞争能力。成都创新互联是一支青春激扬、勤奋敬业、活力青春激扬、勤奋敬业、活力澎湃、和谐高效的团队。公司秉承以“开放、自由、严谨、自律”为核心的企业文化,感谢他们对我们的高要求,感谢他们从不同领域给我们带来的挑战,让我们激情的团队有机会用头脑与智慧不断的给客户带来惊喜。成都创新互联推出永清免费做网站回馈大家。

另外有需要云服务器可以了解下创新互联scvps.cn,海内外云服务器15元起步,三天无理由+7*72小时售后在线,公司持有idc许可证,提供“云服务器、裸金属服务器、高防服务器、香港服务器、美国服务器、虚拟主机、免备案服务器”等云主机租用服务以及企业上云的综合解决方案,具有“安全稳定、简单易用、服务可用性高、性价比高”等特点与优势,专为企业上云打造定制,能够满足用户丰富、多元化的应用场景需求。


分享题目:python开发之selenium-创新互联
链接URL:http://azwzsj.com/article/digphh.html