第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求…

第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求

 

selenium模块

selenium模块为第三方模块需要安装,selenium模块是一个操作各种浏览器对应软件的api接口模块

selenium模块是一个操作各种浏览器对应软件的api接口模块,所以还得需要下载对应浏览器的操作软件

操作原理是:selenium模块操作浏览器操作软件,浏览器操作软件操作浏览器

Selenium 2.0适用于以下浏览器
  Google Chrome
  Internet Explorer 7, 8, 9, 10, 11
  Firefox
  Safari
  Opera
  HtmlUnit
  phantomjs
  Android
  iOS

第三百五十节,Python分布式爬虫打造搜索引擎Scrapy精讲—selenium模块是一个python操作浏览器软件的一个模块,可以实现js动态网页请求...

 

 

Selenium 的核心,就是用js控制浏览器

下载对应浏览器的浏览器操作软件

 

Chrome: https://sites.google.com/a/chromium.org/chromedriver/downloads
Edge: https://developer.microsoft.com/en-us/microsoft-edge/tools/webdriver/
Firefox: https://github.com/mozilla/geckodriver/releases
Safari: https://webkit.org/blog/6900/webdriver-support-in-safari-10/

 

我们这里以火狐浏览器为列

首先将火狐浏览器的操作软件,geckodriver.exe文件放置到爬虫目录里

selenium模块可以模拟用户行为操作各种版本浏览器

webdriver.Firefox(‘操作浏览器软件路径’)实例化火狐浏览器对象
get(‘url’)访问网站
find_element_by_xpath(‘xpath表达式’)通过xpath表达式找对应元素
clear()清空输入框里的内容
send_keys(‘内容’)将内容写入输入框
click()点击事件
get_screenshot_as_file(‘截图保存路径名称’)将网页截图,保存到此目录
page_source获取网页htnl源码
browser.close() 关闭浏览器

 

 

 

利用scrapy的Selector方法。来过滤帅选数据

Selector()方法,过滤帅选数据,参数是得到的字符串html源码

 

 

selenium操作浏览器滚动滚动条

execute_script(js)方法,执行原生态js脚本

 

 

设置请求网页不加载图片,提高请求效率
ChromeOptions()方法,创建谷歌浏览器设置对象
Chrome()方法,创建谷歌浏览器对象

下面以谷歌浏览器为列

 

selenium模块还可以操作PhantomJS浏览器,PhantomJS是一个无界面浏览器,比较清爽,但是多线程是性能会下降

 

重点:我们推荐使用chromedriver.exe,谷歌浏览器

文章知识点与官方知识档案匹配,可进一步学习相关知识Python入门技能树首页概览208856 人正在系统学习中 相关资源:免费的linux操作软件SecureCRT.zip-其它工具类资源-CSDN文库

来源:weixin_34097242

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2017年7月21日
下一篇 2017年7月21日

相关推荐