R语言爬虫之——RCurl

RCurl作者

Duncan Temple Lang
现任加州大学 U.C. Davis分校副教授
致力于借助统计整合进行信息技术的探索

RCurl的概述

The RCurl package is an R-interface to the libcurl library that provides HTTP
facilities. This allows us to download files from Web servers, post forms, use
HTTPS (the secure HTTP), use persistent connections, upload files, use binary
content, handle redirects, password authentication, etc.

RCurl这个程序包提供了由R到libcurl库的接口,从而实现HTTP的一些功能。例如,从
服务器下载文件、保持连接、上传文件、采用二进制格式读取、句柄重定向、密码认证等等。

什么是curl&libcurl
– curl:利用URL语法在命令行方式下工作的开源文件传输工具
– curl背后的库就是libcurl

功能
– 获得页面
– 有关认证
– 上传下载
– 信息搜索
– ……

HTTP协议

协议是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或规则,超文本传输协议(HTTP)是一种通信协议,它允许将超文本标记语言(HTML)文档从Web服务器传送到客户端的浏览器

目前我们使用的是HTTP/1.1 版本

这里写图片描述
Method 表示请求方法,比如“GET”,“POST”,““HEAD”,”PUT“等
Path-to-resource 表示请求的资源
Http/version-number 表示HTTP协议的版本号

请求报头
Host 服务器地址
Accept 浏览器端可以接受的媒体类型,text/html
Accept-encoding 浏览器接收的编码方法,通常所指的是压缩方法
Accept-language 浏览器声明自己接收的语言
User-agent 告诉服务器客户端的操作系统、浏览器版本
Cookie 最重要的请求报头的成分,为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)
Referer 跳转页
Connection 客户端与服务器的连接状态
3. 响应response
状态行、消息报头、响应正文

R语言爬虫之——RCurl

设置自己的header


设置其他参数
verbose 输出访问的交互信息
httpheader 设置访问信息报头
.encoding=”UTF-8” “GBK”
debugfunction, headerfunction, curl
.params 提交的参数组
dirlistonly 仅读目录,这个在ftp的网页,非常好用
followlocation 支持重定向
maxredirs 最大重定向次数

getForm()

来源:alphabeta12345

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2015年2月12日
下一篇 2015年2月13日

相关推荐