web爬虫第一弹 网络协议 & 抓包原理

学习爬虫第一步应该是了解相关的网络协议及各类协议的工作原理。 本文章可以让各位对网络协议有个大体的概念。 如果需要深入研究就需要自行看书和查阅资料了

1- OSI(open system iterconnection Reference Model)概念模型

web爬虫第一弹 网络协议 & 抓包原理

如果想要了解OSI模型详情, 查看此链接

2- TCP/IP五层模型

此模型将OSI模型中的上三层封装成了一层(应用层)。

web爬虫第一弹 网络协议 & 抓包原理

4- HTTPS

https是HTTP通过SSL加密而来。 利用SSL/TLS建立全信道, 加密数据包。HTTPS使用的主要目的是提供对网站服务器的身份验证。具体体现在证书认证, 如果没有证书认证就算截取了HTTPS的报文也无法破译其中的内容。

5- 抓包工具

Fiddler:
windows平台专用抓包工具
Charles
macOS平台下的抓包工具, 也可用于windows
AnyProxy
基于NodeJS实现
Mitmproxy
基于python
Wireshark
更底层的抓包工具。可以查看TCP/IP协议下的报文详情

6- 抓包软件原理

总体来说就是, 所有的请求都是由客户端发送给服务端。 所以Fiddler可以模仿客户端发送请求给服务器,在拿到服务器下发给客户端的证书后, 更改证书为自签名证书并且向客服端发送服务端传过来的数据, 再将客户端的对称秘钥处理后返回给服务器, 这样就建立了客户端到服务器间的桥梁。 客户端与服务端的一切交互都会经过Fiddler工具。

web爬虫第一弹 网络协议 & 抓包原理

note:这里有一点需要注意。 在TCP/IP模型中, Fiddler只能抓到应用层的包。 如果想要看到TCP/UDP,IP甚至于mac地址相关的报文, 则需要更换抓包工具。

文章知识点与官方知识档案匹配,可进一步学习相关知识网络技能树支撑应用程序的协议应用层的作用22555 人正在系统学习中

来源:励志的大鹰哥

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2022年9月20日
下一篇 2022年9月21日

相关推荐