爬虫工程师必须掌握的Cookie知识点都在这里
Expires/Max-Age表示此cookie超时时间。若设置其值为一个时间,那么当到达此时间后,此cookie失效。不设置的话默认值是Session,意思是cookie会和session一起失效。当浏览器关闭(不是浏览器标签页,而是整个浏览器) 后,此cookie失效。 提示:当Cookie的过期时间被设定时,设定的日期和时间只与客户端相关,而不是服务端。 4.Size Size表示Cookie的name+value的字符数,比如有一个Cookie:id=666,那么Size=2+3=5 。 另外每个浏览器对Cookie的支持都不相同 5.HTTP HTTP表示cookie的httponly属性。若此属性为true,则只有在http请求头中会带有此cookie的信息,而不能通过document.cookie来访问此cookie。 设计该特征意在提供一个安全措施来帮助阻止通过Javascript发起的跨站脚本攻击(XSS)窃取cookie的行为 6.Secure Secure表示是否只能通过https来传递此条cookie。不像其它选项,该选项只是一个标记并且没有其它的值。 这种cookie的内容意指具有很高的价值并且可能潜在的被破解以纯文本形式传输。 五、Python操作Cookie 1.生成Cookie 前面我们说过Cookie是由服务端生成的,那如何用Python代码来生成呢? 从上图登录代码中我们看到,在简单的验证用户名和密码之后,服务器跳转到/user,然后set了一个cookie,浏览器收到响应后发现请求头中有一个:Cookie: user_cookie=Rg3vHJZnehYLjVg7qi3bZjzg,然后浏览器就会将这个Cookie保存起来! 2.获取Cookie 最近我们一直在讲requests模块,这里我们就用requests模块来获取Cookie。 r.cookies表示获取所有cookie,get_dict()函数表示返回的是字典格式cookie。 3.设置Cookie 上篇我们爬取优酷弹幕的文章中便是用了requests模块设置Cookie 我们就浏览器复制过来的Cookie放在代码中,这样便可以顺利的伪装成浏览器,然后正常爬取数据,复制Cookie是爬虫中常用的一种手段! 六、Session 1.诞生背景 其实在Cookie设计之初,并不像猪哥讲的那样Cookie只保存一个key,而是直接保存用户信息,刚开始大家认为这样用起来很爽,但是由于cookie 是存在用户端,而且它本身存储的尺寸大小也有限,最关键是用户可以是可见的,并可以随意的修改,很不安全。那如何又要安全,又可以方便的全局读取信息呢?于是,这个时候,一种新的存储会话机制:Session 诞生了。 2.Session是什么 Session翻译为会话,服务器为每个浏览器创建的一个会话对象,浏览器在第一次请求服务器,服务器便会为这个浏览器生成一个Session对象,保存在服务端,并且把Session的Id以cookie的形式发送给客户端浏览,而以用户显式结束或session超时为结束。 我们来看看Session工作原理:
对于session标识号(sessionID),有两种方式实现:Cookie和URL重写,猪哥就以Cookie的实现方式画一个Session原理图 联系cookie原理图我们可以看到,Cookie是将数据直接保存在客户端,而Session是将数据保存在服务端,就安全性来讲Session更好! 3.Python操作Session 后面猪哥将会以登录的例子来讲解如何用Python代码操作Session 七、面试场景 1.Cookie和Session关系
2.Cookie带来的安全性问题 (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
- 如何在Windows 10上自动将文件从一个文件夹移动到另一个文件
- 五大开源的网络监控工具盘点
- 如何在Debian/Ubuntu上设置自动安全更新(无人值守更新)
- hyper-v-server-2012 – 在Hyper-V Server 2012 R2上正确删
- Win10系统安装KB3124200补丁Office 2016设定丢失怎么办
- 微软发布Windows 10 RS5最新ISO镜像下载:Build 17738
- 使用dd检查存储性能
- 这是用Windows的人都得知道的技巧,让你有更棒的显示体验
- Linux运维如何从初级进阶为高级?需要掌握哪些必备技能?
- windows-server-2008-r2 – 在Windows Server 2008 R2下查看