网页Cookie如何获取

108次阅读
没有评论

共计 3813 个字符,预计需要花费 10 分钟才能阅读完成。

这篇文章主要讲解了“网页 Cookie 如何获取”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着丸趣 TV 小编的思路慢慢深入,一起来研究和学习“网页 Cookie 如何获取”吧!

这里采用 python2.7

第一种:mechanize

首先我们要使用 mechanize,第一步:

pip install mechanize

第二步编写获取 cookie 代码:

import osimport mechanizeimport cookielib,re
br = mechanize.Browser()
cj = cookielib.LWPCookieJar()
br.set_cookiejar(cj)
br.set_handle_equiv(True)
br.set_handle_gzip(True)
br.set_handle_redirect(True)
br.set_handle_referer(True)
br.set_handle_robots(False)
br.set_handle_refresh(mechanize._http.HTTPRefreshProcessor(), max_time=1)
br.set_debug_http(True)
br.addheaders = [(User-agent ,  用户 ua)]
br.set_proxies({http :  代理})
response = br.open(https://www.amazon.com)
cj = br._ua_handlers[_cookies].cookiejarfor cookie in cj:
 print(cookieName: +cookie.name)
 print(cookieValue: +cookie.value)
cookie = [item.name +  :  + item.value for item in cj]
cookiestr={}for item in cookie:
 name,value = item.split(:)
 cookiestr[name]=value

运行结果:

第二种:urllib

import urllib2import cookielibfrom http import cookiejarfrom bs4 import BeautifulSoup
User_Agent =  Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36 header = {}
header[User-Agent] = User_Agent
cookie = cookiejar.CookieJar()
cookie_handle=urllib2.HTTPCookieProcessor(cookie)
cookie_opener = urllib2.build_opener(cookie_handle)# proxy_support = urllib2.ProxyHandler({http : 5.62.157.47:8085})# proxy_opener = urllib2.build_opener(proxy_support)urllib2.install_opener(cookie_opener)# urllib2.install_opener(proxy_opener)request = urllib2.Request(https://www.amazon.com ,headers=header)
response = urllib2.urlopen(request)for item in cookie:
 print(Name =   +item.name)
 print(Value =  +item.value)

运行结果:

第三种:requests

import requests
headers = {user-agent :  Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36 }
r = requests.get(https://www.amazon.com , headers = headers)for cookie in r.cookies:
 print(cookie.name)
 print(cookie.value)
 print(=========)

运行结果:

第四种:selenium(个人感觉这个虽然加载比较慢,但是获取 cookie 最全)

pip install selenium

代码:

from selenium import webdriver
driver = webdriver.Chrome(executable_path= d:/seop/chromedriver.exe)
driver.get(https://www.amazon.com)#for c in cookiestr.keys():# driver.add_cookie({ name :c, value :cookiestr[c]})#driver.get(https://www.amazon.com)cookie = [item[ name] +  =  + item[value] for item in driver.get_cookies()]
cookiestr =  .join(item for item in cookie)

运行结果:

第五种: 总觉得 selenium 比较慢,打开还要加载浏览器,于是尝试了 htmlunit 以及 phantomjs

htmlunit

phantomjs

from selenium import webdriver
browser = webdriver.PhantomJS()
browser.get(https://www.amazon.com)
cookie = [item[ name] +  =  + item[value] for item in browser.get_cookies()]
cookiestr =  .join(item for item in cookie)

运行结果:

第六种:scrapy

这边我们简单测试一下,首先你电脑已经要安装了 scrapy,如果没有安装,pip install scrapy

然后我们输入要获取地址的 cookie

scrapy shell  https://www.amazon.com

cookie 结果:

最后一种:chrome headless 使用无头浏览器来获取

这个目前我是在 centos 上面进行操作:

第一步:肯定你要安装 chrome 啦

第二步:运行安装脚本

curl https://intoli.com/install-google-chrome.sh | bash

测试是否成功:运行以下命令,如果成功会在当前目录下面保存百度的截图

google-chrome-stable --no-sandbox --headless --disable-gpu --screenshot https://www.baidu.com

这里我们开始获取 cookie 信息

first:

google-chrome-stable --no-sandbox --headless --disable-gpu --user-data-dir= $HOME/Library/Application Support/Google/Chrome/  --remote-debugging-port=9222 https://www.amazon.com

second: 这里我们主要是获取 websocket 的 url

curl -s localhost:9222/json

third:这边要注意哦,要安装 wsc,安装 wsc 之前记得要安装 npm 哦,然后在执行 npm install -g wsc, 然后在执行以下命令

wsc ws://localhost:9222/devtools/page/D42AFC3C9AF9C8A1511ADC60850BD5A8

然后输入:

{id : 1,  method :  Network.getAllCookies}

最后 cookie 结果:

目前尝试了 mechanize、urllib、selenium、headless chrome、requests、htmlunit、phantomjs、scrapy

目前已经尝试了以上八种,觉得还是 selenium 获取 cookie 比较全,信息比较完整,获取 cookie 的字段也是比较稳定的,经过研究 cookie,就是 selenium 获取 cookie 的速度比较慢,看看还有没啥办法优化速度,继续查阅别的方式来获取 cookie。

感谢各位的阅读,以上就是“网页 Cookie 如何获取”的内容了,经过本文的学习后,相信大家对网页 Cookie 如何获取这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是丸趣 TV,丸趣 TV 小编将为大家推送更多相关知识点的文章,欢迎关注!

正文完
 
丸趣
版权声明:本站原创文章,由 丸趣 2023-07-18发表,共计3813字。
转载说明:除特殊说明外本站除技术相关以外文章皆由网络搜集发布,转载请注明出处。
评论(没有评论)