通过F12抓包获取HDR数据,发现评论在 get?csrf_token= 中,同时发现 params 和 encSecKey 是被加密过的
因此,需要找到未加密前的数据,以及如何加密,最后模拟实现加密,请求到网易拿到评论数据
从调用堆栈中,发现相应位置
...
阅读全文...
【Python爬虫】Requests模块进阶:cookie、防盗链、代理
主要内容:
模拟浏览器登陆
防盗链处理
代理
1. 模拟浏览器登录
登录 -> 得到cookie
带着cookie去请求到书架url -> 得到个人数据
可以使用session进行请求
session可以被看作为一连串的请...
阅读全文...
阅读全文...
【Python爬虫】xpath模块
xpath是在XML文档中搜索内容的一门语言
HTML是XML的一种
需要安装lxml模块
from lxml import etree
xml = """
<note>
<to>Tove</to>
&...
阅读全文...
阅读全文...
【Python爬虫】bs4模块
实战1—抓取菜价
从bs对象中查找数据:
find(标签,属性=值)
find_all(标签,属性=值)
import requests
from bs4 import BeautifulSoup
import csv
url = "http://...
阅读全文...
阅读全文...
【Python爬虫】re模块
基础函数
findall:匹配字符串中所有的符合正则的内容,返回列表
lst = re.findall(r"\d+", "我的电话是:10086,另一个是10010")
print(lst)
finditer:匹配字符串中所有的内容,返回迭代器
it =...
阅读全文...
阅读全文...
【Python爬虫】Requests入门
安装requests:pip install requests
GET——调用搜狗搜索
import requests
url = 'https://www.sogou.com/web?query=iie+ac'
# 在浏览器地址栏里面输入的url都是G...
阅读全文...
阅读全文...