最近在学习python爬虫,简单易上手,而且有成就感。爬虫不仅需要一个url地址,headers,而且Cookie也是必须的。下面我总结三种方法关于cookie的相关请求 不管第几种,我们都得先要登录进去想要爬虫的网页,来获取cookie(通过抓包方式) 第一种:将获取的cookie放到我们的hea ...
分类:
编程语言 时间:
2020-03-06 22:16:44
阅读次数:
108
导读:学习python爬虫很久了,一直习惯于requests抓取+xpath解析的两步走套路,直到我今天发现了pyquery这个爬虫利器后,才意识到python的世界没有最简,只有更简…… 2020-03-06 21:22:12 01 pyquery简介 pyquery是Python的一个第三方爬虫 ...
分类:
其他好文 时间:
2020-03-06 21:48:32
阅读次数:
68
一、正则常用的方法 1.match:从开始位置开始查找,一次匹配 2.sear?ch:从任何位置查找,一次匹配 3.findall?:全部匹配,返回列表 4.finditer?:全部匹配,返回迭代器 5.?split:分割字符串,返回列表 ?6.sub:替换 7.匹配中文 中文unicode编码[u ...
分类:
编程语言 时间:
2020-03-06 01:49:15
阅读次数:
67
1、BeautifulSoup4库也是一个HTML/XML解析器,主要也是提取数据。lxml只会局部遍历,BeautifulSoup是基于HTML DOM的,会载入整个文档,建立一个树状结构,在解析HTML时比较简单。 from bs4 import BeautifulSoup html=" 一段代 ...
分类:
编程语言 时间:
2020-03-04 23:37:55
阅读次数:
129
"""请求网页""" import requests import re import time import os headers={ 'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, lik ...
分类:
编程语言 时间:
2020-03-03 20:55:20
阅读次数:
108
1 import urllib.request # 导入模块 2 import urllib.parse 3 4 # 将网页赋给变量file 5 file = urllib.request.urlopen("http://www.baidu.com") 6 7 # 读取网页 8 data = fil ...
分类:
编程语言 时间:
2020-03-03 20:52:33
阅读次数:
90
关于一些python爬虫示例代码 https://github.com/shengqiangzhang/examples-of-web-crawlers 提示:隔离区可通过gitee传送 参考:https://www.zhangshengrong.com/p/2EaE06do1M/ ...
分类:
编程语言 时间:
2020-03-03 16:19:43
阅读次数:
158
电影天堂里面的 要爬取这个页面里所有的电影信息,每个电影信息都在另一个html里,先在这里页面里把这些电影的url爬取出来 # 电影天堂爬虫 from lxml import etree import requests # 一个网址头 BASE_DOMAIN="https://www.dytt8.n ...
分类:
编程语言 时间:
2020-03-02 01:16:51
阅读次数:
113
JS逆向房天下登录RSA0x01目标网址aHR0cHM6Ly9wYXNzcG9ydC5mYW5nLmNvbS8NCg==0x02定位js1.随变输入账号和密码,点击登录,查看提交的参数2.我们可以看到,密码进行了加密,接下来我们搜索参数pwd3.点击跟进去,然后进行代码格式化,在pwd处打上断点0x03分析js1.打上断点之后,我们再次点击登录,停在了我们打断点的地方2.我们跟进去加密函数,代码格
分类:
编程语言 时间:
2020-03-01 00:57:50
阅读次数:
126
今天带大家分析一下某建筑市场监管平台的数据加密链接:aHR0cDovL2p6c2MubW9odXJkLmdvdi5jbi9kYXRhL2NvbXBhbnk=点击企业查询,发现返回的数据是经过加密后的数据1.寻找返回的数据既然数据是通过这个url返回的,全局搜索urlhttp://jzsc.mohurd.gov.cn/api/webApi/dataservice/query/comp/list?pg
分类:
编程语言 时间:
2020-03-01 00:53:50
阅读次数:
90