1. 请求方式 # 介绍:使用requests可以模拟浏览器的请求,比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) # 注意:requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起新的request请 ...
分类:
编程语言 时间:
2020-01-14 10:09:17
阅读次数:
124
Python爬虫请求头解析 Accept:本次请求可以接受的内容; Accept-Encoding:可以接受的数据编码的类型; Accept-Language:可以接受的语言类型; Cookie:保存用户状态的登录状态信息(身份证); Host:保存请求的主机地址; Referer:告诉服务器从哪里 ...
分类:
编程语言 时间:
2020-01-13 15:53:00
阅读次数:
176
一、reponse解析 urlopen的返回对象 (1)geturl:返回网页地址 (2)info:请求反馈对象的meta信息 (3)getcode:返回的http code from urllib import request import chardet """ 解析reponse """ if ...
分类:
编程语言 时间:
2020-01-13 01:11:19
阅读次数:
150
1. Ajax介绍 Ajax,Asynchronous JavaScript and XML,即异步的JavaScript和XML。它不是编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下,与服务器交换数据并更新部分网页的技术。 2. Ajax基本原理 发送Ajax请求 ...
分类:
编程语言 时间:
2020-01-12 20:18:36
阅读次数:
221
Cookies的处理 作用 在爬虫中如果遇到了cookie的反爬如何处理? 案例 爬取雪球网中的新闻资讯数据:https://xueqiu.com/ ...
分类:
编程语言 时间:
2020-01-12 18:10:07
阅读次数:
174
人生苦短,我用 Python 前文传送门: "小白学 Python 爬虫(1):开篇" "小白学 Python 爬虫(2):前置准备(一)基本类库的安装" "小白学 Python 爬虫(3):前置准备(二)Linux基础入门" "小白学 Python 爬虫(4):前置准备(三)Docker基础入门" ...
分类:
编程语言 时间:
2020-01-12 15:09:56
阅读次数:
103
因为教程的demo网站糗事百科已经gg(好像是涉及用户私人信息什么的原因),所以我就只好随便找了个网站练手。 前几天学习了部分lxml的用法,主要是etree,因为4.4.2版本的更新,etree现在在ElementInclude包内,直接引用是不行了,并且etree添加了新的parser,调用pa ...
分类:
编程语言 时间:
2020-01-12 00:27:47
阅读次数:
136
1.Redis连接 启动服务: cd redis的安装路径 >redis-server.exe cd redis的安装路径 >redis-cli python中连接redis: #第一种连接 from redis import StrictRedis redis = StrictRedis(host ...
分类:
数据库 时间:
2020-01-11 18:14:51
阅读次数:
115
NoSQL,Not Only SQL,不仅仅是SQL,泛指非关系型数据库,基于键值对的,不需要经过SQL层的解析,数据之间没有耦合性,性能高。 非关系型数据库细分如下: 键值存储数据库:Redis、Voldemort、Oracle BDB; 列表存储数据库:Cassandra、HBase、Riak; ...
分类:
数据库 时间:
2020-01-11 09:30:11
阅读次数:
108
大数据时代,python爬虫工程师人才猛增,本课程专为爬虫工程师打造,课程有四个阶段,爬虫0基础入门->项目实战->爬虫难点突破->scrapy框架快速抓取,带你系统学习。课程精选多个实战项目,从易到难,层层深入。不同项目解决不同的抓取问题,带你从容抓取主流网站,进阶部分针对性讲解数据抓取的难点和面... ...
分类:
编程语言 时间:
2020-01-10 00:59:54
阅读次数:
298