1. Ajax介绍 Ajax,Asynchronous JavaScript and XML,即异步的JavaScript和XML。它不是编程语言,而是利用JavaScript在保证页面不被刷新、页面链接不改变的情况下,与服务器交换数据并更新部分网页的技术。 2. Ajax基本原理 发送Ajax请求 ...
分类:
编程语言 时间:
2020-01-12 20:18:36
阅读次数:
221
Cookies的处理 作用 在爬虫中如果遇到了cookie的反爬如何处理? 案例 爬取雪球网中的新闻资讯数据:https://xueqiu.com/ ...
分类:
编程语言 时间:
2020-01-12 18:10:07
阅读次数:
174
人生苦短,我用 Python 前文传送门: "小白学 Python 爬虫(1):开篇" "小白学 Python 爬虫(2):前置准备(一)基本类库的安装" "小白学 Python 爬虫(3):前置准备(二)Linux基础入门" "小白学 Python 爬虫(4):前置准备(三)Docker基础入门" ...
分类:
编程语言 时间:
2020-01-12 15:09:56
阅读次数:
103
因为教程的demo网站糗事百科已经gg(好像是涉及用户私人信息什么的原因),所以我就只好随便找了个网站练手。 前几天学习了部分lxml的用法,主要是etree,因为4.4.2版本的更新,etree现在在ElementInclude包内,直接引用是不行了,并且etree添加了新的parser,调用pa ...
分类:
编程语言 时间:
2020-01-12 00:27:47
阅读次数:
136
1.Redis连接 启动服务: cd redis的安装路径 >redis-server.exe cd redis的安装路径 >redis-cli python中连接redis: #第一种连接 from redis import StrictRedis redis = StrictRedis(host ...
分类:
数据库 时间:
2020-01-11 18:14:51
阅读次数:
115
NoSQL,Not Only SQL,不仅仅是SQL,泛指非关系型数据库,基于键值对的,不需要经过SQL层的解析,数据之间没有耦合性,性能高。 非关系型数据库细分如下: 键值存储数据库:Redis、Voldemort、Oracle BDB; 列表存储数据库:Cassandra、HBase、Riak; ...
分类:
数据库 时间:
2020-01-11 09:30:11
阅读次数:
108
大数据时代,python爬虫工程师人才猛增,本课程专为爬虫工程师打造,课程有四个阶段,爬虫0基础入门->项目实战->爬虫难点突破->scrapy框架快速抓取,带你系统学习。课程精选多个实战项目,从易到难,层层深入。不同项目解决不同的抓取问题,带你从容抓取主流网站,进阶部分针对性讲解数据抓取的难点和面... ...
分类:
编程语言 时间:
2020-01-10 00:59:54
阅读次数:
298
一、参考资料 1.《Python网络数据采集》图灵工业出版社 2.《精通Python爬虫框架Scrapy》人民邮电出版社 3.[Scrapy官方教程](http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html) 4.[Python ...
分类:
编程语言 时间:
2020-01-09 01:11:20
阅读次数:
98
re简单实践 分析网页,很容易得出规律: css字体颜色标记电话号码 代码实现: import re import requests headers = { "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:71.0) Gecko/ ...
分类:
编程语言 时间:
2020-01-08 23:04:51
阅读次数:
230
作为程序员,相信大家对“爬虫”这个词并不陌生,身边常常会有人提这个词,在不了解它的人眼中,会觉得这个技术很高端很神秘。不用着急,我们的爬虫系列就是带你去揭开它的神秘面纱,探寻它真实的面目。 ! 爬虫是什么 网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动地抓取万维网信息的程序或者 ...
分类:
编程语言 时间:
2020-01-06 14:40:29
阅读次数:
108