categories: 爬虫 tags: urlopen urlretrieve urlencode parse_qs urlparse urlsplit urllib库 urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数 ...
分类:
Web程序 时间:
2020-01-16 20:31:31
阅读次数:
115
大数据时代,python爬虫工程师人才猛增,本课程专为爬虫工程师打造,课程有四个阶段,爬虫0基础入门->项目实战->爬虫难点突破->scrapy框架快速抓取,带你系统学习。课程精选多个实战项目,从易到难,层层深入。不同项目解决不同的抓取问题,带你从容抓取主流网站,进阶部分针对性讲解数据抓取的难点和面... ...
分类:
编程语言 时间:
2020-01-10 00:59:54
阅读次数:
298
XPath与正则都是用于数据的提取,二者的区别是: 正则:功能相对强大,写起来相对复杂; XPath:语法简单,可以满足绝大部分的需求; 所以,如果你可以根据自己的需要进行选择。 一、首先,我们需要为Google浏览器配置XPath插件: 请自行学习,效果如下: 二、XPath的语法: 注意: XP ...
分类:
编程语言 时间:
2019-12-20 11:45:42
阅读次数:
81
re是Python的一个第三方库。 为了能更直观的看出re的效果,我们先新建一个HTML网页文件(可直接复制): index.html OK,然后我们进入主题。 re主要有三个功能:提取、匹配、替换。 1、提取findall: 注意:返回的类型是列表 我们应如何取出上文index.html中的Ema ...
分类:
编程语言 时间:
2019-12-20 01:04:29
阅读次数:
248
一、HTML HTML是Hyper Text Markup Language(超文本标记语言)的缩写。 HTML不是一种编程语言,而是标记语言。 HTML的语法 双标签: 单标签: HTML的元素和属性 元素 HTML的结构 ``————文件为html文件 ``————语言类型:英语 ``————头 ...
分类:
编程语言 时间:
2019-12-19 21:07:00
阅读次数:
93
Scrapy框架的介绍 框架官方文档:https://docs.scrapy.org/en/latest/ 安装: pip3 install Scrapy 安装测试: cmd命令行界面,输入:scrapy -h 框架安装完成; scrapy框架: 分为五个模块+两个中间件(5+2结构): spide ...
分类:
编程语言 时间:
2019-11-14 18:35:44
阅读次数:
103
python3正则表达式 自从python1.5之后python自带re模块可以使用正则表达式,今天我们来学习一下 re.match re.match 尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。 pattern —— 匹配的正则表达式 strin ...
分类:
其他好文 时间:
2019-10-29 22:03:53
阅读次数:
94
请参见 py爬虫 —— py爬虫基础re库 正则表达式模式 模式字符串使用特殊的语法来表示一个正则表达式: 字母和数字表示他们自身。一个正则表达式模式中的字母和数字匹配同样的字符串。 多数字母和数字前加一个反斜杠时会拥有不同的含义。 标点符号只有被转义时才匹配自身,否则它们表示特殊的含义。 反斜杠本 ...
分类:
其他好文 时间:
2019-10-29 21:53:30
阅读次数:
74
1、 # -*- coding: utf-8 -*-"""Created on Thu Apr 25 10:30:26 2019 @author: Office"""import urllib.request #需要爬取的网站url = "http://www.baidu.com/" #respon ...
分类:
编程语言 时间:
2019-10-14 00:55:27
阅读次数:
106