[TOC] 正则表达式是用来简洁表达一组字符串的表达式 一、正则表达式的语法 1.1 正则表达式的常用操作符 | 操作符 | 说明 | 实例 | | | | | | . | 表示任何单个字符 | | | [ ] | 字符集,对单个字符给出取值范围 | [abc]表示a、b、c,[a‐z]表示a到z单 ...
分类:
编程语言 时间:
2019-08-24 15:26:16
阅读次数:
87
一 爬虫的初识和价值 什么是爬虫? 爬虫就是通过编写程序 模拟 浏览器上网,让其去互联网上 抓取 数据的过程 爬虫的价值 实际的应用(爬取数据的产品化、商业化) 就业(爬虫工程师紧缺) 二 爬虫的合法性 爬虫本身 在法律上并不被禁止 ,但是具有违法的风险 爬虫所带来的的风险主要体现在一下两个方面: ...
分类:
其他好文 时间:
2019-08-23 15:02:36
阅读次数:
68
基于requests模块发起ajax的get请求 需求:爬取豆瓣电影分类排行榜 https://movie.douban.com/中的电影详情数据 用抓包工具捉取 使用ajax加载页面的请求 鼠标往下下滚轮拖动页面,会加载更多的电影信息,这个局部刷新是当前页面发起的ajax请求, 用抓包工具捉取页面 ...
分类:
编程语言 时间:
2019-08-20 01:23:58
阅读次数:
133
urllib基础 urlretrieve() urlretrieve(网址,本地文件存储地址) 直接下载网页到本地 urlcleanup() 清除缓存 info() 查看网页简介 getcode() 输出网页爬取状态码,200为正常,其他都不正常 geturl() 获取当前访问的网页的url 超时设 ...
分类:
编程语言 时间:
2019-08-19 19:31:12
阅读次数:
89
需求:爬取搜狗首页的页面数据 requests模块如何处理携带参数的get请求,返回携带参数的请求 需求:指定一个词条,获取搜狗搜索结果所对应的页面数据 之前urllib模块处理url上参数有中文的需要处理编码,requests会自动处理url编码 发起带参数的get请求 params可以是传字典或 ...
分类:
编程语言 时间:
2019-08-19 19:17:56
阅读次数:
121
准备工作 一:安装Chrome浏览器 二:根据你浏览器的版本号下载 ChromeDriver (笔者的版本号是 ) "ChromeDriver下载地址" "笔者的版本下载" 三:环境变量配置 (windows下)直接将ChromDriver可执行文件复制到python的Script目录下 四:验证安 ...
分类:
编程语言 时间:
2019-08-17 01:15:28
阅读次数:
150
最近学了一点点python爬虫的知识,面向百度编程爬了一本小说之后感觉有点不满足,于是突发奇想尝试爬一本漫画下来看看。 一、效果展示 首先是我们想要爬取的漫画网页: http://www.manhuadao.cn/ 网页截图: 其次是爬取下来的效果: 每一回的文件夹里面是这样的: (因为网站图片的问 ...
分类:
编程语言 时间:
2019-08-15 21:05:26
阅读次数:
137
原子 原子是正则表达式中最基本的组成单位,每个正则表达式中至少要包含一个原子。 常见的原子类型: 1. 普通字符作为原子 2. 非打印字符作为原子 3. 通用字符作为原子 4. 原子表 元字符 元字符是正则表达式中具有一些特殊含义的字符,比如重复N此前面的字符等。 1. ".":除换行符外任意一个字 ...
分类:
编程语言 时间:
2019-08-14 12:39:19
阅读次数:
127
本文针对初学者,我会用最简单的案例告诉你如何入门python爬虫! 想要入门Python 爬虫首先需要解决四个问题 熟悉python编程 了解HTML 了解网络爬虫的基本原理 学习使用python爬虫库 熟悉python编程 了解HTML 了解网络爬虫的基本原理 学习使用python爬虫库 一、你应 ...
分类:
编程语言 时间:
2019-08-13 13:55:48
阅读次数:
127
时间不等人,我学爬虫的近期目的是爬取一个网站的资源,主要是在大量的伪html中访问url不断请求数据,关键问题在正则表达 和访问速度上。 1/简单的爬虫架构示例 2/ 运行流程 3/URL管理器 网页下载器-urllib2 网页解析器-正则表达式、html.paser、BeautifulSoup、I ...
分类:
编程语言 时间:
2019-08-12 23:55:50
阅读次数:
190