首先我们要明白正则表达式是什么,用来作什么 正则表达式是一个特殊的符号序列,他帮助开发人员检查是否与某种模式匹配。 正则表达式常用的符号 一般字符 说明: "."字符为匹配单个字符。例如,a.b可以的匹配结果为abc,aic,a&c等等,但不包括换行符 "\"字符为转义字符,例如“\n”。 "[.. ...
分类:
编程语言 时间:
2019-08-04 19:54:01
阅读次数:
153
本文将对三种中文分词工具进行使用尝试,这三种工具分别为哈工大的LTP,结巴分词以及北大的pkuseg。 首先我们先准备好环境,即需要安装三个模块:pyltp, jieba, pkuseg以及LTP的分型模型 。在用户字典中添加以下5个词语: 经 少安 ...
分类:
其他好文 时间:
2019-08-03 17:33:11
阅读次数:
141
一、什么是Json? json简单说就是javascript中的对象和数组,所以这两种结构就是对象和数组两种结构,通过这两种结构可以表示各种复杂的结构。 对象:对象在js中表示为{ }括起来的内容,数据结构为 { key:value, key:value, ... }的键值对的结构,在面向对象的语言 ...
分类:
编程语言 时间:
2019-08-03 13:03:57
阅读次数:
95
一、什么是PyQuery? PyQuery库也是一个非常强大又灵活的网页解析库。 官网地址:http://pyquery.readthedocs.io/en/latest/ 二、PyQuery基本库使用 1.初始化 2.CSS选择器-获取标签 3.CSS选择器-获取属性 4.获取内容 5.获取HTM ...
分类:
编程语言 时间:
2019-08-03 12:43:08
阅读次数:
107
[TOC] Requests库 Requests库的7个主要方法 | 方法 | 说明 | | : : | : : | | requests.request() | 构造一个请求,支撑以下各方法的基础方法 | | requests.get() | 获取HTML网页的主要方法,对应于HTTP的GET | ...
分类:
编程语言 时间:
2019-08-02 20:26:58
阅读次数:
105
一、常用匹配模式 二、常用正则方法 1.match()方法 从字符串的起始位置匹配一个模式,如果不是起始位置匹配的话,match()就会返回None 语法格式:re.match(pattern,string,flags=0) result.group()获取匹配的结果,result.span()获去 ...
分类:
编程语言 时间:
2019-08-02 00:10:33
阅读次数:
121
参考学习:https://www.cnblogs.com/alex3714/articles/8359358.html 一、urllib库介绍 urllib库,它是Python内置的HTTP请求库。它包含4个模块: request: HTTP请求模块, 可以用来模拟发送请求。 error: 异常处理 ...
分类:
编程语言 时间:
2019-08-02 00:07:51
阅读次数:
116
获取全站用户,理论来说从1个用户作为切入点就可以,我们需要爬取用户的关注列表,从关注列表不断的叠加下去。随便打开一个用户的个人中心绿色圆圈里面的都是我们想要采集到的信息。这个用户关注0人?那么你还需要继续找一个入口,这个用户一定要关注了别人。选择关注列表,是为了让数据有价值,因为关注者里面可能大量的小号或者不活跃的账号,价值不大。我选了这样一个入口页面,它关注了3个人,你也可以选择多一些的,这个没
分类:
编程语言 时间:
2019-07-28 09:45:05
阅读次数:
126
全站爬虫有时候做起来其实比较容易,因为规则相对容易建立起来,只需要做好反爬就可以了,今天咱们爬取知乎。继续使用scrapy当然对于这个小需求来说,使用scrapy确实用了牛刀,不过毕竟这个系列到这个阶段需要不断使用scrapy进行过度,so,我写了一会就写完了。你第一步找一个爬取种子,算作爬虫入口https://www.zhihu.com/people/zhang-jia-wei/followin
分类:
编程语言 时间:
2019-07-28 09:25:45
阅读次数:
111