搜索关键字：python爬虫 you-get，搜索到2477个结果！码迷,mamicode.com！

Python爬虫之正则表达式

首先我们要明白正则表达式是什么，用来作什么正则表达式是一个特殊的符号序列，他帮助开发人员检查是否与某种模式匹配。正则表达式常用的符号一般字符说明： "."字符为匹配单个字符。例如，a.b可以的匹配结果为abc,aic,a&c等等，但不包括换行符 "\"字符为转义字符，例如“\n”。 "[.. ...

分类：编程语言时间：2019-08-04 19:54:01 阅读次数：153

NLP（十三）中文分词工具的使用尝试

本文将对三种中文分词工具进行使用尝试，这三种工具分别为哈工大的LTP，结巴分词以及北大的pkuseg。首先我们先准备好环境，即需要安装三个模块：pyltp, jieba, pkuseg以及LTP的分型模型。在用户字典中添加以下5个词语：经少安 ...

分类：其他好文时间：2019-08-03 17:33:11 阅读次数：141

数据之路 - Python爬虫 - Json模块与JsonPath

一、什么是Json？ json简单说就是javascript中的对象和数组，所以这两种结构就是对象和数组两种结构，通过这两种结构可以表示各种复杂的结构。对象：对象在js中表示为{ }括起来的内容，数据结构为 { key：value, key：value, ... }的键值对的结构，在面向对象的语言 ...

分类：编程语言时间：2019-08-03 13:03:57 阅读次数：95

数据之路 - Python爬虫 - PyQuery库

一、什么是PyQuery？ PyQuery库也是一个非常强大又灵活的网页解析库。官网地址：http://pyquery.readthedocs.io/en/latest/ 二、PyQuery基本库使用 1.初始化 2.CSS选择器-获取标签 3.CSS选择器-获取属性 4.获取内容 5.获取HTM ...

分类：编程语言时间：2019-08-03 12:43:08 阅读次数：107

Python爬虫之Requests库入门

[TOC] Requests库 Requests库的7个主要方法 | 方法 | 说明 | | : : | : : | | requests.request() | 构造一个请求，支撑以下各方法的基础方法 | | requests.get() | 获取HTML网页的主要方法，对应于HTTP的GET | ...

分类：编程语言时间：2019-08-02 20:26:58 阅读次数：105

数据之路 - Python爬虫 - 正则表达式

一、常用匹配模式二、常用正则方法 1.match()方法从字符串的起始位置匹配一个模式，如果不是起始位置匹配的话，match（）就会返回None 语法格式：re.match(pattern,string,flags=0) result.group()获取匹配的结果，result.span()获去 ...

分类：编程语言时间：2019-08-02 00:10:33 阅读次数：121

数据之路 - Python爬虫 - urllib库

参考学习：https://www.cnblogs.com/alex3714/articles/8359358.html 一、urllib库介绍 urllib库，它是Python内置的HTTP请求库。它包含4个模块： request： HTTP请求模块，可以用来模拟发送请求。 error：异常处理 ...

分类：编程语言时间：2019-08-02 00:07:51 阅读次数：116

python爬虫-'gbk' codec can't encode character '\xa0' in position 134: illegal multibyte sequence

运行代码如下,报错如上解决方法： ...

分类：编程语言时间：2019-07-28 12:15:46 阅读次数：106

Python爬虫入门【20】：掘金网全站用户爬虫 scrapy

获取全站用户，理论来说从1个用户作为切入点就可以，我们需要爬取用户的关注列表，从关注列表不断的叠加下去。随便打开一个用户的个人中心绿色圆圈里面的都是我们想要采集到的信息。这个用户关注0人？那么你还需要继续找一个入口，这个用户一定要关注了别人。选择关注列表，是为了让数据有价值，因为关注者里面可能大量的小号或者不活跃的账号，价值不大。我选了这样一个入口页面，它关注了3个人，你也可以选择多一些的，这个没

分类：编程语言时间：2019-07-28 09:45:05 阅读次数：126

Python爬虫入门【21】：知乎网全站用户爬虫 scrapy

全站爬虫有时候做起来其实比较容易，因为规则相对容易建立起来，只需要做好反爬就可以了，今天咱们爬取知乎。继续使用scrapy当然对于这个小需求来说，使用scrapy确实用了牛刀，不过毕竟这个系列到这个阶段需要不断使用scrapy进行过度，so，我写了一会就写完了。你第一步找一个爬取种子，算作爬虫入口https://www.zhihu.com/people/zhang-jia-wei/followin

分类：编程语言时间：2019-07-28 09:25:45 阅读次数：111

共2477条上一页 1 ... 49 50 51 52 53 ... 248 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)