我的python版本是Python 3.5该问题的产生是在windows环境中,python 的 Setup需要调用一个vcvarsall.bat的文件,该文件需要安装c++编程环境才会有。网上的方法有两个: 一、安装MinGW;二、安装Visual Studio 。我用的是第二种方法。 步骤一: ...
分类:
编程语言 时间:
2018-05-13 00:35:49
阅读次数:
225
from lxml import etree import requests url = 'https://movie.douban.com/chart' headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6)... ...
分类:
编程语言 时间:
2018-05-10 01:06:52
阅读次数:
587
爬虫的定义 爬虫:按照一定的规则,自动抓取互联网信息的程序或者脚本,从而获取对于我们有价值的信息。 爬虫的两大特征 爬虫的三大步骤 爬虫的分类 爬虫的结构 Python爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 爬虫的执行流程 爬虫 ...
分类:
其他好文 时间:
2018-05-09 22:34:24
阅读次数:
171
Beautiful Soup 借助网页的结构和属性等特性来解析网页,这样就可以省去复杂的正则表达式的编写。 Beautiful Soup是Python的一个HTML或XML的解析库。 1.解析器 综上所述,推荐lxml HTML解析器 1 2 3 from bs4 import BeautifulS ...
分类:
编程语言 时间:
2018-05-02 11:12:53
阅读次数:
313
xpath速度比较快,是爬虫在网页定位中的较优选择,但是很多网页前端代码混乱难以定位,而学习定位也较为不易(主要是全面的教程较少),这里列出一点编程过程中可能有用的东西,欢迎共同学习批评指正。试验环境:Python环境,lxml.etree 试验所使用的html代码 1、匹配某节点下的所有.// / ...
分类:
其他好文 时间:
2018-05-01 20:25:07
阅读次数:
115
下面我们将介绍三种抓取网页数据的方法,首先是正则表达式,然后是流行的 BeautifulSoup 模块,最后是强大的 lxml 模块。 1. 正则表达式 如果你对正则表达式还不熟悉,或是需要一些提示时,可以查阅Regular Expression HOWTO 获得完整介绍。 当我们使用正则表达式抓取 ...
分类:
编程语言 时间:
2018-05-01 10:47:59
阅读次数:
285
从页面中提取数据的核心技术是HTTP文本解析,在python中常用的模块处理: BeautifulSoup 非常流行的解析库,API简单,但解析的速度慢。 lxml 是一套使用c语言编写的xml解析库,解析速度快,API相对比较复杂。 Scrapy中的Selector类是基于lxml库建立的,并且简 ...
分类:
其他好文 时间:
2018-04-26 12:01:01
阅读次数:
234
必备知识点 在html中,id是唯一的 在html中,class是可以多处引用的 工具 Python3版本 lxml库【优点是解析快】 HTML代码块【从网络中获取或者自己杜撰一个】 requests【推荐安装,从网页上获取网页代码练手,再好不过了】 Xpath学习 先定义html代码块【这次只从b ...
分类:
其他好文 时间:
2018-04-25 19:05:50
阅读次数:
308
工具 Python3版本 lxml库【优点是解析快】 HTML代码块【从网络中获取或者自己杜撰一个】 requests【推荐安装,从网页上获取网页代码练手,再好不过了】 讲解 网页代码都是成对的标签,基础结构如下 <!DOCTYPE html> <html lang="en"> <head> <!- ...
分类:
其他好文 时间:
2018-04-25 19:01:07
阅读次数:
179
Python若是想从xml里读点信息,用BeautifulSoup可能会容易一点,但是如果要修改xml,BeatifulSoup就搞不定了,其实直接用lxml就好。 etree表示整个xml树结构,对其元素修改,就直接表现为对etree的修改,然后存储即可。一般的函数用法现查即可,只有XPath需要 ...
分类:
编程语言 时间:
2018-04-23 19:59:48
阅读次数:
175