# encoding:utf8import requests # Requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便,可以节约我们大量的工作,完全满足 HTTP 测试需求。from lxml ...
分类:
其他好文 时间:
2017-04-10 20:29:11
阅读次数:
298
Scrapy安装 Scrapy的安装有多种方式,它支持Python2.7版本及以上或者是Python3.3版本及以上。下面来说py3环境下,scrapy的安装过程。 Scrapy依赖的库比较多,至少需要依赖库Twisted 14.0,lxml 3.4,pyOpenSSL 0.14。在不同平台环境又不 ...
分类:
Windows程序 时间:
2017-04-08 14:53:25
阅读次数:
1340
分类: Python/Ruby 最近刚开始使用python来做爬虫爬取相关数据,使用了python自带的urllib和第三方库requests,解析html使用了beautifulsoup以及lxml 这里说下lxml,lxml是python的一个html、xml解析库,lxml使用XPath能快速 ...
分类:
编程语言 时间:
2017-04-07 20:02:15
阅读次数:
387
爬取网页的部分链接#!/usr/bin/python#coding=utf8fromurllib.requestimporturlopenfrombs4importBeautifulSoupimportreimportrandompages=set()defgetlink(pageurl):globalpageshtml=urlopen(‘http://www.ftchinese.com‘+pageurl)bs_data=BeautifulSoup(html,‘lxml‘)#fromipdb..
分类:
编程语言 时间:
2017-04-06 23:51:25
阅读次数:
201
之前我们使用的是python的自带的解析器html.parser。官网上面还有一些其余的解析器,我们分别学习一下。 1、python自带的 2、解析速度过得去 3、容错强 1、非常快 2、容错强 BeautifulSoup(markup,['lxml','xml']) BeautifulSoup(m ...
分类:
编程语言 时间:
2017-04-04 23:28:15
阅读次数:
208
1. 环境 - Python mac os预装的python - IDE Pycharm - 辅助 安装pip - Python库 2. 问题 - 问题1 代码: soup = BeautifulSoup(html, 'lxml') 报错: Traceback (most recent call l ...
分类:
编程语言 时间:
2017-04-04 17:38:53
阅读次数:
342
使用wkpdftohtml将爬取到的网页生成PDF时,使用示例代码 出现警告 并且没有得到预想中的PDF文件。(代码块访问的是廖雪峰的js教程网站) 将beautifulsoup中的解析器换成"lxml"或“html.parser则能够生成预期的PDF文件 阅读BeautifulSoup的文档 原因 ...
分类:
其他好文 时间:
2017-04-02 21:55:05
阅读次数:
334
读者可能会奇怪我标题怎么理成这个鬼样子,主要是单单写 lxml 与 bs4 这两个 py 模块名可能并不能一下引起大众的注意,一般讲到网页解析技术,提到的关键词更多的是 BeautifulSoup 和 xpath ,而它们各自所在的模块(python 中是叫做模块,但其他平台下更多地是称作库),很少 ...
分类:
Web程序 时间:
2017-04-01 16:49:58
阅读次数:
337
环境:win7、Python 2.7.12、PyCharm 2016.3 命令行pip和easy_install装lxml,都失败。 1、下载Microsoft Visual C++ Compiler for Python 2.7 2、手动安装lxml的exe的二进制包 3、使用wheel安装 D: ...
分类:
其他好文 时间:
2017-03-31 11:13:37
阅读次数:
769
在使用第三方包lxml引入etree模块时报错: [python] view plain copy >>> from lxml import etree Traceback (most recent call last): File "<stdin>", line 1, in ? ImportErr ...
分类:
其他好文 时间:
2017-03-25 17:48:33
阅读次数:
503