#encoding:utf8import _threadimport timeimport requestsfrom lxml import etreeimport reimport sysfrom contextlib import closing# 为线程定义一个函数class Progress ...
分类:
编程语言 时间:
2017-05-15 16:56:51
阅读次数:
271
import re from urllib import request from lxml import etree testurl="http://news.163.com/rank/" with request.urlopen(testurl) as f: print('Status:', f ...
分类:
编程语言 时间:
2017-05-09 20:38:23
阅读次数:
232
接触了一个多月的python,终于可以小小露一手了。手法之拙略就不得不恭维了,哈哈,环境win7系统,Python3.6,Pycharm2017社区版,还有Google浏览器(官网均可下载)http://www.doutula.com需要的模块requests,lxml,BeautifulSoup,importrequests
importlxml
frombs4importBeau..
分类:
编程语言 时间:
2017-05-04 16:09:32
阅读次数:
235
urllib urllib2 Beautiful Soup http://www.crummy.com/software/BeautifulSoup/ lxml http://lxml.de HTQL http://htql.net/ Scrapy http://scrapy.org/ Mechan ...
分类:
编程语言 时间:
2017-04-25 22:27:01
阅读次数:
179
1.安装tushare前先安装lxml和pandas(我是win32下python3.4.0) 2.安装lxml,下载地址https://pypi.python.org/pypi/lxml/3.4.2 3.pandas,下载地址https://pypi.python.org/pypi/pandas ...
分类:
编程语言 时间:
2017-04-25 20:00:59
阅读次数:
276
接触python也有一段时间了,一提到python,可能大部分pythoner都会想到爬虫,没错,今天我们的话题就是爬虫!作为一个小学生,关于爬虫其实本人也只是略懂,怀着”Done is better than perfect”的态度硬着头皮开始了这篇文章的撰写!好了,废话不多说! 先说一下今天我们 ...
分类:
编程语言 时间:
2017-04-25 19:55:45
阅读次数:
1224
今天用python的lxml组件解析网页代码,需要找到特定区域的文本,lxml的etree有HTML方法可以将得到的html代码转换成树结构,然后用xpath寻找特定区域 当我找到这个区域,我需要得到该区域内的文本(在c#里面htmlnodeelement有个innertext的属性可以直接得到)而 ...
分类:
其他好文 时间:
2017-04-19 09:30:54
阅读次数:
160
上一课我们成功的下载了页面的第一篇文章,这一课我们的目标是怎么把第一页的所有文章都下载下来。还是先继续我们上一节课的内容。 ...
分类:
编程语言 时间:
2017-04-16 17:53:06
阅读次数:
190
通过xpath 爬虫时,使用到了lxml,通过pip 安装lxml 报错"building 'lxml.etree' extension building 'lxml.etree' extension error: [WinError 2] 系统找不到指定的文件。" 解决办法: 下载 lxml-3. ...
分类:
编程语言 时间:
2017-04-15 00:06:36
阅读次数:
452
1.下载whl文件: http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 2.安装该文件 3.可能碰到问题,pip的版本低了,需要更新一下pip的版本。更新pip版本命令: 4.更新完成后,再次使用pip命令: 5.安装pyspider: 6.运行pysp ...