首先对Xpath进行安装配置
安装Xpath 安装 lxml库 从Python第三方库下载,或者 pip install lxml
学会使用Xpath
导入etree模块
from lxml import etree
使用Xpath 提取网页感兴趣代码
Selector...
分类:
Web程序 时间:
2016-05-12 17:21:29
阅读次数:
895
TFhpple是一个用于解析html数据的第三方库,本人感觉功能还算可以,只不过在使用前必须配置项目。 配置 1.导入libxml2.tbd 2.设置编译路径 使用 这里使用一个例子来说明 http://so.gushiwen.org/guwen/book_2.aspx 1.创建TFH
分类:
Web程序 时间:
2016-03-15 16:06:04
阅读次数:
184
今天晚上弄了一个简单的爬虫,可以爬取网页的图片,现在现在做一下准备工作。 需要的库:urllib 和 re urllib库可以理解为是一个url下载器,其中的有两个重要的方法 urllib.urlopen()和urllib.read()这两个方法,具体使用可以在网上查到;re这个库提供对正则表达式支
分类:
编程语言 时间:
2016-03-11 01:12:18
阅读次数:
792
爬取网页内容的时候,往往网页标签比较复杂,对于这种情况,需要用xpath的starts-with和string(.)功能属性来处理,具体看事例 #encoding=utf-8 from lxml import etree html1 = ''' <!DOCTYPE html> <html> <hea
分类:
其他好文 时间:
2016-03-06 11:14:46
阅读次数:
235
以下代码在 python 3.5 + jupyter notebook 中运行测试无误!# 我们爬取网页的目的,无非是先定位到DOM树的节点,然后取其文本或属性值myPage = ''' TITLE 我的博客 我的文章 ...
分类:
其他好文 时间:
2015-12-27 08:27:45
阅读次数:
189
re.S让.能够匹配\n,默认情况点是不能匹配换行符的1.爬取网页源码中的图片#-*-coding:utf-8-*-
importre
importrequests
withopen(‘source.txt‘,‘r‘)asf:
html=f.read()
#匹配图片网址,括号中为需要返回的内容
pic_url=re.findall(‘imgsrc="(.*?)"class="lessonimg"‘,html,re..
分类:
编程语言 时间:
2015-12-20 17:44:26
阅读次数:
224
最近在使用Python爬取网页内容时,总是遇到JS临时加载、动态获取网页信息的困难。例如爬取CSDN下载资源评论、搜狐图片中的“原图”等,此时尝试学习Phantomjs和CasperJS来解决这个问题。这第一篇文章当然就是安装过程及入门介绍,主要先介绍Phantomjs安装过程及常见用法,参考官方文...
分类:
编程语言 时间:
2015-12-18 06:56:32
阅读次数:
378
爬取网页信息说明:正则表达式有待学习,之后完善此功能#encoding=utf-8import urllibimport reimport os#获取网络数据到指定文件def getHtml(url,fname): #fname = 'C:\\Users\cuiliting\\Desktop\...
分类:
编程语言 时间:
2015-12-10 13:02:44
阅读次数:
232
经过之前的HttpURLConnection还有各种流的结束,已经可以开始理解怎么下载网页上的一张图片了。对各种流不理解的话,可以翻翻前面的随笔,讲得都比较详细。在此就不细讲了。主要流程:1、HttpURLConnection连接上图片的网址,打开一个InputStream。2、把InputStre...
分类:
编程语言 时间:
2015-12-07 14:14:38
阅读次数:
284
Scrapy爬取网页基本概念 Scrapy爬取网页基本概念怎么样用Scrapy生成project?scrapy startproject xxx如何用Scrapy爬取网页?import scrapyfrom scr...
分类:
其他好文 时间:
2015-11-28 16:31:27
阅读次数:
149