正则表达式在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这...
分类:
编程语言 时间:
2015-07-21 23:54:56
阅读次数:
160
Urllib库的基本使用那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS、CSS,如果把网页比作一个...
分类:
编程语言 时间:
2015-07-21 23:49:14
阅读次数:
203
URLError异常处理大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码中,我们需要用try-except语句来包围并捕获相应的异常...
分类:
编程语言 时间:
2015-07-21 23:41:06
阅读次数:
236
这是一篇Python爬取CSDN下载资源信息的例子,主要是通过urllib2获取CSDN某个人所有资源的资源URL、资源名称、下载次数、分数等信息;写这篇文章的原因是我想获取自己的资源所有的评论信息,但是由于评论采用JS临时加载,所以这篇文章先简单介绍如何人工分析HTML页面爬取信息。...
分类:
编程语言 时间:
2015-07-21 18:46:39
阅读次数:
117
import requestsfrom lxml import etreeurl = "http://avdb.la/actor/"headers = {"User-Agent":'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KH...
分类:
编程语言 时间:
2015-07-18 00:26:23
阅读次数:
171
docs/cplat/rt/python/fetchurl - 百度开放云平台用python爬虫抓站的一些技巧总结 - OPEN 开发经验库
分类:
编程语言 时间:
2015-07-17 13:41:32
阅读次数:
130
问题mysql 查询出现错误error: (2014, "Commands out of sync; you can't run this command now")查询mysql文档中的解释
If you get Commands out of sync; you can’t run this command now in your client code, you are calling c...
分类:
编程语言 时间:
2015-07-17 00:31:46
阅读次数:
247
#coding:utf-8#author:Blood_Zero''' 1、获取网页信息 2、解决编码问题,通过charset库(默认不安装这个库文件)'''import urllibimport urllib2url = "http://192.168.1.135/myself/"htm...
分类:
编程语言 时间:
2015-07-15 18:35:16
阅读次数:
146
无奈的 做次标题党。 欢迎大家加入,交流。群号:284230680? 备注使用:“oschina”吧 上次分享的scrapy 代码。一直想 抓取一下 极客学院的。但是 在web层面上,根本没有办法突破 登陆机制。只能买个VIP 进行下载...
分类:
编程语言 时间:
2015-07-15 15:20:38
阅读次数:
172
python实现爬虫下载美女图片
本次爬取的贴吧是百度的美女吧,给广大男同胞们一些激励
在爬取之前需要在浏览器先登录百度贴吧的帐号,各位也可以在代码中使用post提交或者加入cookie
爬行地址:http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn=0
#-*- coding:utf-8 -*-
impo...
分类:
编程语言 时间:
2015-07-15 09:27:07
阅读次数:
224