最近想上手Python。快速入门一门语言的方法就是写个小Demo。Python Demo必须是爬虫了。第一个小爬虫程序有些简陋,高手勿喷。关于爬虫主要分为三个部分:根据队列中的URL爬取界面、获取内容、保存结果。程序是以百度网站大全为种子URL,抓取页面中URL依次放入队列中,爬虫从URL队列依次取得新URL继续向外爬取。# -*- coding: utf-8 -*-
import urllib2...
分类:
编程语言 时间:
2015-04-29 21:47:24
阅读次数:
154
突然心血来潮想抓一个京东的商品价格,突然发现网页的源码里没有价格这一项,只有商品的编号,网上说是显示的同事js从数据库里取出商品价格,放在页面上,那么我只能模拟请求了。哇咔咔,记得去你给京东投简历之后就没有然后了,难道就因为我也叫京东,你这也太浮夸了,给我幼小心灵造成创伤了。
原本要写一下creepy这个模块来抓取了,但今天时间不够了,明天还要上班。。。。明天再写那个模块吧,据说...
分类:
编程语言 时间:
2015-04-29 10:00:23
阅读次数:
179
为了练手,使用爬虫爬一个“你懂得”图床的,使用的是urlretrieve函数,不但速度慢,还总是会报错,不是open的timeout就是上面提到的socket error。在网上找了许多办法诸如在urllib2.Request.urlopen().read()后需要调用close()关闭等方法并未奏效。
由于不想麻烦scrapy等库,所以发现了个简单粗暴的办法:
直接使用urllib自带的ope...
分类:
编程语言 时间:
2015-04-26 13:54:36
阅读次数:
295
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制#!/usr/bin/env python
#! -*- coding: utf-8 -*-
#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif" style="width:460px"
import urllib,urllib2
i...
分类:
编程语言 时间:
2015-04-26 13:53:49
阅读次数:
160
说明:仅为测试下载图片、正则表达式
测试url为钢铁侠贴吧的一个介绍mark各代盔甲帖子
以下代码将第一页的图片全部下载到本程序根目录#!/usr/bin/env python
#! -*- coding: utf-8 -*-
import urllib,urllib2
import re
#返回网页源代码
def getHtml(url):
html = urllib2.urlopen...
分类:
编程语言 时间:
2015-04-23 13:27:53
阅读次数:
184
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制;
此外也加入了输出格式控制,如果想加入手动设定存储路径功能,可以参考之前的百度贴吧爬虫#!/usr/bin/env python
#! -*- coding: utf-8 -*-
#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif...
分类:
编程语言 时间:
2015-04-23 13:18:49
阅读次数:
228
Behaviors in WCF are so stinking useful, and once you get past the basics of WCF they're arguably a necessity. Microsoft has saved itself from hundred...
分类:
其他好文 时间:
2015-04-22 17:54:26
阅读次数:
143
刚刚测试了糗百爬虫,结果第二天糗百的源代码就换格式了= =
重新改了正则表达式发上来:#! -*- coding:utf-8 -*-
#! usr/bin/python'''
#=====================================================
# FileName: Spider_qb.py
# Describe: 从糗百下载段子并依次播放
#...
分类:
编程语言 时间:
2015-04-22 09:38:51
阅读次数:
200
有小部分的修改,并加入详细注释#! -*- coding:utf-8 -*-
#! usr/bin/python'''
#=====================================================
# FileName: Spider_qb.py
# Describe: 从糗百下载段子并依次播放
# Modifier: sunny
# Sinc...
分类:
编程语言 时间:
2015-04-20 18:38:44
阅读次数:
143
Description
Here is a circle sequence S of length n, and you can choose a position and remove the number on it.
After that,you will get a integer. More formally,you choose a number x( 1<=x<=n ),then...
分类:
编程语言 时间:
2015-04-20 15:01:12
阅读次数:
209