因为平时爱好摄影,所以喜欢看看色影无忌论坛的获奖摄影作品,所以写了个小script用来抓取上面的获奖图片,亲自测试可以使用。# -*- coding: UTF-8 -*-#作者Rocky Chen
import re, urllib, sys, os, time, urllib2, cookielib, string
class Download:
def __init__(self...
分类:
编程语言 时间:
2014-12-15 15:33:32
阅读次数:
207
1.http编程知识http中client 和server的工作模式 client和server建立可靠的tcp链接(在HTTP1.1中这个链接是长时间的,超时断开策略) client通过socket与server通信,发送request并接受response http协议是无状态的,是指每一...
分类:
编程语言 时间:
2014-12-11 11:56:24
阅读次数:
200
下面是一个 Python 爬虫最简单的例子,使用网络库urllib2 和正则表达式库re,模拟浏览器的 User-Agent。#!/usr/bin/env python# -*- coding: utf-8 -*-#引入基础网络库import urllib2#引入正则表达式模块import re#模...
分类:
编程语言 时间:
2014-12-10 19:46:40
阅读次数:
248
转自: http://www.jb100.net/html/content-22-821-1.htmlphp curl常用的5个例子 我用php ,curl主要是抓取数据,当然我们可以用其他的方法来抓取,比如fsockopen,file_get_contents等。但是只能抓那些能直接访问的页面,如...
分类:
Web程序 时间:
2014-12-09 15:28:11
阅读次数:
250
每种数据类型都有一个与之相关的队列,这个队列是由处理器架构而非这个语言本身授权的。校准数据元素允许处理器以高效的方式从内存中抓取数据,并由 此提高性能。为了提供最佳的性能,编译器试图保持这种数据元素...
分类:
其他好文 时间:
2014-12-09 12:36:20
阅读次数:
256
scrapy是一个python爬虫框架,使用起来还是非常简单的。使用pip安装scrapy 首先安装pip,安装后使用pip安装scrapy,pip install scrapyscrapy创建项目,及简单测试 这里有几个比较好的例子 http://blog.csdn.net/HanTangSo.....
分类:
其他好文 时间:
2014-12-08 22:59:17
阅读次数:
333
python 网页爬虫抓取的url页面 是GBK格式。
会显示乱码,所以以至于后面的用正则表达式匹配都是错误的。
以下方法可以解决此问题:
reload(sys)
sys.setdefaultencoding('utf-8')
在程序开头添加以上代码即可。...
分类:
编程语言 时间:
2014-12-08 19:39:09
阅读次数:
144
最近公司安排给我一个任务,抓取页面数据;http://survey.finance.sina.com.cn/static/20205/20131120.html?pid=20205&dpc=1,身为一个前端,还没搞过后台的东西,硬着头皮接下之后,就到网上各种找方法了。最终找到一个nodejs...
分类:
Web程序 时间:
2014-12-08 17:24:57
阅读次数:
545
最近在研究Python,熟悉了一些基本语法和模块的使用;现在打算研究一下Python爬虫。学习主要是通过别人的博客和自己下载的一下文档进行的,自己也写一下博客作为记录学习自己过程吧。Python代码写起来和Java的感觉很不一样。Python爬虫主要使用的是urllib模块,Python2.x版本是...
分类:
编程语言 时间:
2014-12-07 20:19:36
阅读次数:
222