最近一直没更新了诶,因为学习Backbone好头痛,别问我为什么不继续AngularJs~因为2.0要出来了啊,妈蛋!好,言归正传,最近帮我的好基友扒数据,他说要一些股票债券的数据。我一听,那不就是要做爬虫了么...果断用Node做!(其实也有一个股票数据API,sina提供的,但是由于不适用于债券...
分类:
其他好文 时间:
2015-01-30 14:38:01
阅读次数:
162
1 #coding:utf-8 2 import urllib2 3 import re 4 import threading 5 6 #图片下载 7 def loadImg(addr,x,y,artName): 8 data = urllib2.urlopen(addr).read()...
分类:
编程语言 时间:
2015-01-30 14:37:43
阅读次数:
150
import re
import urllib
import os
def rename(name):
name = name + '.jpg'
return name
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getImg(ht...
分类:
编程语言 时间:
2015-01-30 09:08:37
阅读次数:
211
最近一直没更新了诶,因为学习Backbone好头痛,别问我为什么不继续AngularJs~因为2.0要出来了啊,妈蛋!好,言归正传,最近帮我的好基友扒数据,他说要一些股票债券的数据。我一听,那不就是要做爬虫了么...果断用Node做!(其实也有一个股票数据API,sina提供的,但是由于不适用于.....
分类:
其他好文 时间:
2015-01-29 23:58:53
阅读次数:
374
这两天在做个爬虫, 一次任务要下载3万多个页面, 然后从这3万多个页面提取数据.以前写过两年的类似的东西, 基本都是写正则表达式, 速度快, 就是写正则表达式老费劲了, 目标网页稍微改动一点就要重写正则.后来我用了 HtmlAgilityPack + Fizzler, 很轻松的就处理了.昨天, 我找...
分类:
其他好文 时间:
2015-01-29 17:13:50
阅读次数:
405
#!/usr/bin/python
#encoding=utf-8
import?urllib2????
import?urllib????
import?re????
import?thread????
import?time????
class?Spider(object):
????
????def??__ini...
分类:
编程语言 时间:
2015-01-29 01:59:29
阅读次数:
347
写了个抓取appstore的,要抓取大量的app,本来是用httpclient,但是效果不理想,于是直接调用wget下载,但是由于标准输出、错误输出的原因会导致卡住,另外wget也会莫名的卡住。所以我采用:一、独立线程读取输出信息;二、自己实现doWaitFor方法来代替api提供的waitFor(...
分类:
编程语言 时间:
2015-01-28 19:12:01
阅读次数:
453
这是一个web搜索的基本程序,从命令行输入搜索条件(起始的URL、处理url的最大数、要搜索的字符串),它就会逐个对Internet上的URL进行实时搜索,查找并输出匹配搜索条件的页面。这个程序的原型来自《java编程艺术》,为了更好的分析,站长去掉了其中的GUI部分,并稍作修改以适用jdk1.5。...
分类:
编程语言 时间:
2015-01-28 17:30:59
阅读次数:
275
来源:http://www.freebuf.com/articles/web/42802.html写的超级详细,mark下,刚好学习爬虫的时候,有用到cookie模仿登录的,就顺便了解下。0×00 引言在Web技术的发展史上,Cookie技术的出现是一次重大的 变革。但是, Cookie技术又是一项...
分类:
其他好文 时间:
2015-01-27 18:16:34
阅读次数:
190