import re
import urllib
import os
def rename(name):
name = name + '.jpg'
return name
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getImg(ht...
分类:
编程语言 时间:
2015-01-30 09:08:37
阅读次数:
211
#!/usr/bin/python
#encoding=utf-8
import?urllib2????
import?urllib????
import?re????
import?thread????
import?time????
class?Spider(object):
????
????def??__ini...
分类:
编程语言 时间:
2015-01-29 01:59:29
阅读次数:
347
import java.io.IOException;
import java.net.MalformedURLException;
import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com...
分类:
Web程序 时间:
2015-01-27 16:25:36
阅读次数:
216
之前有一个工作是到服务器上去复制一串文字下来,很简单的操作,但是需要重复50次左右,每次花费大概三分钟,一遍下来两个多小时就进去了。因此就做了这个工具自动抓取数据。工具主要做三件事情:登陆,下载,截取。登陆部分由于服务器使用的是windows安全校验,如图:需要模拟登陆才能获取到网页数据。首先用fi...
分类:
Web程序 时间:
2015-01-27 11:01:15
阅读次数:
274
之前的数据抓取都是用的八爪鱼软件,老大突发奇想要我自己搞个爬虫来抓取数据,网上找找貌似apache的nutch比较合适,于是就开始安装这啥nutch。 对于一个linux零基础的人来说,还要先学学linux,大致了解了ssh连接工具怎么用后就开始正事了。了解到从nutch2开始,源码就必须要自己编....
分类:
数据库 时间:
2015-01-26 19:00:26
阅读次数:
1393
Scrapy介绍
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。
所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加...
分类:
其他好文 时间:
2015-01-25 18:16:58
阅读次数:
212
原文地址:http://blog.csdn.net/pi9nc/article/details/9734437[Python]网络爬虫(一):抓取网页的含义和URL基本构成分类:爬虫Python2013-05-13 22:301597人阅读评论(0)收藏举报一、网络爬虫的定义网络爬虫,即Web S....
分类:
编程语言 时间:
2015-01-20 17:43:05
阅读次数:
357
转自:http://my.oschina.net/bv10000/blog/111736正则表达式能根据设置匹配各种数据(比如:e-mail地址,电话号码,身份中号码等等)。正则表达式功能强大,使用灵活,C#,Java,JavaScript等多种语言都支持正则表达式。在互联网上“抓取数据”更是少不了...