上一节我们通过爬虫工具爬取了近七万条二手房数据,那么这一节就对这些数据进行预处理,也就是所谓的ETL(Extract-Transform-Load) 一.ETL工具的必要性 数据分析的前提是数据清洗。不论如何高大上的算法,遇到错误数据,一个异常抛出来,绝对尸横遍野。而你不能指望核心算法为你处理错.....
分类:
其他好文 时间:
2014-09-01 22:32:33
阅读次数:
347
形象例子: Mary过完轮到Sarly过生日,还是不要叫她自己挑了,不然这个月伙食费肯定玩完,拿出我去年在华山顶上照的照片,在背面写上“最好的的礼物,就是爱你的Fita”,再到街上礼品店买了个像框(卖礼品的MM也很漂亮哦),再找隔壁搞美术设计的Mike设计了一个漂亮的盒子装起来……,我们都是Dec....
分类:
其他好文 时间:
2014-09-01 21:00:43
阅读次数:
365
形象例子: Mary今天过生日。“我过生日,你要送我一件礼物。”“嗯,好吧,去 商店,你自己挑。”“这件T恤挺漂亮,买,这条裙子好看,买,这个包也不错,买。”“喂,买了三件了呀,我只答应送一件礼物的哦。”“什么呀,T恤加裙子加包包,正好配成一套呀,小姐,麻烦你包起来。”“……”,MM都会用Comp....
分类:
其他好文 时间:
2014-09-01 20:54:53
阅读次数:
235
用WebCollector可以轻松爬取新浪微博的数据.
首先需要一个能查看cookie的浏览器插件,推荐使用 firefox浏览器+firebug(插件).
具体步骤:
1.用浏览器打开 http://weibo.cn/pub/ 这是新浪微博面对手机用户的一个入口.建议不要使用自己的账号来做爬虫.之所以选择weibo.cn来爬去,是因为这个手机版的限制较少,但是weibo.cn的账号密码...
分类:
Web程序 时间:
2014-09-01 19:39:03
阅读次数:
345
在公司项目中,有一些爬虫中需要用的国内代理,有一些需要用到国外代理,有一些不用代理我测试了三个方案方案一:在settings.py中开启代理,然后在spider中重写DOWNLOADER_MIDDLEWARES,但重写无法生效方案二:让scrapy切换到不同的settings.py文件,这个手动切换是有效果的,..
分类:
Web程序 时间:
2014-09-01 15:48:54
阅读次数:
251
对于想用每个想用Python开发网络爬虫的开发者来说,Scrapy无疑是一个极好的开源工具。今天安装之后觉得Scrapy的安装确实不易啊。所以在此博文一篇,往后来着少走弯路。 废话不多说了,如果你还不知道Scrapy是何物,可登陆在其官网http://scrapy.org/一览究竟,在此不再赘述。 ...
分类:
编程语言 时间:
2014-09-01 15:21:13
阅读次数:
405
Bloom Filter是由Bloom在1970年提出的一种快速查找算法,通过多个hash算法来共同判断某个元素是否在某个集合内。可以用于网络爬虫的url重复过滤、垃圾邮件的过滤等等。
分类:
其他好文 时间:
2014-09-01 14:01:23
阅读次数:
238
1.最基本的抓站import urllib2content = urllib2.urlopen('http://XXXX').read()-2.使用代理服务器这在某些情况下比较有用,比如IP被封了,或者比如IP访问的次数受到限制等等。import urllib2proxy_support = url...
分类:
编程语言 时间:
2014-09-01 12:07:13
阅读次数:
210
前言: 上次写了查询5天之内过生日的同事中的跨年问题的解决过程,网址为:http://blog.csdn.net/mchdba/article/details/38952033,居康甩脂机怎么样其中漏了一个闰年2月29日生日的细节问题,现在补充一下这个问题的处理过程: 5,补充闰年判断有朋友提醒,闰年2月29日生日的..
分类:
数据库 时间:
2014-09-01 10:51:24
阅读次数:
340