nginx里面有很多的爬虫日志,会影响到后期的数据分析,所以一般会去掉。nginx排除配置:location/{
#去掉爬虫Start
if($http_user_agent~*"bot|spider"){
access_logoff;
}
#去掉爬虫end
proxy_passhttp://cdel_jxjy;
......
}如果特别想要爬虫日志,也可以讲爬虫日志放到指定..
分类:
其他好文 时间:
2014-08-15 10:51:29
阅读次数:
299
HDFS
HDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,它具有以下几个特点:
1)适合存储非常大的文件
2)适合流式数据读取,即适合“只写一次,读多次”的数据处理模式
3)适合部署在廉价的机器上
但HDFS不适合以下场景(任何东西都要分两面看,只有适合自己业务的技术才是真正的好技术):
1)不适合存储大量的小文件,因为受Namenode内...
分类:
其他好文 时间:
2014-08-14 16:46:28
阅读次数:
260
Hive常用的存储类型有:1、TextFile: Hive默认的存储类型;文件大占用空间大,未压缩,查询慢;2、Sequence File:3、RCFile:facebook开发的一个集行存储和列存储的优点于一身,压缩比更高,读取列更快,它在mr环境中大规模数据处理中扮演着重要的角色;是一种行列存储...
分类:
其他好文 时间:
2014-08-14 16:01:08
阅读次数:
283
大数据和以往的信息产出方式相比具有三个明显的特征—数据量大、非结构性和实时性,它创造了一个无限可能的世界。企业正在以史无前例的方式建立和应用大数据解决方案,这些方案不仅能够帮助他们实现收益的最大化,更重要的是他们重新定义了与客户的关系。
企业为何变得如此痴迷?大数据真的和以前大范围数据处理有着如此大的差别么?
? 抽样数据分析VS全数据分析
直到...
分类:
其他好文 时间:
2014-08-13 10:32:25
阅读次数:
2210
刚学python,试着写了个非常简单的爬虫,爬一些MM的鲍照下来。记录一下#coding=utf-8import urllib,timeimport reglobal xx=0def getHtml(url): page = urllib.urlopen(url) html = page...
分类:
其他好文 时间:
2014-08-12 18:52:14
阅读次数:
257
初学Python,本身就在一些语句处有些迷惑,如 a = u'你好',不知加上这个Unicode参数有何作用。一直到做爬虫抓取新闻时,在cmd的输出上总是出现错误。经过检索相关知识后,对一些编码问题做个小总结,其中参杂个人猜测,难免会有错误,以后再慢慢修改了。 1.一定要声明#coding=X...
分类:
编程语言 时间:
2014-08-12 18:28:44
阅读次数:
203
select a.pluno,a.pluname,a.spec,a.curcsprc ,a.slprc ,d.qty 西部销售,e.qty 东部销售,f.qty 中区销售,g.qty 团购销售,a1.qty 西部库存,a2.qty 东部库存,a3.qty 中区库存,a4.qty 团购库存from 商...
分类:
其他好文 时间:
2014-08-12 16:59:34
阅读次数:
197
近几天在做几个爬虫,分析网页url的时候,抓取总是出现问题。后来了解到是贪婪和非贪婪模式的问题。记录一下本是想在一个html中抓取大量这种模式的href连接xxxxx写的正则表达式为reg = r''经过Regulator分析后,下面语句也匹配了出来href="http://www.xxx.info...
分类:
其他好文 时间:
2014-08-12 13:25:54
阅读次数:
214
小媛在努力
时间限制:1000 ms | 内存限制:65535 KB
难度:2
描述 在多媒体数据处理中,数据压缩算法尤为重要。小媛上完课后就想自己发明一个数据压缩算法。她想呀想,终于想到一个方法。在多媒体数据中有很多数据都是重复的,所以她想把连续相同的数据用数据出现的次数和数据本身表示。例如:1 1 1 2 3 3 3 3 3 压缩后及为3 1 1 2 5 3(表示3个1,1个2...
分类:
其他好文 时间:
2014-08-11 17:55:32
阅读次数:
215
原地址:http://www.9miao.com/question-15-54002.htmlFirefly——dbentrust示例说明一、数据库准备本篇示例演示的是firefly与MySQL和memcached之间的数据处理,所以要先准备好数据库。(数据库工具使用的是SQLyogEnt)1、创建...
分类:
数据库 时间:
2014-08-11 17:44:42
阅读次数:
341