http://www.cnblogs.com/txw1958/archive/2012/07/12/scrapy_installation_introduce.html(转载地址)Scrapy安装介绍一、 Scrapy简介Scrapy is a fast high-level screen scra...
分类:
其他好文 时间:
2015-05-04 11:28:59
阅读次数:
382
前言 最近阅读了spark mllib(版本:spark 1.3)中Random Forest的实现,发现在分布式的数据结构上实现迭代算法时,有些地方与单机环境不一样。单机上一些直观的操作(递归),在分布式数据上,必须进行优化,否则I/O(网络,磁盘)会消耗大量时间。本文整理spark随机森林实现中...
分类:
其他好文 时间:
2015-05-03 14:37:06
阅读次数:
317
1、复制文件至HDFS:
hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user
hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -mkdir /user/hadoop
hadoop@Mhadoop:/usr/local/hadoop$ bin/hdfs dfs -copyFromL...
分类:
系统相关 时间:
2015-05-02 15:16:53
阅读次数:
187
1.hbase相同的rowkey里存在多条记录问题的调研解决方案VERSIONS => 3,Hbaseversion最多插入三条记录将一个集群hbase中表 "VerticalDataTable" 数据插入另一张表时遇到问题,本来有十几个版本,但是只插入了3个版本(还是可以插入成功)搜索后发现是因为...
分类:
数据库 时间:
2015-05-02 11:08:15
阅读次数:
164
介绍ElasticSearch是一个开源的分布式搜索引擎,具备高可靠性,支持非常多的企业级搜索用例。像Solr4一样,是基于Lucene构建的。支持时间时间索引和全文检索。官网:http://www.elasticsearch.org它对外提供一系列基于java和http的api,用于索引、检索、修...
分类:
其他好文 时间:
2015-04-30 17:50:09
阅读次数:
154
http://www.infoq.com/cn/news/2014/12/mongdb-spark-movie-recommendMovieWeb是一个电影相关的网站,它提供的功能包括搜索电影信息、排名或者电影明星资料等。它拥有10000部电影的信息,70000个用户,和超过1千万的电影评分。借用它...
分类:
数据库 时间:
2015-04-29 21:17:04
阅读次数:
158
spark.shuffle.consolidateFiles=false 默认是false,shuffle阶段不进行文件的合并,1000个map和1000个reduce将产生1000 000个文件。设置为true减少shuffle阶段产生的文件数量。storageLevel的选择,根据自己的业务进行...
分类:
其他好文 时间:
2015-04-29 16:26:25
阅读次数:
128
大家都知道,现在Apache Spark可以说是最火的开源大数据项目,就连EMC旗下专门做大数据Pivotal也开始抛弃其自研十几年GreenPlum技术,转而投入到Spark技术开发当中,并且从整个业界而言,Spark火的程度也只有IaaS界的OpenStack能相提并论。那么本文作为一篇技术文章,我们接着就直接切入它的核心机制吧。
什么是内存计算技术?
关于内存计算,就像云...
分类:
Web程序 时间:
2015-04-29 15:08:30
阅读次数:
209
1.1朴素贝叶斯公式
贝叶斯定理:
其中A为事件,B为类别,P(B|A)为事件A条件下属于B类别的概率。
朴素贝叶斯分类的正式定义如下:
1、设为一个待分类项,而每个a为x的一个特征属性。
2、有类别集合。
3、计算。
4、如果,则 。
那么现在的关键就是如何计算第3步中的各个条件概率:
...
分类:
其他好文 时间:
2015-04-29 13:41:27
阅读次数:
302
spark streaming 如果以local 模式运行,log日志非常清楚。
如果log 日志是运行在yarn 模式下,driver 的日志可以通过reource manager 日志看到。但是executor的日志却看不到,我们往往错误都发生在executor里,比如典型的错误:如果我们连接hbase去存取数据的话,我们会在driver里初始化了连接,缺忽略的excutors里,导致程序出错...
分类:
其他好文 时间:
2015-04-29 13:38:51
阅读次数:
290