Mahout小案例学习,实现k-means算法。环境:OS:Centos 6.5 x64 &
Soft:Hadoop 1.2.1 & Mahout 0.91、下载测试数据[huser@master hadoop]$ wget
http://archive.ics.uci.edu/ml/databas...
分类:
其他好文 时间:
2014-05-04 12:34:58
阅读次数:
340
1,procedure
是一个可以用编程的方式来操作SQL的集合;存储过程的优点?执行效率很高,因为存储过程是预编译的,即创建时编译,而SQL语句是执行一次,编译一次。调用存储过程可以大大减少同数据库的交互次数。降低网络通信量,因为存储过程执行的时候,只需要call存储过程名,不需要传递大量的SQL...
分类:
数据库 时间:
2014-05-04 12:33:33
阅读次数:
460
前两天将Hadoop2的完全分布式搭建文档整理发布于网上(http://blog.csdn.net/aaronhadoop/article/details/24859369),朋友相邀,就再将Hadoop2的伪分布式文档整理一下,搭建过Hadoop2完全分布式后,就笑对“伪分布式”说声
呵呵吧。
前期的jdk环境、SSH免密钥登录配置在此就不再赘述了,直接进入hadoop2的配...
分类:
其他好文 时间:
2014-05-03 21:51:45
阅读次数:
344
第48期百度技术沙龙上的《大数据场景下主题检索应用》讲座介绍了很多训练大规模主题模型的技术细节。讲座回来后,我粗略整理了下讲座上涉及的主题模型和训练大规模模型相关的资料和文献。
1. 主题模型的发展历史
a. 布尔模型 Boolean model
b. 向量空间模型 VSM (Vector space model)
c. 潜在语义索引 LSI (Latent...
分类:
其他好文 时间:
2014-05-03 21:40:07
阅读次数:
371
dataNode 无法启动是配置过程中最常见的问题,主要原因是多次format namenode 造成namenode 和datanode的clusterID不一致。建议查看datanode上面的log信息。解决办法:修改每一个datanode上面的CID(位于dfs/data/current/VERSION文件夹中)使两者一致。...
分类:
其他好文 时间:
2014-05-03 21:37:44
阅读次数:
308
安装完mysql后我们可以进行sql语句的操作:
我们可以使用以下命令连接到MySQL服务:
mysql -h localhost -u root -p
-h参数指定要连接的MySQL服务器地址
-u参数指定连接所使用的用户
-p参数指定使用密码验证登陆
MySQL服务绝大多数功能使用SQL语言进行管理。
SQL语言一般约定俗成使用大写,但是语言本身不限制大小写。几乎所有...
分类:
数据库 时间:
2014-05-03 21:15:52
阅读次数:
331
1. IS NULL 与 IS NOT NULL
不能用null作索引,任何包含null值的列都将不会被包含在索引中。即使索引有多列这样的情况下,只要这些列中有一列含有null,该列就会从索引中排除。也就是说如果某列存在空值,即使对该列建索引也不会提高性能。
任何在where子句中使用is null或is not null的语句优化器是不允许使用索引的。
2. 避免使用不兼容的数据类型。...
分类:
其他好文 时间:
2014-05-03 21:15:26
阅读次数:
264
上个月,参加了百度技术沙龙, 夏粉的《广告数据上的大规模机器学习》讲座介绍了大规模机器学习中的若干重要问题。遗憾的是,百度的相关算法没有公开的论文。
1. 数据处理
目标: 获取信息, 去除噪音
机器学习技术点: 选择对点击概率分布 预估足够多样本
解决方法: a. 不可见和不完整样本过滤; b. 样本采样; c. 异常样本检测
算法:a. 百度...
分类:
其他好文 时间:
2014-05-03 21:12:36
阅读次数:
378
大部分人对于网站都不懂如何去分析;网站分析有什么好处的?
可以帮助我们看网站存在一个什么阶段,可以帮助我们看出网站有没有问题;分析网站是作为一名优化人员必备的技术,所以我们必须要懂得如何去分析网站;接下来由泡馆史明星来教大家如何对网站进行详细分析:
A.站内分析
1.标题以及描述:分为“、栏目页、导航页、内容页、产品页”这些都是需要我们关系的,如果标题和描述写不好会直接影响关键词...
分类:
Web程序 时间:
2014-05-03 21:10:08
阅读次数:
271
一、概述:
Yarn调度器有许多实现,如Fifo, Capacity和Fair schedulers等。与其同时,正在进行一些优化措施来提高调度器在不同负载和工作场景下的性能。每个调度器都有自己的特性,调度决策受许多因素影响,如公平行、计算能力保证和资源的可靠性等。在部署一个调度算法到生产集群之前,评估一个调度算法是非常重要的,不幸的是,评估一个调度算法是不那么容易的,评估一个真正的集群是非常耗...
分类:
其他好文 时间:
2014-05-03 21:00:00
阅读次数:
443