1.调用庖丁分词器,分词grid@server01:~/data$hadoopjarmrtokenize.jartokenize.TokenizeDriver/home/grid/data/lesson8/home/grid/output/sportwords14/08/3121:59:33INFOinput.FileInputFormat:Totalinputpathstoprocess:10205.....14/08/3122:05:25INFOmapred.JobClient:Map..
分类:
其他好文 时间:
2014-09-01 15:48:44
阅读次数:
296
越来越多的研究发现,美国人在社交媒体网站上分享的他们的健康状况、生活方式的信息远比他们提供给医生、雇主、保险公司和政府机构的更加准确、及时。
换而言之,我们更易对朋友敞开心扉,而不是那些能够决定我们是否享有医疗服务的人。
虽然这只是反应了人性的一隅,却为患者和医疗服务提供者借助大数据分析来提高诊断和治疗给予了启发。研究结果表明,通过获得大量的、准确的患者数据可以改善医疗服务质量。...
分类:
其他好文 时间:
2014-09-01 15:36:23
阅读次数:
363
前言: 日志在开发和服务中扮演重要的角色, 有人用来追查/分析问题, 有人通过日志, 来记录重要的信息. 日志是数据分析和统计最重要的数据来源. 在Java领域, Log4j日志框架成为java开发人员的首选. 本文对Log4j作个总结, 权当作自己对log4j的一个学习笔记. 基本样例: ...
分类:
其他好文 时间:
2014-09-01 13:50:43
阅读次数:
299
基于数据挖掘技术的智能化数据分析系统设计与开发潍坊物价信息数据分析及展现背景: 商品价格和人们生活息息相关,比如农产品价格波动不仅会对农民收入和农民生产积极性产生直接影响,更关乎百姓的日常生活和切身利益。经常看新闻看到农民辛苦了一个季度的农作物全都烂在地里,因为价格太低廉,或者没有销路。虽然说物价波...
分类:
其他好文 时间:
2014-08-31 22:43:21
阅读次数:
287
ID3算法是J. Ross Quinlan在1975提出的分类预测算法,当时还没有数据挖掘吧,哈哈哈。该算法的核心是“信息熵”,属于数学问题,我也是从这里起发现数据挖掘最底层最根本的不再是编程了,而是数学,编程只是一种实现方式而已,数学才是基础,如:朴素贝叶斯分类,小波聚类,尤其是我正在搞的支持向量...
分类:
其他好文 时间:
2014-08-31 11:46:11
阅读次数:
298
对于事件A和事件B同时出现的,一种信息论的描述方法就是互信息,计算方式如下其意义:由于事件A发生与事件B发生相关联而提供的信息量。在处理分类问题提取特征的时候就可以用互信息来衡量某个特征和特定类别的相关性,如果信息量越大,那么特征和这个类别的相关性越大。反之也是成立的。以搜狗实验室的语料为例。选取金...
分类:
其他好文 时间:
2014-08-31 01:38:40
阅读次数:
205
WebSphere® Application Server Performance Tuning Toolkit 是一款基于 Eclipse 的智能工具,旨在帮助用户通过使用数据收集、数据分析和统计数据推断技术来调优 WebSphere Application Server 的性能。其目的是帮助用户查找瓶颈,并适当调优应用程序。...
分类:
移动开发 时间:
2014-08-30 23:09:12
阅读次数:
459
这一课的主题是:误差分析与噪声处理。内容如下:
1、Nonlinear Transformation(Continue)(非线性转换(续))
2、Error Measure (误差度量)(重点)
3、Noisy Targets(噪声指标)(重点)
4、Preamble to the Theory(理论热身)...
分类:
其他好文 时间:
2014-08-30 21:49:20
阅读次数:
370
这个话题很大,牵扯很多,试着回答一下,算是胡扯了。三类业务的关系,都是IT外包,至于外包的内容很杂。DC的外包,多半是基建和建维,一般不牵扯到软件开发,网站建设类的。金融IT外包就复杂多了,信息系统的建设,维护。软件开发,网站的运营。以及数据分析等等。医疗信息化和金融的差不多。三类的外包重合的地方,...
分类:
其他好文 时间:
2014-08-30 15:01:59
阅读次数:
178