TF-IDF算法是一种简单快捷的文档特征词抽取方法,通过统计文档中的词频来对文档进行主题分类。TF-IDF(term frequency–inverse document frequency)是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件...
分类:
其他好文 时间:
2014-09-24 18:51:57
阅读次数:
252
数据抽取的开源工具一个是RDBMS一个是基于分布式的数据ETL工具====================原则: 主要是映射规则,基础字典数据,详细数据注意与ESB的编程模型的差异(编程思想上)
分类:
其他好文 时间:
2014-09-24 03:20:35
阅读次数:
302
开始初始化数据的时候要满足下面的条件:1.disable掉目标段表的外键约束2.disable掉目标端表的触发器3.删除目标段表的索引,加快初始化速度4.目标端表结构创建完成源端配置初始化抽取进程GGSCI (db11) 72> edit params IHREMD1 Extract IHREMD1...
分类:
其他好文 时间:
2014-09-24 01:23:45
阅读次数:
472
ETL 概念 ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。(1)数据抽取:从源数据源系统抽取目的数据源系统需要的数据;(2)数据转换:将从源数据源获取的数据按照业务需求,转换成目的数据源要求的形式,并对错误、不一致的数据进行清洗和加工。(3)数据加载...
分类:
其他好文 时间:
2014-09-23 20:46:15
阅读次数:
432
验证码这样的功能可以说是无处不在了,接下来使用php来实现验证码这样的功能,这里我是将验证码实现抽取到一个类中独立开来,那么后面如果再使用到验证码功能,直接引入该类文件并创建该类的实例,就可以使用验证码了,代码如下:
验证码类文件vcode.class.php
<?php
/**
*验证码类
*/
class Vcode{
private $width;//图片宽度
priva...
分类:
Web程序 时间:
2014-09-23 18:01:05
阅读次数:
207
原文:http://blog.csdn.net/lming_08/article/details/19432877MarchingCubes算法简介MarchingCubes(移动立方体)算法是目前三围数据场等值面生成中最常用的方法。它实际上是一个分而治之的方法,把等值面的抽取分布于每个体素中进行。...
分类:
其他好文 时间:
2014-09-23 01:04:43
阅读次数:
2326
你常见的布局一、布局第一步分析页面:自适应,定宽,多列,通栏...选择合适的标签选择合适的方案二、从页面中抽出骨架在开始coding前,我们需要仔细分析页面,然后抽取骨架和模块,如果你想的多更一些,那应该考虑到适应性和可扩展性三、实现方案float布局:优点:优先显示--可以在只改变html的顺序不...
分类:
Web程序 时间:
2014-09-23 00:37:53
阅读次数:
323
有时我们需要从DataTable中抽取Distinct数据,以前总是以对DataTable进行foreach之类纯手工方式获取。近来发现DataView可以帮我们直接获取Distinct数据DataTable dataTable;DataView dataView = dataTable.Defau...
分类:
其他好文 时间:
2014-09-22 17:03:42
阅读次数:
255
第一步:创建包接口类似java中的接口定义
create or replace
PACKAGE pack_sc_hmd_kh
IS
--方法的声明
PROCEDURE proc_hmd_kh(
p_y VARCHAR2,
p_m VARCHAR2,
p_d VARCHAR2);
END pack_sc_hmd_kh;
...
分类:
数据库 时间:
2014-09-22 16:00:42
阅读次数:
433
很多企业要求利用爬虫去爬取商品信息,但是他们大多数并没有选择nutch、crawler4j这样的爬虫框架,而是自己重新开发一套爬虫。其实nutch、crawler4j这种基于广度遍历的框架是完全可以完成商品爬取这种业务的,只需要通过简单的转换既可。...
分类:
编程语言 时间:
2014-09-22 15:47:02
阅读次数:
4678