码迷,mamicode.com
首页 >  
搜索关键字:数据抽取    ( 211个结果
数据仓库模型ETL架构(DWI/DWR/DM)
1.DWI DWI:数据湖、数据砥柱,一般存放在HDFS 数据仓库的基础数据来源,各种杂七杂八的数据 关键点:数据清洗、数据整合、异常处理、增量获取 ETL:E-数据抽取、数据清洁、格式转换,T-生成代理键ID、遵循三范式,L-数据加载 2.DWR DWR:数据仓库的中间层,星型结构 根据业务划分: ...
分类:其他好文   时间:2019-07-03 00:28:13    阅读次数:481
初始Kettle
初始Kettle(水壶)是开源的ETL(数据抽取Extract、转换Transform、加载Load)工具,数据抽取和转换工具。Java编写,可在Windows、Linux、Unix上运行,支持各种数据类型放到水壶里。以一种指定的格式流出,ETL工具允许来自不同的数据库的数据,通过图形化用户环境来描述。Kettle有两种脚本文件,transformation和job,transformation完
分类:其他好文   时间:2019-06-13 18:43:27    阅读次数:107
stegsolve---图片隐写查看器
1.配置java环境 2.下载stegslove 3.打开stegslove:点击Stegslove.jar,打开方式,通过java打开 File Format:文件格式,这个主要是查看图片的具体信息 Data Extract:数据抽取,图片中隐藏数据的抽取 Frame Browser:帧浏览器,主 ...
分类:其他好文   时间:2019-05-25 00:10:21    阅读次数:499
数据分析------数据处理(1)
1、数据导入 数据存在的形式多种多样,如文件有 csv、Excel、txt 格式,数据库有 MySQL、Access、SQL Server 等形式。 1.1 导入 txt 文件 read_table 函数,导入 txt 文件,格式如下: 其中,file 为文件路径与文件名; names 为列名,默认 ...
分类:其他好文   时间:2019-05-12 15:53:33    阅读次数:125
特征抽取
# coding=utf-8 from sklearn.feature_extraction.text import CountVectorizer from sklearn.feature_extraction.dict_vectorizer import DictVectorizer from ... ...
分类:其他好文   时间:2019-05-11 00:09:55    阅读次数:193
神经网路-SGD-1
SGD神经网络以及python中实现 1、SGD(stochastic gradient descend):<1>数据抽取;<2>计算梯度;<3>参数更新;<4>循环 2、三层SGD网络组件:隐藏层(1),隐藏层(2),输出层,损失函数 2.1隐藏层: <1>激活函数/激励函数:sigmoid函数和 ...
分类:其他好文   时间:2019-04-17 09:51:55    阅读次数:209
利用Kettle进行SQLServer与Oracle之间的数据迁移实践
Kettle简介 Kettle(网地址为http://kettle.pentaho.org/)是一款国外开源的ETL工具,纯java编写,可以在Windows、Linux、Unix上运行,数据抽取高效稳定。 Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一 ...
分类:数据库   时间:2019-03-26 01:16:11    阅读次数:686
数据科学之路-3
3.编程 A.python基础 B.excel基础 C.R Studio基础 D.表达式 E.SPSS F.变量 G.向量 H.矩阵 I.数组 L.因子 M.数组 N.数据框 O.读取CSV文件 P.读取原生文件 Q。数据抽取 R.使用数据框处理数据 S.函数 T.函数 U.因子分析 W.安装包 可 ...
分类:其他好文   时间:2019-03-17 01:31:01    阅读次数:183
前嗅ForeSpider教程:采集中国证券网
前几天有人问如何采集中国证券网,小编整理了一下,在此为大家做一下演示,同样适用于其他金融经济型的网站:第一步:新建任务①点击左上角“加号”新建任务,如图1:②在弹窗里填写采集地址,任务名称,如图2:③点击下一步,选择进行数据抽取还是链接抽取,本次采集要闻列表页新闻的正文数据,正文数据是通过点击列表链接进入的,所以本次需要抽取列表链接,所以点击抽取链接,如图3:第二步:通过地址过滤,得到所需的分区链
分类:其他好文   时间:2019-01-28 01:22:14    阅读次数:274
前嗅ForeSpider教程:通过搜索框检索关键词采集数据
第一步:新建任务①点击左上角“加号”新建任务,如图1:【图1】②在弹窗里填写采集地址、任务名称,由于此次需要配置关键词,所以在新建任务时,需要勾选一下“关键词采集”如图2:【图2】③点击下一步,选择进行数据抽取还是链接抽取,本次采集需要采集列表页中正文的所有文本信息,所以此处需要勾选“抽取链接”-“普通翻页”,如图3:【图3】第二步:配置关键词①由于在创建任务时,选择了关键词采集,所以此时,显示在
分类:其他好文   时间:2019-01-28 01:03:00    阅读次数:213
211条   上一页 1 2 3 4 5 6 ... 22 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!