简介:ApacheSqoop是专为ApacheHadoop和结构化数据存储如关系数据库之间的数据转换工具的有效工具。你可以使用Sqoop从外部结构化数据存储的数据导入到Hadoop分布式文件系统或相关系统如Hive和HBase。相反,Sqoop可以用来从Hadoop的数据提取和导出到外部结构化数据存储如关系数据库和企业数据仓库。Sqoop专为大数据批量传输设计,能够分割数据集并创建Hadoop任务
分类:
其他好文 时间:
2018-07-03 18:17:46
阅读次数:
168
入门案例 学习目标 创建一个Scrapy项目 定义提取的结构化数据(Item) 编写爬取网站的 Spider 并提取出结构化数据(Item) 编写 Item Pipelines 来存储提取到的Item(即结构化数据) 一. 新建项目(scrapy startproject) 在开始爬取之前,必须创建 ...
分类:
其他好文 时间:
2018-06-30 19:50:37
阅读次数:
171
简介 Spark SQL 是 Spark 处理结构化数据的一个模块.与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 ...
分类:
数据库 时间:
2018-06-30 14:52:23
阅读次数:
492
红帽/CentOSext4格式化大分区XX项目中,客户服务器操作系统为redhat6.4版本,有40T的磁盘空间用来存储结构化数据,但未挂载到任何目录下。对于MPP集群数据库,考虑到数据库的安装目录和数据存储目录,需要将该磁盘空间挂载到/opt目录下,但是由于磁盘空间过大,无法将其格式化为ext4格式,这时需要安装一个e2fsprogs1.42以上版本的rpm补丁包用以升级格式化工具,才能将40T
分类:
其他好文 时间:
2018-06-28 22:48:02
阅读次数:
220
proto2 Protocol Buffers 是一种轻便高效的结构化数据存储格式,可以用于结构化数据序列化,适合做数据存储或 RPC 数据交换格式。可用于通讯协议、数据存储等领域的语言无关、平台无关、可扩展的序列化结构数据格式。 字段规则 required: 字段必须存在 optional: 字段 ...
分类:
其他好文 时间:
2018-06-28 13:58:49
阅读次数:
185
Apache Spark 一个很快多用途的集群计算系统。提供了很多语言API :Java, Scala, Python and R,还支持很多高级的工具,包括Spark SQL用于SQL和结构化数据的处理,MLlib机器学习,GraphX 用于图形处理和Spark Streaming. 总的说:Sp ...
分类:
其他好文 时间:
2018-06-27 18:52:36
阅读次数:
229
关系模型:(结构化数据模型)关系模型实体-关系模型对象关系模型:基于对象的数据模型半结构化数据模型:XML(扩展标记语言)<name>Jerry</name><age>50</age>gender:name:uid:birthdate:name:age:gendername:uid:birthdate关系:关系代数运算交集:并集:差集:全集:补集:S
分类:
数据库 时间:
2018-06-27 11:30:09
阅读次数:
214
hbase: 分布式面向列的数据库,构建在hadoop之上,对海量结构化数据的快速随机访问。是hadoop生态系统的一部分,提供随机实时读写。hbase和hadoop的区别: hdfs hbase 1.分布式文件系统,存储大量数据 数据库 2.不支持快读单个记录查找 支持大表的快速查找 3.提供了高 ...
分类:
其他好文 时间:
2018-06-25 01:10:19
阅读次数:
154
ProtoBuf是一种灵活高效的独立于语言平台的结构化数据表示方法,可用于表示通信协议和数据存储等各方面,与XML相比,ProtoBuF更小更快更简单。你可以用定义自己ProtoBuf的数据结构,用ProtoBuf编译器生成特定语言的源代码,(如C++,Java,Python等,目前 ProtoBu ...
分类:
其他好文 时间:
2018-06-24 23:50:43
阅读次数:
324
3.爬取优质的资源:图片、文本、视频 爬取知乎钓鱼贴\图片网站,获得福利图片。 爬取微信公众号文章,分析新媒体内容运营策略。 1.了解爬虫的基本原理及过程 2.Requests+Xpath 实现通用爬虫套路 3.了解非结构化数据的存储 4.学习scrapy,搭建工程化爬虫 5.学习数据库知识,应对大 ...
分类:
其他好文 时间:
2018-06-23 21:02:34
阅读次数:
155