DataFrame提供了一条联结所有主流数据源并自动转化为可并行处理格式的渠道,通过它Spark能取悦大数据生态链上的所有玩家,无论是善用R的数据科学家,惯用SQL的商业分析师,还是在意效率和实时性的统计工程师。 以一个常见的场景 -- 日志解析为例,有时我们需要用到一些额外的结构化数据(比如做IP ...
分类:
数据库 时间:
2017-10-27 01:30:36
阅读次数:
353
HBase是什么? HBase是建立在Hadoop文件系统之上的分布式面向列的数据库。它是一个开源项目,是横向扩展的。 HBase是一个数据模型,类似于谷歌的大表设计,可以提供快速随机访问海量结构化数据。它利用了Hadoop的文件系统(HDFS)提供的容错能力。 它是Hadoop的生态系统,提供对数 ...
分类:
其他好文 时间:
2017-10-23 15:43:40
阅读次数:
180
学习爬虫有一段时间了,今天使用Scrapy框架将校花网的图片爬取到本地。Scrapy爬虫框架相对于使用requests库进行网页的爬取,拥有更高的性能。 Scrapy官方定义:Scrapy是用于抓取网站并提取结构化数据的应用程序框架,可用于广泛的有用应用程序,如数据挖掘,信息处理或历史存档。 建立S ...
分类:
其他好文 时间:
2017-10-23 01:14:38
阅读次数:
307
sparksql结合hive最佳实践一、Spark SQL快速上手1、Spark SQL是什么Spark SQL 是一个用来处理结构化数据的spark组件。它提供了一个叫做DataFrames的可编程抽象数据模型,并且可被视为一个分布式的SQL查询引擎。2、Spark SQL的基础数据模型 Data ...
分类:
数据库 时间:
2017-10-20 18:41:12
阅读次数:
235
前言:这是笔者学习之后自己的理解与整理。如果有错误或者疑问的地方,请大家指正,我会持续更新! JSON (javascript object notation) 全称是 javascript 对象表示法,它是一种数据交换的文本格式,而不是一种编程语言,用于读取结构化数据。2001年由Douglas ...
分类:
Web程序 时间:
2017-10-10 01:32:09
阅读次数:
223
二十八、JSON 前两章我们探讨了XML的结构化数据,但开发人员还是觉得这种微型的数据结构还是过于烦琐、冗长。为了解决这个问题,JSON的结构化数据出现了。JSON是JavaScript的一个严格的子集,利用JavaScript中的一些模式来表示结构化数据。 1.JSON语法 JSON和XML类型, ...
分类:
Web程序 时间:
2017-10-09 17:43:41
阅读次数:
198
二十六、XML 随着互联网的发展,Web应用程序的丰富,开发人员越来越希望能够使用客户端来操作XML技术。而XML技术一度成为存储和传输结构化数据的标准。所以,本章就详细探讨一下JavaScript中使用XML的技术。 对于什么是XML,干什么用的,这里就不在赘述了,在以往的XHTML或PHP课程都 ...
分类:
其他好文 时间:
2017-10-09 17:41:18
阅读次数:
158
# 实体关系抽取算法研究信息抽取的分支非结构化数据->(半)结构化数据评测:- 消息理解会议MUC- 自动内容抽取ACE- 文本会议分析TAC TAC-KBP-ESF:关于人物的25种关系属性,关于组织机构的16种关系属性半监督的关系抽取算法:bootstrapping算法 创新点:1. 触发词特征 ...
分类:
其他好文 时间:
2017-10-04 15:50:58
阅读次数:
185
简介 TFS(Taobao !FileSystem)是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统,主要针对海量的非结构化数据,它构筑在普通的Linux机器集群上,可为外部提供高可靠和高并发的存储访问。TFS为淘宝提供海量小文件存储,通常文件大小不超过1M,满足了淘宝对小文件存储的需 ...
分类:
Web程序 时间:
2017-10-03 23:20:57
阅读次数:
317
Spark SQL 是 Spark 处理结构化数据的一个模块.与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL... ...
分类:
数据库 时间:
2017-09-26 21:01:26
阅读次数:
340