RDD是Spark最基本,也是最根本的数据抽象。http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf 是关于RDD的论文。如果觉得英文阅读太费时间,可以看这篇译文:http://shiyanjun.cn/archives/744.html
本文也是基于这篇论文和源码,分析RDD的实现。
第一个问题,RDD是什么?Resilient Distributed Datasets(RDD,) 弹性分布式数据集。RDD是只读的、分区记录的集合。RD...
分类:
其他好文 时间:
2014-10-07 18:59:34
阅读次数:
331
近期要使用DBD,于是搜了下相关的资料,先贴个科普性的吧:转自http://www.javaeye.com/topic/202990DB综述DB最初开发的目的是以新的HASH訪问算法来取代旧的hsearch函数和大量的dbm实现(如AT&T的dbm,Berkeley的ndbm,GNU项目的gdbm)...
分类:
数据库 时间:
2014-10-02 12:33:22
阅读次数:
236
在Xtext的官网中是这样说的
“Building your own domain-specific languages has never been so easy. Just put your grammar in place and you not only get the working parser and linker but also first class Eclipse sup...
分类:
其他好文 时间:
2014-10-01 10:17:01
阅读次数:
693
最近在研究 Python ,发现用的还是很不习惯,很多PHP里面很简单的功能在Python 里面都得找半天,而且很多功能都得自己实现。
今天做个采集,需要过滤内容中的标签,搞了一下午,貌似终于搞出来了,测试了下达到了预想的效果,废话不多说贴上代码吧
from html.parser import HTMLParser
def strip_tags(html, save=None):
...
分类:
编程语言 时间:
2014-09-29 20:56:11
阅读次数:
188
版本库数据存储在Subversion1.2中,版本库中存储数据有两种方式。一种是在Berkeley DB数据库中存储数据;另一种是使用普通的文件,使用自定义格式。因为Subversion的开发者称版本库为(版本化的)文件系统,他们接受了称后一种存储方式为FSFS[14]的习惯,也就是说,使用本地操作...
分类:
数据库 时间:
2014-09-28 12:21:41
阅读次数:
317
#!/usr/bin/envpython
importsys
fromoptparseimportOptionParser
importstring
OK=0
WARNING=1
CRITICAL=2
UNKNOWN=3
unit={‘t‘:2**40,‘g‘:2**30,‘m‘:2**20,‘k‘:2**10,‘b‘:1}
defopt():
parser=OptionParser(usage="usage:%prog-wWARNING-cCRITICAL")
parser.add_option("..
分类:
移动开发 时间:
2014-09-27 19:10:10
阅读次数:
177
SAX is an abbreviation and means "Simple API for XML". A Java SAX XML parser is a stream oriented XML parser. It works by iterating over the XML and c...
分类:
编程语言 时间:
2014-09-26 04:18:18
阅读次数:
306
我曾在《浅谈XMl解析的几种方式》一文中介绍了使用DOM方式,SAX方式,Jdom方式,以及dom4j的方式来解析XML。除了可以使用以上方式来解析XML文件外,也可以使用Android系统内置的Pull解析器来解析XML文件。 Pull解析器的运行方式与SAX解析器相似。它提供了类似的事件,如开始元素和结束元素事件。使用parser.next()可以进入下一个元素并触发相应事件。事件将作为数值代码被发送,因此可以使用一个switch对感兴趣的事件进行选择,然后进行相应处理。当元素开始解析时,调用parse...
分类:
移动开发 时间:
2014-09-26 01:50:58
阅读次数:
387
明天回家就没有网络,今晚就将整个编写过程记录下来。顺带整理思路以解决未能解决的问题。标题有点托大,想将Berkeley DB做成分布式存储,感觉很高端的样子,实际上就是通过ssh将Berkeley DB备份到其他网络地址上,查询的时候向多台电脑发送查询请求并返回结果,仅此而已。现在属于编写阶段,如果...
分类:
数据库 时间:
2014-09-25 23:36:48
阅读次数:
344
语法分析器
语法分析器(grammar parser)是编译器的核心部分之一,它的作用是检测词法分析器返回的token序列是否符合文法定义的规则。一个完整的语法分析器除了检测语法正确性外还要包含对出错的处理以及错误恢复等功能。...
分类:
其他好文 时间:
2014-09-24 10:37:26
阅读次数:
283