最近一直在看KDD的论文,不过,由于老师并没有什么合理的方向性,所以考虑把kdd中的大部分内容都利用python将所有标题、摘要获取下来。还有一个原因在于,看acm上的摘要,都只显示了两行,再看多点儿,就需要点击expand,觉得非常不爽,所以就用python脚本把html标签删掉。。想到的方法自然...
分类:
编程语言 时间:
2014-08-01 19:03:52
阅读次数:
259
物联网中的隐私保护是实际应用中要解决的关键问题之一。作为物联网组成部分的无线传感器网络,希望在进行精确数据融合的同时,又能保护个人的隐私.文中提出了一种新的低能耗无线传感器网络数据融合隐私保护算法ESPART.一方面算法依靠数据融合树型结构本身的特性,减少数据通信量;另一方面算法分配随机时间片,避免...
分类:
其他好文 时间:
2014-08-01 18:43:42
阅读次数:
205
Slots是Hadoop的一个重要概念。然而在Hadoop相关论文,slots的阐述难以理解。网上关于slots的概念介绍也很少,而对于一个有经验的Hadoop开发者来说,他们可能脑子里已经理解了slots的真正含义,但却难以清楚地表达出来,Hadoop初学者听了还是云里雾里。我来尝试讲解一下,以期...
分类:
其他好文 时间:
2014-07-31 20:17:27
阅读次数:
209
glog本身是很高效的,google的大牛肯定知道大规模的写日志用glog的话肯定会影响业务线程的处理,带负荷的磁盘IO谁都桑不起。比方levelDB就是默认异步写,更不用说google的三驾马车都是分布式的。之前看过其论文,简直是引领时代。在glog的issue里有人提出了异步写的问题,可是语焉不...
分类:
编程语言 时间:
2014-07-31 20:06:27
阅读次数:
388
企业人力资源管理系统毕业设计,大大的提高了企业人才的利用率和人事管理的方便行,使之为企业创造了更大价值。人才利用率的提高,增强了企业的核心竟争力,全面提升了企业的管理能力,从而企业适应了信息时代的网络化管理要求。 本篇系统论文,详细阐述了从系统的需求分析、系统分析、概要设计、详细设计和测试开发...
分类:
其他好文 时间:
2014-07-30 11:36:23
阅读次数:
218
核心抽象和基本原语
PCollection是一个不可变的bag,可以是有序的(Sequence),也可以是无序的(Collection)。PCollection可以来自于内存里的Java PCollection对象,也可以读取自文件。
PTable,可以看成PCollection<Pair>,不可变无序multi-map。
第一个原语是parallelDo(),把PCollection变成新的PCollection,处理方式定义在DoFn里。e...
分类:
编程语言 时间:
2014-07-29 18:08:02
阅读次数:
294
背景
异构数据的适配及数据可扩展性,资源可扩展性,廉价机器,SQL查询。
架构概述
Worker pool,query server,clientinterfaces,metadata server
Worker线程是long-running的,worker pool包括master节点和worker节点,以及一个master watcher。
Query server把query解析,优化之后传给master执行,优化包括一些基本的规则优化和基于成本的优化。...
分类:
其他好文 时间:
2014-07-29 18:07:02
阅读次数:
250
基于内容的变长分块(CDC)技术,可以用来对文件进行变长分块,而后用来进行重复性检测,广泛用于去重系统中。后来又出现了对相似数据块进行delta压缩,进一步节省存储开销。所以就需要一种高效的相似性检测算法,在论文 WAN Optimized Replication of Backup Datasets Using Stream-Informed Delta Compression
提出的sup...
分类:
其他好文 时间:
2014-07-29 18:02:42
阅读次数:
325
谁获得了最高奖学金
时间限制:1000 ms | 内存限制:65535 KB
难度:2
描述 某校的惯例是在每学期的期末考试之后发放奖学金。发放的奖学金共有五种,获取的条件各自不同:
1) 院士奖学金,每人8000元,期末平均成绩高于80分(>80),并且在本学期内发表1篇或1篇以上论文的学生均可获得;
2) 五四奖学金,每人4000元,期末平均成绩高于8...
分类:
其他好文 时间:
2014-07-29 17:56:52
阅读次数:
232
2012年1月18日,Amazon发布了AmazonDynamoDB,一个完全托管的,高性能,高可靠,经济高效的NoSQL数据库。DynamoDB非常适合互联网规模的应用。
DynamoDB数据库融入了亚马逊在大规模非关系型数据库和云计算领域积累的多年丰富经验。早在2007年,亚马逊就曾经发布了一篇论文,深入讨论了Amazon Dynamo使用的设计理念和实现技术,以及如何解决大规模扩展和同时提供高可靠保护的问题。最初的Dynamo设计基于一系列在分布式系统中搭建高可靠、高扩展系统的核心的原则。现在的Ama...
分类:
数据库 时间:
2014-07-29 17:45:22
阅读次数:
304