本文就spark-cassandra-connector的一些实现细节进行探讨,主要集中于如何快速将大量的数据从cassandra中读取到本地内存或磁盘。
分类:
Web程序 时间:
2014-11-17 22:33:25
阅读次数:
492
虽然最近业绩有所下滑,也出现了一些技术故障,但Digg作为首屈一指的社会化新闻网站,其背后的技术还是值得一探,Digg工程师Dave Beckett在今年4月份写一篇名为《How Digg is Built》的文章,非常系统地将Digg背后的技术展现给大家,非常值得一看。一、Digg提供的服务一个社...
分类:
其他好文 时间:
2014-11-17 21:04:29
阅读次数:
202
基于lucene的分页有两种:
lucene3.5之前分页提供的方式为再查询方式(每次查询全部记录,然后取其中部分记录,这种方式用的最多),lucene官方的解释:由于我们的速度足够快。处理海量数据时,内存容易内存溢出。
lucene3.5以后提供一个searchAfter,这个是在特大数据量采用(亿级数据量),速度相对慢一点,像google搜索图片的时候,点击更多,然后再出来一批。这种方式就是把数据保存在缓存里面。然后再去取。
以下是再查询部分代码:...
分类:
Web程序 时间:
2014-11-17 15:55:25
阅读次数:
189
MongoDB是一个NoSQL数据库系统:一个数据库可以包含多个集合(Collection),每个集合对应于关系数据库中的表;而每个集合中 可以存储一组由列标识的记录,列是可以自由定义的,非常灵活,由一组列标识的实体的集合对应于关系数据库表中的行。下面通过熟悉MongoDB的基本管理 命令,来了解M...
分类:
数据库 时间:
2014-11-17 15:46:13
阅读次数:
413
安装流程 http://www.elasticsearch.org/overview/elkdownloads/下载对应系统的安装包(我下载的是tar的),下载解压以后运行es根目录下bin目录的elasticsearch命令(无需配置直接启动),启动后如果能看到类似于下面情况的大量的“INFO”信...
分类:
其他好文 时间:
2014-11-17 13:47:30
阅读次数:
221
一、AOP框架Encase 是C#编写开发的为.NET平台提供的AOP框架。Encase 独特的提供了把方面(aspects)部署到运行时代码,而其它AOP框架依赖配置文件的方式。这种部署方面(aspects)的方法帮助缺少经验的开发人员提高开发效率。NKalore是一款编程语言,它扩展了C#允许在...
Lucene编辑本词条缺少信息栏,补充相关内容使词条更完整,还能快速升级,赶紧来编辑吧!Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本...
分类:
Web程序 时间:
2014-11-14 17:37:31
阅读次数:
242
一、??Nutch安装并整合到Solr ? 1、下载并解压Nutch(此处使用版本1.9)????? http://nutch.apache.org/ ? 2、修改apache-nutch-1.9/conf/nutch-site.xml <property> <name>http.agent.name</name> <val...
分类:
其他好文 时间:
2014-11-13 19:15:38
阅读次数:
218
描述:一哥们离职找工作,最近聊了聊面试待遇要求一类的事情,有些感触。在一个公司呆的时间长了,对市场上对开发的要求已经不那么敏感了,也不知道人家要求哪些技能。一个公司的业务是有限的,呆了2年,3年,4年之后,知识面可能就狭隘了;4、5年的程序员市场上平均待遇是多少也不清楚,问问好朋友聊聊也只知道几家的...
分类:
编程语言 时间:
2014-11-13 18:31:50
阅读次数:
356
狄利克雷聚类算法 前面介绍的三种聚类算法都是基于划分的,下面我们简要介绍一个基于概率分布模型的聚类算法,狄利克雷聚类(Dirichlet Processes Clustering)。 首先我们先简要介绍一下基于概率分布模型的聚类算...
分类:
编程语言 时间:
2014-11-13 16:57:10
阅读次数:
306