相似匹配
在我们使用网页搜索时,会注意到每一个结果都包含一个 “相似页面” 链接,单击该链接,就会发布另一个搜索请求,查找出与起初结果类似的文档。Solr 使用 MoreLikeThisComponent(MLT)和 MoreLikeThisHandler 实现了一样的功能。如上所述,MLT 是与标准 SolrRequestHandler 集成在一起的;MoreLikeThisHandl...
分类:
其他好文 时间:
2015-05-29 18:13:39
阅读次数:
103
使用solr从pdf、office文档中建立索引和从数据库中建立相似,只不过这里需要tika来解析这些文档。8.1配置一个handler这个handler首先要在solrConfig.xml中配置,如下所示:
<requestHandler
name="/dataimport"
class="org.apache.solr.handler.dataimport.DataImportHandle..
分类:
其他好文 时间:
2015-05-28 18:21:28
阅读次数:
209
全排序Hive的排序关键字是SORTBY,它有意区别于传统数据库的ORDERBY也是为了强调两者的区别–SORTBY只能在单机范围内排序。1.1.1例1setmapred.reduce.tasks=2;原值selectcookie_id,page_id,idfromc02_clickstat_fatdt1wherecookie_idIN(‘1.193.131.218.1288611279693.0‘,‘1.19..
分类:
编程语言 时间:
2015-05-28 18:21:20
阅读次数:
199
PubSub(发布订阅)PUBLISHPUBLISHchannelmessage将信息message发送到指定的频道channel
。可用版本:>=2.0.0时间复杂度:O(N+M),其中N是频道channel的订阅者数量,而M
则是使用模式订阅(subscribedpatterns)的客户端的数量。返回值:接收到信息message
的订阅者数量。#对没..
分类:
其他好文 时间:
2015-05-28 18:20:55
阅读次数:
284
Array类通用数组类定义如下。final
classArray[A](len:Int)extendsSeq[A]{deflength:Int=lendef
apply(i:Int):A=...defupdate(i:Int,x:A):Unit=...defelements:
Iterator[A]=...defsubArray(from:Int,end:Int):Array[A]=...def
filter(p:A=>Boolean):Array[A]=...defmap[B](..
分类:
编程语言 时间:
2015-05-28 18:20:21
阅读次数:
331
Trident是以小批量(batch)的形式在处理tuple,并且每一批都会分配一个唯一的transaction
id。不同spout的特性不同,一个transactionalspout会有如下这些特性:1、有着同样txid的batch一定是一样的。当重播一个txid对应的batch时,一定会重播和之前对应txid的batch中同样的tup..
分类:
其他好文 时间:
2015-05-28 18:19:52
阅读次数:
188
PubSub(发布订阅)
PUBLISH
PUBLISH channel message
将信息 message 发送到指定的频道 channel 。
可用版本:
>=2.0.0
时间复杂度:
O(N+M),其中 N 是频道 channel 的订阅者数量,而 M 则是使用模式订阅(subscribed
patterns)的客户端的数量。
返回值:
...
分类:
其他好文 时间:
2015-05-28 18:14:34
阅读次数:
179
本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。
实验环境搭建
在进行后续操作前,确保下列条件已满足。
1. 下载spark binary 0.9.1
2. 安装scala
3. 安装sbt
4. 安装java
启动spark-shell单机模式运行,即local模式
local模式运行非常简单,只要运行以下命令即可,假设当前目录是...
分类:
Web程序 时间:
2015-05-28 18:13:05
阅读次数:
208
使用solr从pdf、office文档中建立索引和从数据库中建立相似,只不过这里需要tika来解析这些文档。8.1 配置一个handler
这个handler首先要在solrConfig.xml中配置,如下所示:
tika-data-config.xml
...
分类:
其他好文 时间:
2015-05-28 18:13:02
阅读次数:
749
1.1 全排序
Hive的排序关键字是SORT BY,它有意区别于传统数据库的ORDER BY也是为了强调两者的区别–SORT BY只能在单机范围内排序。[/url][王黎1]
1.1.1 例1
set mapred.reduce.tasks=2;
原值
select cookie_id,page_id,id fromc02_clickstat_fatdt1
where c...
分类:
编程语言 时间:
2015-05-28 16:15:06
阅读次数:
237