上项目的时候,遇见一次需求,需要把在线的其中一个collection里面的数据迁移到另外一个collection下,于是就百度了看到好多文章,其中大部分都是使用导入的方法,没有找到在线数据的迁移方法。于是写了python脚本,分享出来。思路:collection数据量比较大,所以一次性操作所有数据太大,于是分段执行操作。先分段按1000条数据量进行查询,处理成json数据把处理后的json数据发送
分类:
编程语言 时间:
2019-09-04 09:39:34
阅读次数:
78
老大:这个项目需要用到搜索引擎,小李你去学习一下。 小李:喳! 小李:以前用过的搜索引擎是solr4.7,那已经是两年前使用的了不知道现在有没有更好的解决方案了呢? 小李打开了google,百度,bing一阵巴拉巴拉...... 小李:唔~适合项目的搜索引擎有elasticsearch,solr先分 ...
分类:
其他好文 时间:
2019-09-03 16:40:59
阅读次数:
128
有关Lucene的问题(4):影响Lucene对文档打分的四种方式 在索引阶段设置Document Boost和Field Boost,存储在(.nrm)文件中。 如果希望某些文档和某些域比其他的域更重要,如果此文档和此域包含所要查询的词则应该得分较高,则可以在索引阶段设定文档的boost和域的bo ...
分类:
Web程序 时间:
2019-09-03 16:24:46
阅读次数:
128
今日工作:继续学习学长的资料,发现他的代码相比普通的搜索软件多了一些细节 可以加以学习并为我所用。 明日工作:完成文件内容导入数据库,完成solr复杂条件查询代码的编写。 今日小结:多多上网查询资料并努力消化会有很大帮助。 <!--StartFragment --> ...
分类:
其他好文 时间:
2019-09-01 21:45:26
阅读次数:
82
今日完成: 解决了solr不能启动的问题 找到了错误原因,查询了许多相关资料 solrJ配置的尝试以及老师下发相关资料的学习 明日计划: 尝试建立文本数据库,配置完成solrJ,学习相关网课 心得体会: 解决bug要从控制台寻找相关信息效率才会高起来 ...
分类:
其他好文 时间:
2019-09-01 16:38:27
阅读次数:
85
一、Lucene相关基础概念 定义:一个简易的工具包,实现文件搜索的功能,支持中文,关键字,多条件查询,凡是文件名或文件内容包含的都查出来。 数据分类:结构化数据(固定格式或有限长度的数据)和非结构化数据(不定长或无固定格式的数据) PS:lucene是搜索引擎的底层实现,solr实际上是对luce ...
分类:
Web程序 时间:
2019-09-01 01:42:57
阅读次数:
158
参考: hue的load balance官网: https://www.cloudera.com/documentation/enterprise/6/6.2/topics/hue_use_add_lb.html HA: https://www.cloudera.com/documentation/ ...
分类:
其他好文 时间:
2019-08-31 21:42:19
阅读次数:
153
二进制安装:https://www.cnblogs.com/raymoc/p/5343549.html CDH安装,官网:https://www.cloudera.com/documentation/enterprise/6/6.2/topics/hue.html $ HUE_HOMEHUE_HOM ...
分类:
其他好文 时间:
2019-08-31 21:37:07
阅读次数:
76
1、 每个模型的发展及思考 R-CNN: (1)将location的问题作为一个回归问题在实践中效果不佳; (2)使用滑动窗口检测,此前的CNNs大多用于受限的目标类别(faces、pedestrians etc),为了保留high spatial resolution,仅使用两层conv和pool ...
分类:
Web程序 时间:
2019-08-30 20:52:37
阅读次数:
333
cdh搭建1.软件准备操作系统Centos7.3(64位)cmcloudera-manager-centos7-cm5.15.0_x86_64.tar.gzcdhCDH-5.15.0-1.cdh5.15.0.p0.21-el7.parcelCDH-5.15.0-1.cdh5.15.0.p0.21-el7.parcel.sha1manifest.jsonmysqlmysql-community-co
分类:
其他好文 时间:
2019-08-29 09:33:42
阅读次数:
115