Hadoop的辉煌还能延续多久?摘要:Hadoop已经成为大数据的代名词。短短几年间,Hadoop从一种边缘技术成为事实上的标准。而另一方面,MapReduce在谷歌已不再显赫。当企业瞩目MapReduce的时候,谷歌好像早已进入到了下一个时代。Hadoop技术已经无处不在。不管是好是坏,Hadoo...
分类:
其他好文 时间:
2014-08-10 23:56:51
阅读次数:
396
题目链接:http://acm.hnu.cn/online/?action=problem&type=show&id=12890&courseid=274解题报告:输入一个有n个单词的句子,然后再输入这n个单词对应的意思是什么,要你翻译出这个句子最后是什么。一个裸的map 1 #include 2 ...
分类:
其他好文 时间:
2014-08-10 23:55:50
阅读次数:
285
虽然微软早已经建议在WINDOWS中用注册表代替INI文件,但是在实际应用中,INI文件仍然有用武之地,尤其现在绿色软件的流行,越来越多的程序将自己的一些配置信息保存到了INI文件中。 INI文件是文本文件,由若干节(section)组成,在每个带括号的标题下面,是若干个关键词(key)及其对应的....
分类:
其他好文 时间:
2014-08-10 23:52:41
阅读次数:
459
hdu1880:http://acm.hdu.edu.cn/showproblem.php?pid=1880题意:中文题,直接看题。题解:第一法用hash做的的题目。虽然用了很长时间,但是还是AC了。而且用了string 所以有点慢。 1 #include 2 #include 3 #include...
分类:
其他好文 时间:
2014-08-10 23:49:40
阅读次数:
300
在前一篇中的倒排索引介绍中, 我们了解到要把一篇文档(或者在电商业务中一个商品相关信息)放入索引系统中, 要对该文档的关键词进行提取分析出来后建立相应的倒排列表. 现在问题来了, 我们怎么从一篇文档中抽出所有以前可能要索引的词. 比如一个显示器的标题是 "三星显示器S22D300NY 21.5寸 L...
分类:
其他好文 时间:
2014-08-10 21:09:10
阅读次数:
343
lucene特点及效果文章里就不说了,网上有的是。我就简单说下自己号码大全了解,正常sql查询时:namelike‘%继中%‘想必咱们一定理解这样不会走索引关键词挖掘的,然后就在多行数据等级查询相应时刻会很慢,对吧,由于数据库在一行行扫呢。所以咱们自然会想到怎样能让它走索引?解..
分类:
编程语言 时间:
2014-08-10 18:58:11
阅读次数:
658
Lucene分词器之庖丁解牛留意:这儿配置环境变量要重新启动体系后收效我如今测验用的Lucene版本是lucene-2.4.0,它现已可以支撑中文号码大全分词,但它是关键词挖掘工具选用一元分词(逐字拆分)的方法,即把每一个汉字当作是一个词,这样会使树立的索引非常巨大,会影响查询功率.所以大..
分类:
其他好文 时间:
2014-08-10 18:58:01
阅读次数:
399
字典树 (解析加模版)
分类: ACM2012-07-06
12:24 204人阅读 评论(0) 收藏 举报
字典树:又叫trie树,单词查找树。是一种树形结构,典型的用于统计。经常用于统计一片文章当中出现确定的单词的次数,它的优点就在于:省略了相同前缀的比较。以下图为例:用单词carbohy,carhure,english,englnee来构造的tri...
分类:
其他好文 时间:
2014-08-10 18:49:10
阅读次数:
222
上星期写完词法分析器的时候,曾遇上一个无关紧要却X疼的问题。毕竟是第一次完整地写整个语言的编译器(暂且这么叫着吧,解释器更靠谱),由于经验不足,在字符串解析这一块驻足了两天才解决掉,这里记录下来供以后参考。哦对了,之所以想自己手写词法分析器,并不是我不知道有自动工具可以自动生成,而是我不会用,嗯,果...
分类:
数据库 时间:
2014-08-10 18:19:10
阅读次数:
414