除了简单地给出查询词列表外,用户通常还会给出权重,该权重表示一个词项比另外一个词项更重要。这是通过在初始查询中用户人工指定词项权重来实现的。另外一种方法是自动指定权重--通过基于词项在整个文档集中出现的频率。基本思想是:不频繁出现的词的权重应该比频繁出现的词的权重更高。文献[Salton,1969;Salton,1970b]分别采用权重自动赋值与人工赋值方法计算相似度,然后进行查询比较。实验结果表...
分类:
其他好文 时间:
2014-08-04 14:36:17
阅读次数:
337
使用NLPIR-ICTCLAS2014分词系统...
分类:
其他好文 时间:
2014-08-04 14:18:57
阅读次数:
258
Trie树,又称字符查找树、前缀树,主要用于字符匹配(详见http://en.wikipedia.org/wiki/Trie)。适合做关键词查找,比如查找文章中的关键字然后给他们加链接。 当然对脏词的过滤应用也是样,只是把替换连接的工作换成了替换字符。当前的代码还只是进行简单的替换,并没有做一些字符...
分类:
其他好文 时间:
2014-08-04 14:07:57
阅读次数:
270
闭包是一个什么概念呢?先来看下面一段代码:js闭包</html 如果要改为弹出正确的序号(从0开始)则js要改为如下这样: 这据说是闭包这个牛B词的实现。 其实,他写的太复杂了,实际上相当于这样写,而实际上在真正的开发中,下面的代码风格也是比较好的。 哈,这样就清晰多了。效果一样。 下面再...
分类:
编程语言 时间:
2014-08-04 13:57:27
阅读次数:
308
因为连续异或满足区间减法性质,所以可以状压之后用异或来判断是否为符合条件的单词并且存储次数一开始用map,一直超时。虽然直接用开1#include #include #include #include #include #include #include #include #include #inc...
分类:
其他好文 时间:
2014-08-04 13:51:17
阅读次数:
188
翻译火星语,不过火星语也是使用英文单词的,就是把一个单词对应到另外一个单词。
可以使用map, 使用二分,方法很多。
不过最快的应该都是Trie解法了。
把火星语挂在Trie树中,然后在叶子节点增加一个string容器,装英语单词。
查找的时候,找到了出现在Trie中的火星语,就返回string就可以了。
#include
#include
#include
using n...
分类:
其他好文 时间:
2014-08-04 11:02:47
阅读次数:
234
题意 给你一篇文章 以"#"号结束 按字典序求输出这篇文章中真正只出现过一次的单词 就是不能通过字母重新排列得到文章中另一个单词的单词
把每个单词的字母全部化为小写 再把这个单词中的字母按字典序排列 得到一个字符串 用map记下出现次数就行 只出现过一次的就是要输出的...
分类:
其他好文 时间:
2014-08-04 10:59:17
阅读次数:
211
Problem DescriptionIgnatius最近遇到一个难题,老师交给他很多单词(只有小写字母组成,不会有重复的单词出现),现在老师要他统计出以某个字符串为前缀的单词数量(单词本身也是自己的前缀).Input输入数据的第一部分是一张单词表,每行一个单词,单词的长度不超过10,它们代表的是老...
分类:
其他好文 时间:
2014-08-04 01:58:36
阅读次数:
263
2 -语言这一节从词法、语法、句法上描述 Lua 。 换句话说,这一节描述了哪些 token (符记)是有效的,它们如何被组合起来,这些组合方式有什么含义。关于语言的构成概念将用常见的扩展 BNF 表达式写出。也就是这个样子: {a} 意思是 0 或多个a, [a] 意思是一个可选的a。 非最终的符...
分类:
其他好文 时间:
2014-08-04 01:46:46
阅读次数:
242
说说:感觉这题目是做得越来越繁琐了。这道题基本上把接下来课设要做的英语词典的框架给做出来了。好像本题的解法就是所谓的倒排索引。先给你一系列的句子,其实就是一系列的词啦。当然里面要把一些词去掉。然后把剩下的每个词都做成索引。最后按字典序把所有词所在的句子都输出就可以了。我的做法是定义了一个结构index包含关键词和一个指针,该指针指向一个链表,链表中的每个节点包含了该关键词所在的句子的位置,以及该关...
分类:
其他好文 时间:
2014-08-03 23:25:56
阅读次数:
539