考虑用机器学习建立一个邮件过滤系统,来将邮件分成垃圾邮件和非垃圾邮件。首先我们建立一个词典,里面包含了邮件中所有的不重复单词。我们用长度为词典中单词数目的特征向量来表示一封邮件。如下所示:表示一封邮件,如果该邮件包含有词典中的第i个单词,那么,否则.为了建模,作一个很强的假设,假设词典中的每个单词是...
分类:
其他好文 时间:
2014-10-08 01:25:54
阅读次数:
385
类似汉语词典根据一个词,得到它里面具体的释义。由key和value组成key必须唯一value可以用list组成多值>>> contact={'lk':'18610314061','tom':'10086'} -- 定义一个字典>>> contact ...
分类:
其他好文 时间:
2014-10-07 20:32:43
阅读次数:
244
搜集了一些资料,与同学一起进行了简单的測试,总结例如以下。分词工具特点支持语言原理词典及扩展性StandardAnalyzer中文、英文(unicode)中文:单字符切分英文:依据空格切分ChineseAnalyzer中文,不支持中文和英文及数字混合的文本分词按字分词,与StandardAnalyz...
分类:
其他好文 时间:
2014-10-07 13:18:33
阅读次数:
266
因为从事开发,安装一个词典是很有必要,文中介绍安装openyoudao和stardic两个软件的方法 一.openyoudao的安装 因为是由window转来学ubuntu的,所以总是想安装和window下的同名软件,这个openyoudao和就是有道的linux版本吧,曾在按照网上的安装教...
分类:
其他好文 时间:
2014-09-26 22:30:48
阅读次数:
340
电商系统的分词,不同于百度这种通用搜索引擎,它有自己一套独立的词典和业务逻辑,它所处理的语料以及分词算法都是需要定制的。 ? ? 首先,是语料来源的不同,我们以京东商城为例,商品详情页截图如下最...
分类:
其他好文 时间:
2014-09-25 13:27:09
阅读次数:
229
一、HTML5 placeholder介绍
placeholder在英汉词典中解释成了“占位符”。我们不妨将placeholder来个临时拆分:place
+ hold + er.placeholder指的就是:“足以镇住这块区占据位置的字符。无论是传统软件或是web应用中,placeholder都是相当常见的。
如FireFox浏览器右上方的搜索占位符:
在...
分类:
Web程序 时间:
2014-09-24 19:48:37
阅读次数:
485
[摘要]关键词提取是中文信息处理技术的热点和难点,基于统计信息的方法是其中一个重要分支。本文针对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示,基于高维聚类技...
分类:
其他好文 时间:
2014-09-24 18:00:37
阅读次数:
141
题目链接:http://poj.org/problem?id=2503
题目大意:就是给你一本词典,问你能否在词典中找到你要查询单词的意思,不能就输出eh
思路:map的入门级题,直接词典中的词组存到map中,然后直接查询。就是有些细节需要注意
code:
#include
#include
#include
#include
#include
using nam...
分类:
其他好文 时间:
2014-09-22 22:35:23
阅读次数:
179
由胡正开发的星际译王是Linux平台上很强大的一个开源的翻译软件(也有Windows版本的)支持多种词库、多种语言版本。尤其词库设计比较合理。之前看到一篇博文《星际译王词库应用-自制英汉词典》中用简短的程序就实现了词典的基本功能,不过那个是Linux 下的C/C++版本的,于是决定参考移植一个JAV...
分类:
编程语言 时间:
2014-09-19 04:28:34
阅读次数:
456
Windows平台 ? 格微软件 ? IBM智能词典2000 ? 海词典典? 金山词霸 ? 灵格斯词霸 ? Babylon? 星际译王 ? 东方快车 (电子词典) ? 地球村点点通? 译典通 ? 译经 ? 法语助手? 有道词典 Linux平台 ? 星际译王 ? WordNet ? Gnome字典?....
分类:
其他好文 时间:
2014-09-19 04:28:24
阅读次数:
217