文本自动分类技术是文字管理的基础。通过快速、准确的文本自动分类,可以节省大量的人力财力;提高工作效率;让用户快速获得所需资源,改善用户体验。本文着重对KNN文本分类算法进行介绍并提出改进方法。一、相关理论介绍文本分类技术的研究由来已久,并且取得了很多可喜的成果,形成了一套完整的文本自动分类流程。(1...
分类:
编程语言 时间:
2015-07-03 18:46:25
阅读次数:
229
听人说做文本分类时处理100G的文本文件,居然不用大数据,处理方法就是用shell的split去分割成若干小文件。
split命令
NAME
split - split a file into pieces
SYNOPSIS
split [OPTION] [INPUT [PREFIX]]
DESCRIPTION
Output fixed-...
分类:
系统相关 时间:
2015-06-17 21:33:31
阅读次数:
146
1. TF-IDF的误区
TF-IDF可以有效评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。因为它综合表征了该词在文档中的重要程度和文档区分度。但在文本分类中单纯使用TF-IDF来判断一个特征是否有区分度是不够的。
1)它没有考虑特征词在类间的分布。也就是说该选择的特征应该在某类出现多,而其它类出现少,即考察各类的文档频率的差异。如果一个特征词,在各个类间分布比较均匀...
分类:
其他好文 时间:
2015-06-04 19:27:23
阅读次数:
1273
Naive Bayes
在GDA模型中,特征向量xx是连续的实数向量,在这一讲里,我们将要讨论另外一种算法用来处理特征向量xx是离散值的情况。
我们先考虑一个例子,用机器学习的方法建立一个垃圾邮件过滤器,我们希望用一种算法来甄别邮件的信息以确定该邮件是不是垃圾邮件,通过学习这个算法,我们将能建立自己的垃圾邮件过滤器帮我们对邮件进行分类,邮件分类只是一系列我们称之为\textbf{文本分类}中的...
分类:
其他好文 时间:
2015-05-21 19:41:05
阅读次数:
247
最近两天简单看了下最大熵模型,特此做简单笔记,后续继续补充。最大熵模型是自然语言处理(NLP, nature language processing)被广泛运用,比如文本分类等。主要从分为三个方面,一:熵的数学定义;二:熵数学形式化定义的来源;三:最大熵模型。
注意:这里的熵都是指信息熵。
一:熵的数学定义:
下面分别给出熵、联合熵、条件熵、相对熵、互信息的定义。
熵:如果一个随机...
分类:
其他好文 时间:
2015-05-12 00:09:14
阅读次数:
270
一.文本预处理
定义:将文本转化为计算机可处理的形式,将文章分成单个的词语,形成向量形式。
二.降维(特征选取)三.分类器的构建...
分类:
其他好文 时间:
2015-05-03 12:00:38
阅读次数:
90
朴素贝叶斯:有以下几个地方需要注意:1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。2. 计算公式如下:其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是的计算方法,而由...
分类:
编程语言 时间:
2015-05-03 11:52:54
阅读次数:
248
http://www.cnblogs.com/CherishFX/p/4005336.html下载搜狗新闻语料库1. 下载ictclas4j 后面的附件中,我有放上ictclas4j的源码包ictclas4j.zip2. 在Eclipse中新建项目并进行相关配置 首先把ictclas4j解压...
分类:
其他好文 时间:
2015-04-29 21:13:29
阅读次数:
734
这一期比赛可以说是刚好对上我胃口,总算和是和机器学习沾上边了。我的这个方法是采用的是贝叶斯方法,效果达到85.5%,这里给出来分享一下,其他训练方法的朋友也可以交流一下。
先说一点题外话:
之前写的“小样本理论”已经在近期完善了(在连续几个月的时间里,我一想这个问题脑袋就一片浆糊),但是我想在了解一下其他人在该方面的处理方法后再来吹牛,因此这里这么久都没有写后半部分。在这次的文本分类中...
分类:
编程语言 时间:
2015-04-26 13:55:48
阅读次数:
154
一.带有随机隐藏节点的单隐层前馈神经网络1.相关条件:
N个不同样本(xi,tix_i,t_i), xix_i =[xi1,xi2,xi3,........,xin]T[x_{i1},x_{i2},x_{i3},........,x_{in}]^T, tit_i =[ti1,ti2,ti3,........,tim]T[t_{i1},t_{i2},t_{i3},........,t_{im}]^T...
分类:
其他好文 时间:
2015-04-18 08:52:20
阅读次数:
319