码迷,mamicode.com
首页 > 其他好文 > 详细

文本内容分析和智能反馈(1)-分析设计

时间:2015-05-28 07:07:00      阅读:154      评论:0      收藏:0      [点我收藏+]

标签:文本内容分析   数据挖掘   分词   

1、业务背景

某业务内容为短文本,5字或200字左右,针对某个专题,有附属属性。
提交人为非专业用户。

提交后,专家进行审核,某几个专家针对某个行政区划。

对审核不通过的内容,专家会给出修改建议

业务量较大,单次审核周期一般在1~3个工作日。

如果能够提高一次通过率,将直接提高系统效率。

对于5字左右短文本,如果能够智能审核,减轻专家工作量,也将对系统整体效率带来促进。

2、业务分析

有几件事情可以做:

  1. 分析历史审批意见,对审批意见分词,做词频统计。
  2. 分析历史审批意见,特别是审批不通过的审批意见,结合当前应用场景,提取关键属性,得出最高频的审批意见,以恰当形式呈现给用户。
  3. 结合应用场景,依据属性做关联分析或聚类分析,将分析结果呈现给填报用户。

3、功能设计

3.1、数据预处理模块

对审批意见分词,按如下关键属性保存分词结果。
关键属性包括:业务板块、行政区划、时间段(以半年为单位做离散化处理)、文档编号、专家、 词、 词频。

增量分析。

3.2、各纬度汇总

实现如下函数:

List<Map<String,Long>> getTopSuggest(Map<String,Object> dimensions)

依托预处理模块得到的数据,传入不同纬度的组合,返回词频最高的审批意见。

需注意无效词的过滤。

3.3、关联分析

获得高频出现的五元组、四元组、三元组、二元组,具体视结果质量而定。

找到恰当的阀值。

3.4、聚类分析

定义词的距离,进行聚类分析。

文本内容分析和智能反馈(1)-分析设计

标签:文本内容分析   数据挖掘   分词   

原文地址:http://blog.csdn.net/stationxp/article/details/46106093

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!