一、中文分词:分词就是利用计算机识别出文本中词汇的过程。
1.典型应用:汉字处理:拼音输入法、手写识别、简繁转换 ;信息检索:Google 、Baidu ;内容分析:机器翻译、广告推荐、内容监控
;语音处理:语音识别、语音合成 。 2.分词难点:歧义、新词等。 3.分词技术:机械分词(查词典FMM/...
分类:
其他好文 时间:
2014-06-07 06:04:35
阅读次数:
511
电脑用的好好的,突然出现了关闭任意窗口都提示“已停止工作”,每次都是这样,想想也就是偶尔优化一下,最近也没有修改过什么系统设置呀,突然想到昨晚JLink_V8固件丢失,修复仿真器来着,但这也没什么影响啊,恩,后来因为嫌弃搜狗拼音输入法新版功能太多,我只是用来输入,根本不用其他的功能,就更换成了老版V4.3了,现在换回了最新V7版,故障解除。我猜可能是当时的搜狗版本还没有对windows8的很好支持...
HMM 模型是语音和语言处理中最普遍使用的序列标注模型之一。HMM 模型的建模包
括三个问题:(1)估计观察序列的概率;(2)快速找到最优的状态序列;(3)自动进行 模型的参数估计。本文围绕这三个问题展开,并介绍了在中文分词、词性标注中、拼音
输入法中的使用;同时,对 HMM 模型的一些扩展模型也进...
分类:
其他好文 时间:
2014-05-30 05:24:57
阅读次数:
212
刚接触android的时候,命名都是按照拼音来,所以有的时候想看懂命名的那个控件什么是什么用的,就要读一遍甚至好几遍才知道,这样的话,在代码的审查和修改过程中就会浪费不少不必要的时间。如果就是我一个人开发,一个人维护的话还好,可是如果一个项目是团队分工合作,这样让你的同事去看你的代码就更加吃力了,因...
分类:
移动开发 时间:
2014-05-28 21:15:55
阅读次数:
370
这个能取大部分汉字的首字母, 但还不全, 有些UNICODE的汉字是取不到的,
要想取到所有汉字的首字母,最好是能做一个UNICODE汉字和拼音的对照表,通过对照表查.GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB2312收录了包括拉丁字母、希腊字母、日...
分类:
其他好文 时间:
2014-05-28 13:43:27
阅读次数:
420
Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试、两个核心配置文件介绍、中文分词器配置、维护索引、查询索引,高亮显示、拼写检查、搜索建议、分组统计、自动聚类、相似匹配、拼音检索等功能的使用方法。在代码文本框中...
分类:
其他好文 时间:
2014-05-26 22:22:05
阅读次数:
886
本人提供的方法有如下特点:1.代码精简,使用简单,只要会基本的SQL语句就行2.不用建立mysql
函数等复杂的东西3.汉字库最全,可查询20902个汉字方法如下:1、建立拼音首字母资料表Sql代码:(最好再加上主键和索引)DROPTABLEIFEXISTS`pinyin`;CREATETABLE`...
分类:
数据库 时间:
2014-05-26 20:59:56
阅读次数:
383
题目描述
【编程题】(满分19分)
在很多软件中,输入拼音的首写字母就可以快速定位到某个词条。比如,在铁路售票软件中,输入: “bj”就可以定位到“北京”。怎样在自己的软件中实现这个功能呢?问题的关键在于:对每个汉字必须能计算出它的拼音首字母。
GB2312汉字编码方式中,一级汉字的3755个是按照拼音顺序排列的。我们可以利用这个特征,对常用汉字求拼音首字母。
...
分类:
其他好文 时间:
2014-05-25 23:14:36
阅读次数:
314
using System;using System.Collections.Generic;using
System.Linq;using System.Text;namespace SU{ /// /// 中文转拼音 /// public class
PinYin ...
分类:
其他好文 时间:
2014-05-23 06:46:51
阅读次数:
395
一:上图,不清楚的看代码注解,很详细了二:具体代码窗体代码using System;using
System.Collections.Generic;using System.ComponentModel;using System.Data;using
System.Drawing;using Sy...