一、中文分词:分词就是利用计算机识别出文本中词汇的过程。
1.典型应用:汉字处理:拼音输入法、手写识别、简繁转换 ;信息检索:Google 、Baidu ;内容分析:机器翻译、广告推荐、内容监控
;语音处理:语音识别、语音合成 。 2.分词难点:歧义、新词等。 3.分词技术:机械分词(查词典FMM/...
分类:
其他好文 时间:
2014-06-07 06:04:35
阅读次数:
511
在mysql 控制台当当为gbk的时候查询的数据是汉字,假设不是则为乱码。 set names
gbk; 那么查询出来的数据则为汉字
分类:
数据库 时间:
2014-06-03 13:05:18
阅读次数:
294
背景
前些天,遇到这样一个问题,问题的内容如下:
要求编写一个截取字符串的函数,输入为一个字符串和字节数,输出为按字节截取的字符串。但是要保证汉字不被截半个,如“我ABC”, 4,截取后的效果应该为“我AB”,输入“我ABC汉DEF”, 6,应该输出为“我ABC”,而不是“我ABC+汉的半个”。
问题
刚看到这个问题的时候,以为还是很简单的,但写出来...
分类:
其他好文 时间:
2014-06-01 14:47:29
阅读次数:
404
匹配中文字符的正则表达式:
[/u4e00-/u9fa5]评注:匹配中文还真是个头疼的事,有了这个表达式就好办了匹配双字节字符(包括汉字在内):[^/x00-/xff]评注:可以用来计算字符串的长度(一个双字节字符长度计2,ASCII字符计1)匹配空白行的正则表达式:/n/s*/r评注:可以用来删除...
分类:
其他好文 时间:
2014-05-31 17:28:25
阅读次数:
239
/** * 将字符串拆分为指定最大宽度的字符串数组。单字节字符宽度为1,多字节字符通常宽度为2 *
@param string $msg 要拆分的字符串 * @param int $width 结果数组中每个元素的最大宽度。如10代表10个英文字母或者5个汉字
...
分类:
Web程序 时间:
2014-05-30 04:14:47
阅读次数:
281
我这个是窃取我们公司同事的劳动成果,分享出来,看谁用到就帮助谁了,嘿嘿!!!一:取出字符串中的汉字(只保留汉字)的正则表达式:
Stringstr="sa汉字e3中国人r#|c";System.out.println(str.replaceAll("[^\u4E00-\u9FA5]",""));二:...
分类:
其他好文 时间:
2014-05-29 19:21:11
阅读次数:
306
这个能取大部分汉字的首字母, 但还不全, 有些UNICODE的汉字是取不到的,
要想取到所有汉字的首字母,最好是能做一个UNICODE汉字和拼音的对照表,通过对照表查.GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB2312收录了包括拉丁字母、希腊字母、日...
分类:
其他好文 时间:
2014-05-28 13:43:27
阅读次数:
420
vim在win下遇到汉字乱码早就知晓,本以为通过如下设置即可解决乱码问题 set
encoding=utf-8 set fileencoding=utf-8,chinese
这样设置是可以解决源码文件中的中文乱码问题但是菜单栏此时就变成了乱码, 肿么办? 网上查一解决方案 ,果断可行,摘录如下: s...
1.首先棋子使用的汉子标注,用图片代替汉字应该更加形象。2.一方行棋之后到另一方行棋之间没有时间限制,如果对方不走就无限等待3.聊天窗口设置很好,但是文字有字数限制,超出显示窗口会被覆盖4.对战类游戏,需要两个客户端,没有人机对战,在同一台电脑上对战需要打开2次5.大部分人由于电脑缺少**.dll无...
分类:
其他好文 时间:
2014-05-26 19:08:09
阅读次数:
228
在提取手写体字符特征中如何更好的截取图像中字符区域是很重要的事。
下面就给出一种截取字符区域的方法,以使字符在图像中占据更多的位置
A=imread(filename);
subplot(2,2,1);
imshow(A);
[N,M]=size(A);
...
分类:
其他好文 时间:
2014-05-25 21:29:40
阅读次数:
328