一、中文分词:分词就是利用计算机识别出文本中词汇的过程。
1.典型应用:汉字处理:拼音输入法、手写识别、简繁转换 ;信息检索:Google 、Baidu ;内容分析:机器翻译、广告推荐、内容监控
;语音处理:语音识别、语音合成 。 2.分词难点:歧义、新词等。 3.分词技术:机械分词(查词典FMM/...
分类:
其他好文 时间:
2014-06-07 06:04:35
阅读次数:
511
/** * 将字符串拆分为指定最大宽度的字符串数组。单字节字符宽度为1,多字节字符通常宽度为2 *
@param string $msg 要拆分的字符串 * @param int $width 结果数组中每个元素的最大宽度。如10代表10个英文字母或者5个汉字
...
分类:
Web程序 时间:
2014-05-30 04:14:47
阅读次数:
281
这个能取大部分汉字的首字母, 但还不全, 有些UNICODE的汉字是取不到的,
要想取到所有汉字的首字母,最好是能做一个UNICODE汉字和拼音的对照表,通过对照表查.GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB2312收录了包括拉丁字母、希腊字母、日...
分类:
其他好文 时间:
2014-05-28 13:43:27
阅读次数:
420
vim在win下遇到汉字乱码早就知晓,本以为通过如下设置即可解决乱码问题 set
encoding=utf-8 set fileencoding=utf-8,chinese
这样设置是可以解决源码文件中的中文乱码问题但是菜单栏此时就变成了乱码, 肿么办? 网上查一解决方案 ,果断可行,摘录如下: s...
1.首先棋子使用的汉子标注,用图片代替汉字应该更加形象。2.一方行棋之后到另一方行棋之间没有时间限制,如果对方不走就无限等待3.聊天窗口设置很好,但是文字有字数限制,超出显示窗口会被覆盖4.对战类游戏,需要两个客户端,没有人机对战,在同一台电脑上对战需要打开2次5.大部分人由于电脑缺少**.dll无...
分类:
其他好文 时间:
2014-05-26 19:08:09
阅读次数:
228
决解乱码费了我好些时间啊!
乱码原因有
1.mysql未设置为支持汉字
2.没有发送头信息
3.使用的编译器不符合相应的编码
决解的方法是
在mysql里
我用的是Wanmp Server
1.在mysql目录下找到my.ini,在[client]新增default-character-set=utf8
[client]
#password = your_passwor...
分类:
数据库 时间:
2014-05-26 04:39:31
阅读次数:
273
首先,声明一下,QString 是不存在中文支持问题的,很多人遇到问题,并不是本身
QString 的问题,而是没有将自己希望的字符串正确赋给QString。 很简单的问题,"我是中文"这样写的时候,它是传统的 char
类型的窄字符串,我们需要的只不过是通过某种方式告诉QString 这四个汉字采...
分类:
其他好文 时间:
2014-05-26 02:45:44
阅读次数:
325
题目描述
【编程题】(满分19分)
在很多软件中,输入拼音的首写字母就可以快速定位到某个词条。比如,在铁路售票软件中,输入: “bj”就可以定位到“北京”。怎样在自己的软件中实现这个功能呢?问题的关键在于:对每个汉字必须能计算出它的拼音首字母。
GB2312汉字编码方式中,一级汉字的3755个是按照拼音顺序排列的。我们可以利用这个特征,对常用汉字求拼音首字母。
...
分类:
其他好文 时间:
2014-05-25 23:14:36
阅读次数:
314
在提取手写体字符特征中如何更好的截取图像中字符区域是很重要的事。
下面就给出一种截取字符区域的方法,以使字符在图像中占据更多的位置
A=imread(filename);
subplot(2,2,1);
imshow(A);
[N,M]=size(A);
...
分类:
其他好文 时间:
2014-05-25 21:29:40
阅读次数:
328
一、bufferoverflow,limitof10000
bytesdeclarebeginforcin1..1000loop
dbms_output.put_line(‘测试测试测试‘);endloop;end;缓冲区默认大小为10000
bytes。循环1000次就一共有6000个汉字,也就是12000bytes。在SQL窗口的输出标签页中设置缓冲区大校二、数字或值错误:字符串缓冲..
分类:
数据库 时间:
2014-05-24 15:18:07
阅读次数:
310