方法一:根据ASCII码转换,GB2312库对多音字也无能为力。GB2312标准共收录6763个汉字,不在范围内的汉字是无法转换,如:中国前总理朱镕基的“镕”字。GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。01-09区为特殊符号。16-55区为一级汉字,按拼音排序。(3755个)56-87区为二级汉字,按部首/笔画排序。(3008个)10-15区...
分类:
Web程序 时间:
2014-05-15 06:50:21
阅读次数:
590
C# 正则表达式判断是否是数字、是否含有中文、是否是数字字母组合...
分类:
其他好文 时间:
2014-05-15 05:31:20
阅读次数:
210
一、设置MyEclipse的字符编码,步骤如下:
1、进入Window--Preferences--General--Workspace,Text file encoding 选项中默认的Default(GBK)选项更改为Other,并将值设为utf-8;
2、进入Window--Preferences--MyEclipse--Files and Editors,将这个选项下面的:ASP ...
分类:
数据库 时间:
2014-05-15 04:18:55
阅读次数:
299
描述把文本读出的API,在手机上测试知识支持英文,中文库应该没有所以不支持
/*
* Copyright (C) 2009 The Android Open Source Project
*
* Licensed under the Apache License, Version 2.0 (the "License");
* you may not use this file exce...
分类:
移动开发 时间:
2014-05-14 21:34:49
阅读次数:
435
运用前面几篇文章中的分词算法,可以把中文中的词语分出来,但是不同算法可能得到的分词结果不一样,到底如何确定那种分词效果最好呢。我们在这篇文章中探讨一种判断分词效果好坏的方法。
在分词的时候,有些单字是不成词的。可以搜索所有分词的可能性,然后对每一种分词结果进行统计,规则如下:每分出一个词就给分词统计结果加一,如果遇到不成词的单字就再给该分词结果加一。得到的结果分别计算出来。选出一个得分最低的就是所要分词的字符串的结果。
下面就用代码实现一下上面的思想。分别用正向最大匹配和逆向...
分类:
其他好文 时间:
2014-05-14 21:04:01
阅读次数:
256
上一篇文章中介绍了一种中文分词的选取算法,本篇文章将介绍另外一种中文分词选取算法,依概率选取算法。
中文分词分词完成之后,还是上篇文章中的原则,分词结果不唯一,然后我们算法的目的是从几种分词好的算法之后选取一个作为分词的最终结果。算法会统计每个词在所有文档中的概率,该算法的中心思想是计算一个字符串中所有分词的概率之积,选取概率最大的作为分词的最终结果。
算法步骤:第一步,通过上几篇文章的的算法对字符串进行分词;第二步,扫描每一次分词结果;第三步,计算每一次分词结果的所有词的概...
分类:
其他好文 时间:
2014-05-14 20:05:32
阅读次数:
285
项目要写个DLL调用硬件,因为人力资源的原因只能用Delphi7开发,结果发现传递中文有点问题,研究了一番后解决,其实很简单,关键是使用system.pas下的编码解码方法。以下在本机测试通过。环境:Win764位旗舰版JDK1.6x86MyEclipse8.6Delphi7Delphi代码:libraryProject2;
uses
S..
分类:
其他好文 时间:
2014-05-14 15:54:07
阅读次数:
405
右键选择Options...
左栏选项选择Text,右栏Character set 选择GBK,Locale选择zh_CN
选择OK,乱码成功变中文。...
node.js API 英文原版
http://nodejs.org/api/all.html
node.js API 中文翻译
http://nodeapi.ucdok.com/#/api/
node.js API 中文翻译下载
http://download.csdn.net/detail/bad19876414641/4608699
javascrip...
分类:
Web程序 时间:
2014-05-14 15:15:10
阅读次数:
329