PHP substr()函数可以分割文字,但要分割的文字如果包括中文字符往往会遇到问题,这时可以用mb_substr()/mb_strcut这个函数,mb_substr() /mb_strcut的用法与substr()相似,只是在mb_substr()/mb_st...
分类:
Web程序 时间:
2014-09-12 23:35:34
阅读次数:
404
字符编码详解版本:v2.2CrifanLi摘要本文主要介绍了字符编码的基础知识,以及常见的字符编码类型,比如ASCII,Unicode,UTF-8,ISO 8859等,以及各种编码之间的关系,同时专门解释了中文字符相关的编码标准,包括GB2312,GBK,GB18030,也专门解释了Windows系...
分类:
其他好文 时间:
2014-09-12 13:17:55
阅读次数:
573
最近在做binlog日志采集同步到数据平台的事。刚开始需要借助sqoop将从库数据表数据初始化到hbase中,整个过程都需要自动化进行,尽量减少人为干预。但是,由于历史原因,线上存在两种字符集格式的数据库(表),而导入到hbase的数据我们需要统一采用utf-8格式存储。sqoop直接导入的话,没法控制中文字符转码工作。所以需要对sqoop源码进行简单改动支持这种方式。
大体思路是,通过定义一个...
分类:
数据库 时间:
2014-09-11 19:26:02
阅读次数:
573
正则表达式用于字符串处理、表单验证、日志数据分析等场合,实用高效。现将自己走网上搜索并总结的常用方法收集了一下:匹配中文字符的正则表达式: [\u4e00-\u9fa5]注:匹配中文还真是个头疼的事,有了这个表达式就好办了匹配双字节字符(包括汉字在内):[^\x00-\xff]注:可以用来计算字符串...
分类:
其他好文 时间:
2014-09-11 16:50:22
阅读次数:
179
JAVA的中文字符乱码问题一直很让人头疼。特别是在WEB应用中。网上的分析文章和解决方案都很多,但总是针对某些特定情况的。很多次遇到乱码问 题后, 经过极为辛苦的调试和搜索资料后终于解决,满以为自己已经掌握了对付这些字符乱码怪兽的诀窍。可当过段时间,换了个应用或换了个环境,又会碰到那讨厌的火 星文,...
分类:
编程语言 时间:
2014-09-11 09:36:31
阅读次数:
245
项目开发的时候,由网页表单提交的过来的中文字符,会报Incorrect string value: '\xF0\x90\x8D\x83\xF0\x90...' 异常;原因是mysql的编码造成,使用 show variables like 'character%' 查看数据库的编码:mysql> s...
分类:
数据库 时间:
2014-09-09 20:07:49
阅读次数:
256
Putty在默认情况下没有使用UTF-8编码,因此在显示中文的时候会出现乱码。解决方法非常简单:按照下图,在连接之前,左边窗口中的“转换”选项卡(如图所示),然后在右边“假定接收的数据字符集”的下拉选择菜单中选择“UTF-8”即可。点击“打开”按钮连接之后,将能够正常使用输入法输入中文字符并且正常显...
分类:
其他好文 时间:
2014-09-09 15:18:38
阅读次数:
170
1、java中判断字符是否为中文/** * 判断是否为中文字符 * @param c * @return */ public boolean isChinese(char c) { Character.UnicodeBlock ub = Character.Unico...
分类:
编程语言 时间:
2014-09-04 16:17:59
阅读次数:
188
1 function replace_unicode_escape_sequence($match) { 2 return mb_convert_encoding(pack('H*', $match[1]), 'UTF-8', 'UCS-2BE'); 3 } 4 $name = '\u65b0\u....
分类:
Web程序 时间:
2014-09-03 11:03:36
阅读次数:
230