码迷,mamicode.com
首页 > 其他好文 > 详细

获取某个字符串的所有字节数

时间:2014-07-06 22:53:28      阅读:285      评论:0      收藏:0      [点我收藏+]

标签:http   java   cti   javascript   for   代码   

<script type="text/javascript">
        function getBytes(str){
            if(!arguments.length || !str)
                return null;
            if(str.length == ‘‘)
                return 0;
            var len = str.length;
            var bytes = 0;//记录字节数
            for(var i = 0; i < len; i++){
                /*charCodeAt的返回的是指定位置字符的unicode码值,而大于255的编码值为非常规字符,如中文,日文等*/
                if(str.charCodeAt(i)>255){
                    bytes+=2;
                }else{
                    bytes++;
                }
            }
            return bytes;
        }
</script>

 

Unicode只有一个字符集,中、日、韩的三种文字占用了Unicode中0x3000到0x9FFF的部分 Unicode目前普遍采用的是UCS-2,它用两个字节来编码一个字符, 比如汉字"经"的编码是0x7ECF,注意字符编码一般用十六进制来 表示,为了与十进制区分,十六进制以0x开头,0x7ECF转换成十进制 就是32463,UCS-2用两个字节来编码字符,两个字节就是16位二进制, 2的16次方等于65536,所以UCS-2最多能编码65536个字符。 编码从0到127的字符与ASCII编码的字符一样,比如字母"a"的Unicode 编码是0x0061,十进制是97,而"a"的ASCII编码是0x61,十进制也是97, 对于汉字的编码,事实上Unicode对汉字支持不怎么好,这也是没办法的, 简体和繁体总共有六七万个汉字,而UCS-2最多能表示65536个,才六万 多个,所以Unicode只能排除一些几乎不用的汉字,好在常用的简体汉字 也不过七千多个,为了能表示所有汉字,Unicode也有UCS-4规范,就是用 4个字节来编码字符

在计算机的存储单元中,一个ASCII码值占一个字节(8个二进制位),其最高位(b7)用作奇偶校验位。所谓奇偶校验,是指在代码传送过程中用来检验是否出现错误的一种方法,一般分奇校验和偶校验两种。奇校验规定:正确的代码一个字节中1的个数必须是奇数,若非奇数,则在最高位b7添1;偶校验规定:正确的代码一个字节中1的个数必须是偶数,若非偶数,则在最高位b7添1。

 

获取某个字符串的所有字节数,布布扣,bubuko.com

获取某个字符串的所有字节数

标签:http   java   cti   javascript   for   代码   

原文地址:http://www.cnblogs.com/netsql/p/3824339.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!