上篇文章中,抓取网页时,本想匹配其中的汉字。由于出现乱码,只好匹配英文绕过了问题。 原因很简单:该网页没指定utf8,默认应该是GBK 解决办法也很简单:引入 "golang.org/x/text/encoding/simplifiedchinese" 比如原来的代码是 resp, err := t ...
分类:
其他好文 时间:
2020-01-22 16:29:36
阅读次数:
108
下面有我整理的关于正则表达式的基本语法;具体案例网络爬虫 一.正则表示式语法 1.1普通字符 字母、数字、汉字、下划线、以及没有特殊定义的标点符 号都是“普通字符”。 1.2转义字符 与java中的转义字符一致 1.3标准字符集 \d \d 任意一个数字,0~9 中的任意一个 \w 任意一个字母或数 ...
分类:
其他好文 时间:
2020-01-22 10:41:11
阅读次数:
52
整数:二进制0b 十进制 八进制0 十六进制0x 浮点数:银行业务,关于钱的,Java有个BigDecimal数学工具类,用这个计算。最好完全避免使用浮点数进行比较。因为float 是有限的离散的,它存在一个舍入误差。所以计算结果是一个大约数,只是接近但不等于。 字符:单个字母、数字、汉字,占2个字 ...
分类:
编程语言 时间:
2020-01-21 16:19:18
阅读次数:
80
来自森大科技官方博客http://www.cnsendblog.com/index.php/?p=328GPS平台、网站建设、软件开发、系统运维,找森大网络科技!http://cnsendnet.taobao.com unicode指的是一种编码字符集,即所谓的万国码,而UTF-8,UTF-16(L ...
分类:
其他好文 时间:
2020-01-19 19:07:49
阅读次数:
91
后端任务第一期 解码和编码 在php中,使用其内置函数json_encode进行编码以及json_decode进行解码,使数据由数组到字符串再到数组间进行转换 编码方式 1.UTF 8 根据不同的符号自动选择编码的长短 2.GB2312 共收录汉字21003个、符号883个,并提供1894个造字码位 ...
分类:
其他好文 时间:
2020-01-19 09:21:27
阅读次数:
83
原文:http://www.blog2019.net/post/7 这个粘贴还有点问题,明天再调整一下。 批量添加内容到文本框,就是需要鼠标点一下,模拟鼠标之后再加上 from pymouse import PyMouse from pykeyboard import * import time i ...
分类:
编程语言 时间:
2020-01-19 00:00:15
阅读次数:
296
近期发现oracle的order by中文排序并不是完全按照拼音排序的 经过测试发现oracle的order by中文排序是按照中文的ASCII码排序的 这里说一下oracle中的汉字分类: 一级汉字,是最常用的汉字,按汉语拼音字母顺序排列,共3755个;二级汉字,属于次常用汉字,按偏旁部首的笔划顺 ...
分类:
数据库 时间:
2020-01-17 11:39:24
阅读次数:
179
字符串 何为字符串:用于存储一些少量的数据,在Pyhton当中只要是用引号引起来的就是字符串,字符串中的每个单独的字母汉字都是一个元素.(python的基础数据类型之一) 字符串乘 字符串的乘法就是将多个字符串拼接到一起,乘法的规则:只能是字符串和数字相乘 索引(下标) 大家在上学每个人都有个学号, ...
分类:
编程语言 时间:
2020-01-15 21:22:32
阅读次数:
79
本节文章研究的代码位于 tsc/src/compiler/scanner.ts 字符 任何源码都是由很多字符组成的,这些字符可以是字母、数字、空格、符号、汉字等…… 每一个字符都有一个编码值,比如字符“a”的编码值是97,字符“林”的编码值是26519。 每个字符对应的编码值是多少是由编码表决定的, ...
分类:
其他好文 时间:
2020-01-13 16:35:38
阅读次数:
111
通过查找汉字拼音库实现实时汉字转拼音的功能。 实现 加载汉字拼音对照文件 (4万+汉字拼音对照)到QMap容器。 遍历QMap容器的汉字从而找到对应的拼音,如找不到该汉字将原样输出。 部分 内容:(https://github.com/mozillazg/pinyin data提供汉字拼音源强力支持 ...
分类:
其他好文 时间:
2020-01-12 14:56:32
阅读次数:
51