放假了,终于可以继续可以静下心写一写OCR方面的东西。上次谈到文字的切割,今天打算总结一下我们怎么得到用于训练的文字数据集。如果是想训练一个手写体识别的模型,用一些前人收集好的手写文字集就好了,比如中科院的 "这些数据集" 。但是如果我们只是想要训练一个专门用于识别印刷汉字的模型,那么我们就需要各种 ...
分类:
其他好文 时间:
2018-02-09 23:50:35
阅读次数:
987
/** * 第一:普通汽车 * 车牌号格式:汉字 + A-Z + 5位A-Z或0-9( 车牌号不存在字母I和O防止和1、0混淆) * (只包括了普通车牌号,教练车,警等车牌号 。部分部队车,新能源不包括在内) * 京津沪渝冀豫云辽黑湘皖鲁新苏浙赣鄂桂甘晋蒙陕吉闽贵粤青藏川宁琼军空海北沈兰济南广成使领 ...
分类:
Web程序 时间:
2018-02-09 20:31:22
阅读次数:
5433
前两节说的都是微信开发的初级篇,这一节说高级篇。微信公众号关注以后,下面都是有菜单的,底部有三个一级菜单,每个一级菜单可以添加5个二级菜单。一级菜单最多四个汉字,二级菜单最多7个汉字,多出来的汉字用“......”号,菜单自定义以后,由于缓存原因,需要取消再次关注才能生效。微信的菜单本质上就是一个按 ...
分类:
微信 时间:
2018-02-09 20:28:26
阅读次数:
291
一、字符集和校对规则字符集:就是一对文字符号及其编码比较的集合常用字符集:ASCII:主要用于显示英语和其他西欧语言。长度为一个字节UTF-8:互联网广泛支持的Unicode字符集,长度为一到四个字节 GBK:主要用于显示汉字,长度为二个字节二、查看MySQL的字符集1.查看MySQL服务器的字符集 ...
分类:
数据库 时间:
2018-02-08 20:12:27
阅读次数:
327
input命令是用来向设备发送模拟操作的命令: 因为版本不同,input命令也有所不同 以下为Android 4.0的input命令:usage:input text input keyevent input tap input swipe 12345 以下是Android 4.4+的input命令... ...
分类:
移动开发 时间:
2018-02-08 00:20:25
阅读次数:
356
GB2312又称国标码,由国家标准总局发布,1981年5月1日实施,通行于大陆。新加坡等地也使用此编码。共7445个图形字符,其中汉字占6763个。 1995年发布GBK1.0,gbk编码能够用来同时表示繁体字和简体字,该编码标准兼容GB2312,共收录汉字21003个,同时包含中日韩文字里的所有汉 ...
分类:
其他好文 时间:
2018-02-07 22:48:23
阅读次数:
199
在线检测正则 http://regexper.com 表达式全集 常用正则表达式 ...
分类:
其他好文 时间:
2018-02-07 21:25:37
阅读次数:
150
验证数字:^[0-9]*$ 验证n位的数字:^\d{n}$ 验证至少n位数字:^\d{n,}$ 验证m-n位的数字:^\d{m,n}$ 验证零和非零开头的数字:^(0|[1-9][0-9]*)$ 验证有两位小数的正实数:^[0-9]+(.[0-9]{2})?$ 验证有1-3位小数的正实数:^[0-9 ...
分类:
其他好文 时间:
2018-02-07 17:03:00
阅读次数:
160
编码unicode,万国码,统一码,为每种语言的每个字符设定了统一并且唯一的二进制编码,满足跨平台、跨语言的文本转换;utf-8-8-bitUnicodeTransformationFormat,针对Unicode的可变长度字符编码ascii码:AmericanStandardCodeforInformationInterchange,美国信息交换标准代码GBK-汉字编码字符集哈希表-是根据关键码
分类:
编程语言 时间:
2018-02-06 20:32:34
阅读次数:
197