码迷,mamicode.com
首页 > 其他好文 > 详细

58简历字体解密

时间:2019-06-19 20:21:12      阅读:173      评论:0      收藏:0      [点我收藏+]

标签:svg   部分   pat   文本   无法   简历   分享   付费   方法   

仅做技术分享,若有侵犯,请联系删除

在讲58字体解密之前,先大概将一下字体加密。

 所谓字体加密,其实就是自定义字体库将原有的字体换成我们无法解析,但是浏览器可以解析的,以此来达到反爬虫的目的。

这些其实都可以通过ocr识别,但是可能会影响效率吧

第一种,自定义字体库和编码没有变化的。

这一种只要将其字体库下载下来,转换成可以看的格式,找到其中的映射关系,将网页中乱码的部分替换,就可以得到原来的文本。

第二种,自定义字体库,编码每次都变化的。

对于这种我们没有办法再去找映射关系,因为编码每次都是不固定的,这种情况下,我们可以知道,编码会变,但是坐标值是不变的,所以,找到已有的坐标值映射关系,遍历

同样可以得到原有的文本。

第三种,就是58这种,每次映射关系不一样,但是可能是字形上稍作了变动,所以第二种方法失效啊,所以第三种方法,不保证长期有效,目前暂时可以用。

将字体库提取出来,转成svg格式,网上有很多ttf转svg的网站,提供在线免费转,和付费api,转过之后观察svg文件,可以发现规律path d值的规律,然后可以获得编码和汉字之间的映射关系,获得映射关系之后再将原来的文本中将乱码的编码替换成汉字,这样就可以得到真正的文本了。

{"M52 ": "下", "M570 ": "1", "M143 ": "3", "M28 4": "校", "M308 ": "验", "M294 ": "吴", "M66 ": "王", "M6 ": "硕",
           "M1095 ": "7", "M760 ": "陈", "M1054 ": "5", "M2010 ": "本", "M24 ": "科", "M64 9": "无", "M853 ": "2",
           "M816 ": "经",
           "M168 ": "中", "M1884 ": "女", "M526 ": "专", "M28 -10": "大", "M950 ": "应", "M382 ": "高", "M1044 ": "刘",
           "M185 ": "9",
           "M720 ": "张", "M1018 ": "6", "M1702 ": "博", "M1568 ": "杨", "M288 ": "黄", "M28 -11": "赵", "M376 ": "周",
           "M40 ": "生",
           "M1542 ": "以", "M528 ": "届", "M188 ": "士", "M91 ": "0", "M1033 ": "E", "M200 ": "B", "M1417 ": "A",
           "M1601 ": "M",
           "M64 3": "李", "M98 ": "8", "M230 ": "男", "M766 ": "技", "M930 ": "4"
}

58简历字体解密

标签:svg   部分   pat   文本   无法   简历   分享   付费   方法   

原文地址:https://www.cnblogs.com/cai-cai-/p/11053320.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!