引言记得几年前在做网页爬虫后的信息抽取时,针对网页源码中隐藏的要提取的信息,比如评论、用户信息等属性信息,直接利用HtmlParser得到。如此做倒是简单,不过利用的是网页的规范的tag标记。其实java中的正则表达式也可以用来实现这一功能。而且对于非tag的一些有规律的系列组合的字符串,正则表达式...
分类:
编程语言 时间:
2014-09-04 16:30:19
阅读次数:
186
用R语言读写Excel的方法有很多,但每种方法都有让人头疼的地方,比如xlsx包的代码复杂,只支持Excel2007;RODBC不易理解,限制太多,程序不稳定,会出各种怪毛玻另存为csv格式的方法倒是比较通用比较稳定,但又存在操作麻烦,无法程序化处理多个文件的问题。提取xml也是个办法..
分类:
其他好文 时间:
2014-09-03 18:30:27
阅读次数:
380
1概述初学正则时,对于Regex类不熟悉,遇到问题不知道该用哪种方法解决,本文结合一些正则应用的典型应用场景,介绍一下Regex类的基本应用。这里重点进行.NET类的介绍,对于正则的运用,不做深入探讨。正则的应用最终都是进行模式的匹配,而根据目的的不同,基本上可以分为以下几种应用:验证、提取、替换、...
分类:
Web程序 时间:
2014-09-03 16:27:46
阅读次数:
206
从mysql搬一个大表到redis中,你会发现在提取、转换或是载入一行数据时,速度慢的让你难以忍受。这里我就要告诉一个让你解脱的小技巧。使用“管道输出”的方式把mysql命令行产生的内容直接传递给redis-cli,以绕过“中间件”的方式使两者在进行数据操作时达到最佳速度。一个约八百万行数据的mys...
分类:
数据库 时间:
2014-09-03 14:52:46
阅读次数:
275
1.静态编译:编译器在编译可执行文件时,把需要用到的对应动态链接库(.so或.ilb)中的部分提取出来,链接到可执行文件中去,使可执行文件在运行时不需要依赖于动态链接库.2.动态编译: 动态编译的可执行文件需要附带一个的动态链接库,在执行时,需要调用其对应动态链接库中的命令。所以其优点一方面是缩小了...
分类:
其他好文 时间:
2014-09-03 14:49:08
阅读次数:
204
查了下手册,getElementsByName()不能提取没有name属性的标签。div标签本身没有name属性,所以不能被提取。有name标签的主要是各种input标签,所以默认情况下getElementsByName()只能提取同名的input标签。但是,另一方面,getElementsByNa...
分类:
其他好文 时间:
2014-09-03 14:40:16
阅读次数:
169
摘要在MATLAB环境下利用USB摄像头采集字符图像,读取一帧保存为图像,然后对读取保存的字符图像,灰度化,二值化,在此基础上做倾斜矫正,对矫正的图像进行滤波平滑处理,然后对字符区域进行提取分割出单个字符,识别方法一是采用模板匹配的方法逐个对字符与预先制作好的字符模板比较,如果结果小于某一阈值则结果...
分类:
其他好文 时间:
2014-09-03 12:57:16
阅读次数:
415
加密解密再也不是你的噩梦也许你在你的项目中用过加密解密,诸如AES加解密、DES加解密等等加密算法。你从Github上下载了一份源码,导入到自己的项目当中,导入头文件,使用,欧了。其实事情远没有你想得这么简单。你需要加密字符串对吧,你把字符串转换成了NSData,然后你需要提取出这个NSData中的...
分类:
其他好文 时间:
2014-09-03 12:47:56
阅读次数:
240
第六章重新组织你的函数6.1ExtractMethod(提炼方法)对付过长函数,一般重要的重构方法就是ExtractMethod,他把一段代码从原先的函数中提取出来,放在单独的函数中。简洁而清晰,短小而精炼。1 void printOwing (douoble amount)2 {3 pri...
分类:
其他好文 时间:
2014-09-02 17:35:15
阅读次数:
250
SNMP代理模块包括6个子模块:SNMP协议主要有五种报文get、get-next、set、get-response,trap。l.get-request操作:从代理进程处提取一个或多个参数值2.get-next-request操作:从代理进程处提取紧跟当前参数值的下一个参数值3.set-reque...
分类:
其他好文 时间:
2014-09-02 10:26:44
阅读次数:
254