1.PDF中文本字符串格式中关键值信息抓取(已完成) 简介:这种解析比较传统最简单主要熟练使用Regular Expression做语义识别和验证.例如抓取下面红色圈内关键信息 string mettingData=GetMeetingData(); pub...
分类:
其他好文 时间:
2014-09-07 02:10:54
阅读次数:
359
由于个人需要,想找一个键盘记录的程序,从网上下载了很多,多数都是需要注册的,另外也多被杀软查杀。于是决定自己写一个,如果作为一个windows应用程序,可以实现抓取键盘的记录。想要实现随系统启动的话,其中一种方法就是要作为windows服务,把代码直接写到服务里边并不能抓取到键盘的记录,从网上翻阅资...
本来是想把这部分内容放到前一篇《数据抓取的艺术(二):数据抓取程序优化》之中。但是随着任务的完成,我越来越感觉到其中深深的趣味,现总结如下: (1)时间 时间是一个与抓取规模相形而生的因素,数据规模越大,时间消耗往往越长。所以程序优化变得相当重要,要知道抓取时间越长,出错的可能性就越大,这还不说程....
分类:
其他好文 时间:
2014-09-05 22:17:32
阅读次数:
250
Hibernate中的字段映射中的Fetch有两种方式:EAGER和LAZYEager:全部抓取Lazy:延迟抓取如果在字段中声明为Eager,那么在取得当前Bean时,同时会抓取Bean中的关联Bean值。即数据库查询多次。反之Lazy则在之后抓取提交查询。比如,有如下声明为Eager的User ...
分类:
系统相关 时间:
2014-09-05 17:59:21
阅读次数:
233
Hibernate中的抓取策略,参考文档:http://docs.jboss.org/hibernate/orm/3.5/reference/zh-CN/html/performance.html如下代码:@SuppressWarnings({ "unchecked" }) public st...
分类:
系统相关 时间:
2014-09-05 14:10:41
阅读次数:
201
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。Robots协议的本质是网站和搜索引擎爬虫的沟通方式,用来指导搜索引擎更好地抓取网站内容,而不是作为搜索引擎之间互相限制和不正当竞争的工具。
找到wechall的robots.txt ht...
分类:
其他好文 时间:
2014-09-04 15:03:09
阅读次数:
542
发如今家里的时候用Android App里的WebView打开站点非常慢,会有十几秒甚至更长时间的卡住。可是在电脑上打开相同的网页却非常快。查找这个问题的过程比較曲折,记录下来。抓取Android网络数据为了调试这个问题,首先要抓取Android的网络包数据。開始时,是想用Wireshark来抓包的...
分类:
移动开发 时间:
2014-09-03 21:16:07
阅读次数:
399
转自:http://guoyunsky.iteye.com/blog/1169912队列很常见,但大部分的队列是将数据放入到内存.如果数据过多,就有内存溢出危险,而且长久占据着内存,也会影响性能.比如爬虫,将要抓取的URL放到内存,而URL过多,内存肯定要爆.在读Heritrix源码中,发现Heri...
分类:
数据库 时间:
2014-09-03 14:45:16
阅读次数:
468
昨天同事跟我说cacti突然抓不到一台服务器的snmp数据了,让我看看,然后就匆匆出去了。。登陆服务器后简单查看了下161端口开着,进程也没什么可疑的,就重启了snmpd服务,用snmpwalk-v2c-cpubliclocalhost.1.3.6.1.2.1.1.3命令,发现已经可以抓取到数据了,本以为问题已经解决..
分类:
其他好文 时间:
2014-09-03 11:26:17
阅读次数:
211