我们使用某个app的时候,当我们将程序压到后台之后,我们希望它还能从服务器抓取一些数据,类似微博,微信,qq这些程序压后台之后,我们依然能看到icon上显示未读数量。但是ios系统是伪多任务操作系统。当我们将程序压后台之后,大概过1分钟,程序就会被关闭。就不能抓取数据了。很久之前的做法是:压后台之后...
分类:
移动开发 时间:
2015-05-28 00:39:55
阅读次数:
133
项目告一段落,快到一年时间开发了两个系统,一个客户已经在试用,一个进入客户测试阶段,中间突然被项目经理(更喜欢叫他W工)分派一个每隔两小时用windows服务去抓取客户提供的外网xml,解析该xml,然后将截取的节点字段值插入到已经建好相应结构的表中。并记录日志。xml结构概要如下: 93...
分类:
数据库 时间:
2015-05-25 12:51:08
阅读次数:
664
最近发现有些搜索引擎爬虫在抓取数据的时候,先是通过一个HEAD 请求获取response的header 信息,然后再通过GET 请求获取response 的body信息(即页面的内容)——先发送HEAD 请求是为了获得页面的更新时间(即response header 中的Last-Modified ...
分类:
其他好文 时间:
2015-05-11 19:35:29
阅读次数:
199
SEO即(Search Engine Optimization),搜素引擎优化是指对网站内外部进行调整优化,获得更多的流量。搜索引擎工作时先抓取数据,再将搜寻到的数据建立数据库进行预处理,当有用户有搜索企求时,搜索引擎会分析用户的企求,对搜索到的结果进行排序,并展现到用户面前,而搜索引擎处理这个过程...
分类:
其他好文 时间:
2015-05-10 22:14:09
阅读次数:
126
先说一下项目的背景,以前曾经做过一个项目,根据Excel中的数据批量的到网页上抓取数据,将抓取到的数据批量的回填到Excel中。这个Excel中有很多行的记录(多的时候会有好几千行),每一行数据存储能在网页上查询唯一的一条数据的条件。操作网页部分使用了微软MSHTML,在这里不做多余的介绍。这里主....
模拟web访问有登录且有验证码的登录后抓取数据
1 取验证码
2 取js赋值的内容
3 登录并且存取cookie...
分类:
Web程序 时间:
2015-05-07 10:26:29
阅读次数:
221
本文由伯乐在线-木羊翻译,xianhu校稿。未经许可,禁止转载!英文出处:realpython.com。欢迎加入翻译小组。这篇文章将根据真实的兼职需求编写一个爬虫,用户想要一个Python程序从Stack Overflow抓取数据,获取新的问题(问题标题和URL)。抓取的数据应当存入MongoDB。...
分类:
数据库 时间:
2015-05-05 14:09:56
阅读次数:
207
客户端发的post请求的http包,用tcpdump抓包发现只抓到了一点(看包的长度是正确的,但是实际内容确不一样):
win下用wireshark抓包,长度和内容都是正常的:
原因分析:用Tcpdump进行抓包时,没有用-s参数指定抓取数据的长度,采用了默认长度为68或96字节;-s0则表示没有长度的限制。...
分类:
其他好文 时间:
2015-05-04 10:03:58
阅读次数:
301
笔者出于兴趣或者工作需要,会经常对一些网站的数据进行数据抓取,对于像淘宝、携程、百度这类大型互联网公司的网站,出于安全或者性能考虑,常常会针对网站加入反抓取策略脚本。在该类脚本中,常见的手法有以下几种:1. 针对简单数值变量的值,会把它用一个数值表达式来表示,让你没办法一眼看穿它,如:_lkqr =...
分类:
Web程序 时间:
2015-04-21 12:56:28
阅读次数:
115
此文主要是 中国天气网和中国环境监测总站的数据抓取 打算开放全部数据抓取源代码(微信关注人数大于100统一发放) 已在服务器上 稳定运行半个月webapihttp://api.xuzhiheng.cn/常量 1 /// 2 /// 环保部抓取数据链接 3 /// ...
分类:
微信 时间:
2015-04-18 11:26:11
阅读次数:
596