using System.Windows.Forms;获取屏幕分辨率 int SH = Screen.PrimaryScreen.Bounds.Height; int SW = Screen.PrimaryScreen.Bounds.Width;获取窗口居中Top和Left int thisH=10...
分类:
其他好文 时间:
2014-09-24 19:42:57
阅读次数:
197
在使用python抓取网页图片的时候,偶尔会遇到403错误。这可能是因为服务器禁止了爬虫。这种情况下如果想继续爬取图片的时候,就需要在请求中加入header信息,伪装成浏览器。如果你使用的是python3.4版本,那么如果你想在网上找到在请求中加入header的方法,估计要费些周折。经过一番实验,确...
分类:
编程语言 时间:
2014-09-24 18:32:07
阅读次数:
378
今天通过查资料了解到web的页面抓取功能,应用HttpWebRequest和HttpWebResponse功能,从http://www.showji.com网站中抓取归属地信息应该说这个方法是从别的论坛中学习来的,具体过程如下:通过IE9的网络监控功能:通过分析抓取的数据,将获取归属的地信息分析一条...
分类:
移动开发 时间:
2014-09-23 21:55:05
阅读次数:
220
如果你想做一些,抓取,或者是自动获取的功能,那么就跟我一起来学习一下Http请求吧。本文章会对Http请求时的Get和Post方式进行详细的说明,在请求时的参数怎么发送,怎么带Cookie,怎么设置证书,怎么解决 编码等问题,进行一步一步的解决。这个类是专门为HTTP的GET和POST请求写的,解决...
分类:
Web程序 时间:
2014-09-23 18:21:35
阅读次数:
324
#!/usr/bin/env python#-*- coding:utf8 -*-import sysreload(sys)sys.setdefaultencoding('gbk')import urllib,urllib2import refrom bs4 import BeautifulSoup...
分类:
其他好文 时间:
2014-09-23 13:35:14
阅读次数:
194
1. 通过API: WindowFromPoint可以抓取指定位置的HWND:
hWnd = ::WindowFromPoint(pt);...
分类:
其他好文 时间:
2014-09-22 23:29:03
阅读次数:
306
需要使用的是jsoup-1.7.3.jar包 如果需要看文档我下载请借一步到官网:http://jsoup.org/
这里贴一下我用到的 Java工程的测试代码
package com.javen.Jsoup;
import java.io.IOException;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Docu...
分类:
Web程序 时间:
2014-09-22 22:57:33
阅读次数:
295
刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到了),很快holder.html和finance.html页面成功下载完成,然后解析完holder.html页面之后再解析finance.html,然后很沮丧的发现在这个页面中我需要的数据并没有在html源码中,再去浏览器查看源码果然是这样的,在源码中确实没有我需要的数据,看来不是我程序写错了,接下来让人身心疲惫的事情来...
分类:
编程语言 时间:
2014-09-22 20:02:53
阅读次数:
301
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,使用起来是很方便,但是最后因为速度的原因放弃了,但生成的统计信息在后来的抓取中使用到.....
分类:
编程语言 时间:
2014-09-22 02:43:01
阅读次数:
301
抓去网页数据无非就两步:1、抓取;2:分析 抓取分几种情况:1、普通字符串,就是普通网页源码,用file_get_contents或curl抓取,2、有序数据如xml,可以用simplexml_load_file抓取 分析:如果是第二种情况,就按照xml数据来遍历处理好了。 如果是第一种情况,用pr...
分类:
Web程序 时间:
2014-09-21 21:43:51
阅读次数:
225