【本文介绍】 爬取别人网页上的内容,听上似乎很有趣的样子,只要几步,就可以获取到力所不能及的东西,例如呢?例如天气预报,总不能自己拿着仪器去测吧!当然,要获取天气预报还是用webService好。这里只是举个例子。话不多说了,上看看效果吧。 【效果】我们随便找个天气预报的网站来试试:http...
分类:
编程语言 时间:
2014-08-06 17:54:02
阅读次数:
440
import urllib.requestimport restarturl="http://wooyun.org/searchbug.php?q=%E9%87%91%E8%9E%8D"def get_html_response(url): html_response = urllib.req...
分类:
编程语言 时间:
2014-08-05 22:27:31
阅读次数:
246
如果想抓数据,就需要有爬虫程序,业内叫crawler或者spider。
有各种语言版本的开源爬虫,c++, Java, php,在github上搜一下,以"spider c++"为关键字,有245个开源爬虫,以"spider java"为关键字,有48个。那python呢?156个。
爬虫技术在业界已经很成熟了,有很多开源框架,在它们的帮助下写爬虫可以很快,几个小时就能写一个...
分类:
Web程序 时间:
2014-08-04 17:37:47
阅读次数:
285
1 #coding="utf-8" 2 3 import urllib2 4 import re 5 import threading 6 import time 7 8 """ 9 抓取代理发布页的ip和port10 http://www.xici.net.co/nn/%d11 """12 ...
分类:
编程语言 时间:
2014-08-04 02:00:36
阅读次数:
313
又是采集绿色下载站的最新软件,又是采用另一种方式(前两种是采用正则和xpath),呵呵感觉有点像孔乙已的茴字有几种写法了这回用CrawlSpider,Rule来配合采集这次不用生成许多start_urls列表项了,可以按规则来自动读取,贴核心代码#-*-coding:utf-8-*-
fromscrapy.contrib.spide..
分类:
其他好文 时间:
2014-08-03 23:34:57
阅读次数:
500
最近在看国外的文档,有些生词不认识。就用谷歌翻译来理解,用着用着闲来无事就按F12查看了下页面的源代码。发现可以用python简单的实现下谷歌翻译的页面功能。于是先上网搜下有没有类似的文章博客,发现几篇不错的,于是参考其他代码与自己的思路,简单的实现了下翻译的功能,代码如下:
import re
import urllib,urllib2
#----------模拟浏览器的行为,向谷...
分类:
编程语言 时间:
2014-08-03 20:39:45
阅读次数:
338
在开发项目的过程,很多情况下我们需要利用互联网上的一些数据,在这种情况下,我们可能要写一个爬虫来爬我们所需要的数据。一般情况下都是利用正则表达式来匹配Html,获取我们所需要的数据。一般情况下分以下三步:1、获取网页的html2、利用正则表达式,获取我们所需要的数据3、分析,使用获取到的数据,(例如...
分类:
其他好文 时间:
2014-08-03 12:40:45
阅读次数:
194
本篇主要重点讲解了阅读nutch源码的fetch部分的感受以及通过调试追踪整个fetch的执行流程,其中包括通过生产者-消费者的模型解决爬虫问题,nutch如何爬取页面以及对于不同的返回状态做相应的处理机制,其中还涉及到一些多线程的知识。
分类:
其他好文 时间:
2014-08-02 17:55:13
阅读次数:
290
import java.awt.BorderLayout;import java.awt.Cursor;import java.awt.Font;import java.awt.GridBagConstraints;import java.awt.GridBagLayout;import java....
分类:
编程语言 时间:
2014-07-31 12:50:26
阅读次数:
318
本文参考链接详细介绍如何使用Jsoup包抓取HTML数据,是一个纯java工程,并将其打包成jar包。希望了解如何用java语言爬虫网页的可以看下。 杂家前文就又介绍用HTTP访问百度主页得到html的string字符串,但html的文本数据如果不经过处理就是个文本字符串没有任何效果的。所谓的浏览器就是负责将文本的html“翻译”成看到的界面。在前文有介绍,这个csdn的客户端app分首页、业界、...
分类:
移动开发 时间:
2014-07-31 03:03:25
阅读次数:
430