这两天在写一个java多线程的爬虫,以广度优先爬取网页,设置两个缓存:
一个保存已经访问过的URL:vistedUrls
一个保存没有访问过的URL:unVistedUrls
需要爬取的数据量不大,对URL压缩后,可以把这两个数据结构都放入内存,vistedUrls很显然用HashSet实现,因为已经访问的URL只会添加,不会删除和修改,使用HashSet可以高效...
分类:
编程语言 时间:
2015-04-28 18:35:37
阅读次数:
244
程序大概内容如下:
程序中设置两个队列分别为queue负责存放网址,out_queue负责存放网页的源代码。
ThreadUrl线程负责将队列queue中网址的源代码urlopen,存放到out_queue队列中。
DatamineThread线程负责使用BeautifulSoup模块从out_queue网页的源代码中提取出想要的内容并输出。
这只是一个基本的框架,可以根据需求继续扩展...
分类:
编程语言 时间:
2015-04-28 09:49:14
阅读次数:
164
估计部分同学没听过这个工具,那先简单介绍下它的背景与作用。 1、PhantomJS 是什么? PhantomJS是一个基于WebKit的服务器端JavaScript API,它无需浏览器的支持即可实现对Web的支持,且原生支持各种Web标准,如D...
分类:
Web程序 时间:
2015-04-28 07:12:26
阅读次数:
170
利用爬虫,定时获取微博内容。用正则匹配指令#检测微博内容实现自动操作电脑#2015/3/16import osimport reimport urllib.requestimport timeclass sCrapy: def __init__(self,url): self.u...
分类:
编程语言 时间:
2015-04-27 13:12:17
阅读次数:
164
好久没写技术博客了,leetcode在刷,从开题后一直研究用Java和htmlparser开源库实现一个网络爬虫从而实现对某CSDN博客进行备份,直接对博客文章标题、文本和图片进行备份。
经过近一个月的研究,现在已经初步完成了对CSDN博客的备份,现在已可以基本做到对某个人的CSDN博客文章进行全站备份、对某人CSDN博客的某一个类别进行备份、对某个CSDN专栏进行备份三个功能。下一步就是想练练JSP、Servlet和Struts,顺便用一用自己积累的爬虫技术,所以我想到了一个主意,做一个天...
分类:
Web程序 时间:
2015-04-27 11:23:13
阅读次数:
122
通过BeautifulSoup来登陆人人网。可以通过info = {'email':'','password':''}进行账号密码的初始化,一个BeautifulSoup的简单应用,过一阶段会写一个关于BeautifulSoup框架使用的小手册,欢迎大家关注啊,求各路读者大大多加指导。
#-*- coding:utf-8 -*-
import urllib
import urllib2
impo...
分类:
编程语言 时间:
2015-04-27 09:51:13
阅读次数:
133
python模拟浏览器登陆淘宝,其中有输入验证码和打开浏览器,设置代理IP等等。...
分类:
编程语言 时间:
2015-04-27 09:48:30
阅读次数:
188
使用同一IP长期爬取网站容易被网站的反爬虫机制封杀IP。爬虫往往使用多代理的方法来应对反爬虫机制。
本教程利用WebCollector爬取大众点评,展示WebCollector的多代理切换机制,相关内容都在代码注释中。
教程中仅仅将网页保存在download文件夹中,如果需要抽取,请参考WebCollector其他教程。...
分类:
Web程序 时间:
2015-04-26 21:16:47
阅读次数:
4480
为了练手,使用爬虫爬一个“你懂得”图床的,使用的是urlretrieve函数,不但速度慢,还总是会报错,不是open的timeout就是上面提到的socket error。在网上找了许多办法诸如在urllib2.Request.urlopen().read()后需要调用close()关闭等方法并未奏效。
由于不想麻烦scrapy等库,所以发现了个简单粗暴的办法:
直接使用urllib自带的ope...
分类:
编程语言 时间:
2015-04-26 13:54:36
阅读次数:
295
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制#!/usr/bin/env python
#! -*- coding: utf-8 -*-
#图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif" style="width:460px"
import urllib,urllib2
i...
分类:
编程语言 时间:
2015-04-26 13:53:49
阅读次数:
160