码迷,mamicode.com
首页 >  
搜索关键字:爬虫 pyton    ( 10534个结果
【Java 集合与队列的插入、删除在并发下的性能比较】
这两天在写一个java多线程的爬虫,以广度优先爬取网页,设置两个缓存:   一个保存已经访问过的URL:vistedUrls   一个保存没有访问过的URL:unVistedUrls   需要爬取的数据量不大,对URL压缩后,可以把这两个数据结构都放入内存,vistedUrls很显然用HashSet实现,因为已经访问的URL只会添加,不会删除和修改,使用HashSet可以高效...
分类:编程语言   时间:2015-04-28 18:35:37    阅读次数:244
python多线程多队列(BeautifulSoup网络爬虫)
程序大概内容如下: 程序中设置两个队列分别为queue负责存放网址,out_queue负责存放网页的源代码。 ThreadUrl线程负责将队列queue中网址的源代码urlopen,存放到out_queue队列中。 DatamineThread线程负责使用BeautifulSoup模块从out_queue网页的源代码中提取出想要的内容并输出。 这只是一个基本的框架,可以根据需求继续扩展...
分类:编程语言   时间:2015-04-28 09:49:14    阅读次数:164
Web 自动化测试与智能爬虫利器:PhantomJS 简介与实战
估计部分同学没听过这个工具,那先简单介绍下它的背景与作用。 1、PhantomJS 是什么? PhantomJS是一个基于WebKit的服务器端JavaScript API,它无需浏览器的支持即可实现对Web的支持,且原生支持各种Web标准,如D...
分类:Web程序   时间:2015-04-28 07:12:26    阅读次数:170
Python实现利用微博远程关机
利用爬虫,定时获取微博内容。用正则匹配指令#检测微博内容实现自动操作电脑#2015/3/16import osimport reimport urllib.requestimport timeclass sCrapy: def __init__(self,url): self.u...
分类:编程语言   时间:2015-04-27 13:12:17    阅读次数:164
天气预报网站之设计篇
好久没写技术博客了,leetcode在刷,从开题后一直研究用Java和htmlparser开源库实现一个网络爬虫从而实现对某CSDN博客进行备份,直接对博客文章标题、文本和图片进行备份。 经过近一个月的研究,现在已经初步完成了对CSDN博客的备份,现在已可以基本做到对某个人的CSDN博客文章进行全站备份、对某人CSDN博客的某一个类别进行备份、对某个CSDN专栏进行备份三个功能。下一步就是想练练JSP、Servlet和Struts,顺便用一用自己积累的爬虫技术,所以我想到了一个主意,做一个天...
分类:Web程序   时间:2015-04-27 11:23:13    阅读次数:122
python模拟登陆人人网(通过BeautifulSoup module)
通过BeautifulSoup来登陆人人网。可以通过info = {'email':'','password':''}进行账号密码的初始化,一个BeautifulSoup的简单应用,过一阶段会写一个关于BeautifulSoup框架使用的小手册,欢迎大家关注啊,求各路读者大大多加指导。 #-*- coding:utf-8 -*- import urllib import urllib2 impo...
分类:编程语言   时间:2015-04-27 09:51:13    阅读次数:133
python模拟浏览器登陆淘宝(设置代理、输入验证码)
python模拟浏览器登陆淘宝,其中有输入验证码和打开浏览器,设置代理IP等等。...
分类:编程语言   时间:2015-04-27 09:48:30    阅读次数:188
WebCollector多代理切换机制
使用同一IP长期爬取网站容易被网站的反爬虫机制封杀IP。爬虫往往使用多代理的方法来应对反爬虫机制。 本教程利用WebCollector爬取大众点评,展示WebCollector的多代理切换机制,相关内容都在代码注释中。 教程中仅仅将网页保存在download文件夹中,如果需要抽取,请参考WebCollector其他教程。...
分类:Web程序   时间:2015-04-26 21:16:47    阅读次数:4480
[python爬虫]使用urllib函数urlretrieve报错[socket error][Errno 10054]
为了练手,使用爬虫爬一个“你懂得”图床的,使用的是urlretrieve函数,不但速度慢,还总是会报错,不是open的timeout就是上面提到的socket error。在网上找了许多办法诸如在urllib2.Request.urlopen().read()后需要调用close()关闭等方法并未奏效。 由于不想麻烦scrapy等库,所以发现了个简单粗暴的办法: 直接使用urllib自带的ope...
分类:编程语言   时间:2015-04-26 13:54:36    阅读次数:295
[python][爬虫]暴漫gif下载
说明:和上一个下载百度贴吧图片差不多,修改了正则,加入了页码控制#!/usr/bin/env python #! -*- coding: utf-8 -*- #图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif" style="width:460px" import urllib,urllib2 i...
分类:编程语言   时间:2015-04-26 13:53:49    阅读次数:160
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!