搜索关键字：爬虫 pyton，搜索到10534个结果！码迷,mamicode.com！

【Java 集合与队列的插入、删除在并发下的性能比较】

这两天在写一个java多线程的爬虫，以广度优先爬取网页，设置两个缓存：　　一个保存已经访问过的URL：vistedUrls 　　一个保存没有访问过的URL：unVistedUrls 　　需要爬取的数据量不大，对URL压缩后，可以把这两个数据结构都放入内存，vistedUrls很显然用HashSet实现，因为已经访问的URL只会添加，不会删除和修改，使用HashSet可以高效...

分类：编程语言时间：2015-04-28 18:35:37 阅读次数：244

python多线程多队列（BeautifulSoup网络爬虫）

程序大概内容如下：程序中设置两个队列分别为queue负责存放网址，out_queue负责存放网页的源代码。 ThreadUrl线程负责将队列queue中网址的源代码urlopen，存放到out_queue队列中。 DatamineThread线程负责使用BeautifulSoup模块从out_queue网页的源代码中提取出想要的内容并输出。这只是一个基本的框架，可以根据需求继续扩展...

分类：编程语言时间：2015-04-28 09:49:14 阅读次数：164

Web 自动化测试与智能爬虫利器：PhantomJS 简介与实战

估计部分同学没听过这个工具，那先简单介绍下它的背景与作用。 1、PhantomJS 是什么？ PhantomJS是一个基于WebKit的服务器端JavaScript API，它无需浏览器的支持即可实现对Web的支持，且原生支持各种Web标准，如D...

分类：Web程序时间：2015-04-28 07:12:26 阅读次数：170

Python实现利用微博远程关机

利用爬虫，定时获取微博内容。用正则匹配指令#检测微博内容实现自动操作电脑#2015/3/16import osimport reimport urllib.requestimport timeclass sCrapy: def __init__(self,url): self.u...

分类：编程语言时间：2015-04-27 13:12:17 阅读次数：164

天气预报网站之设计篇

好久没写技术博客了，leetcode在刷，从开题后一直研究用Java和htmlparser开源库实现一个网络爬虫从而实现对某CSDN博客进行备份，直接对博客文章标题、文本和图片进行备份。经过近一个月的研究，现在已经初步完成了对CSDN博客的备份，现在已可以基本做到对某个人的CSDN博客文章进行全站备份、对某人CSDN博客的某一个类别进行备份、对某个CSDN专栏进行备份三个功能。下一步就是想练练JSP、Servlet和Struts，顺便用一用自己积累的爬虫技术，所以我想到了一个主意，做一个天...

分类：Web程序时间：2015-04-27 11:23:13 阅读次数：122

python模拟登陆人人网（通过BeautifulSoup module）

通过BeautifulSoup来登陆人人网。可以通过info = {'email':'','password':''}进行账号密码的初始化，一个BeautifulSoup的简单应用，过一阶段会写一个关于BeautifulSoup框架使用的小手册，欢迎大家关注啊，求各路读者大大多加指导。 #-*- coding:utf-8 -*- import urllib import urllib2 impo...

分类：编程语言时间：2015-04-27 09:51:13 阅读次数：133

python模拟浏览器登陆淘宝（设置代理、输入验证码）

python模拟浏览器登陆淘宝，其中有输入验证码和打开浏览器，设置代理IP等等。...

分类：编程语言时间：2015-04-27 09:48:30 阅读次数：188

WebCollector多代理切换机制

使用同一IP长期爬取网站容易被网站的反爬虫机制封杀IP。爬虫往往使用多代理的方法来应对反爬虫机制。本教程利用WebCollector爬取大众点评，展示WebCollector的多代理切换机制，相关内容都在代码注释中。教程中仅仅将网页保存在download文件夹中，如果需要抽取，请参考WebCollector其他教程。...

分类：Web程序时间：2015-04-26 21:16:47 阅读次数：4480

[python爬虫]使用urllib函数urlretrieve报错[socket error][Errno 10054]

为了练手，使用爬虫爬一个“你懂得”图床的，使用的是urlretrieve函数，不但速度慢，还总是会报错，不是open的timeout就是上面提到的socket error。在网上找了许多办法诸如在urllib2.Request.urlopen().read()后需要调用close()关闭等方法并未奏效。由于不想麻烦scrapy等库，所以发现了个简单粗暴的办法：直接使用urllib自带的ope...

分类：编程语言时间：2015-04-26 13:54:36 阅读次数：295

[python][爬虫]暴漫gif下载

说明：和上一个下载百度贴吧图片差不多，修改了正则，加入了页码控制#!/usr/bin/env python #! -*- coding: utf-8 -*- #图片地址样例:src="http://ww2.sinaimg.cn/large/005Yan1vjw1erf95qkbfog307e08uu0y.gif" style="width:460px" import urllib,urllib2 i...

分类：编程语言时间：2015-04-26 13:53:49 阅读次数：160

共10534条上一页 1 ... 979 980 981 982 983 ... 1054 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)