码迷,mamicode.com
首页 >  
搜索关键字:爬虫 pyton    ( 10534个结果
写网页爬虫遇到标签匹配难题
写网页爬虫遇到标签匹配难题技术 maybe yes 发表于2015-02-02 13:22 原文链接 : http://blog.lmlphp.com/archives/78 ?来自 : LMLPHP后院 前段时间写优化网页节点的程序时,遇到了标签匹配的难题。在匹配图片标签...
分类:Web程序   时间:2015-05-01 01:57:59    阅读次数:188
Nutch爬虫安装向导与命令详解
Nutch介绍 Nutch是一个开源的用java实现的一个搜素引擎,它包含两个部分的内容:爬虫和搜索。 我们这里主要介绍nutch的爬虫部分,爬虫系统是由nutch爬虫工具Cralwer实现的,生成数据文件主要包括三类,分别是webdatabase,一系列的segment加上index,三者的物理文件分别存储在爬行结果目录下的db目录下webdb子文件夹内,segments文件夹和index文...
分类:其他好文   时间:2015-04-30 14:25:53    阅读次数:251
网络爬虫
/*网络爬虫--爬邮件*/ import java.io.*; import java.util.regex.*;class Main { public static void main(String[] args) throws Exception { getMails(); } public static void getMails() throws Exce...
分类:其他好文   时间:2015-04-30 08:59:12    阅读次数:174
python爬取京东所有iphone的价格和名称
原本想升一下级,用一下creep神马的,但是正则今天突然出了点小问题,我就生气了,就用正则抓取了一下。 这个正则可以用re.search 或者 re.findall都可以,我比较喜欢用search因为可以直接提取结果不用在过滤了。 代码如下,这个小爬爬比较简单。 #-*- coding:utf-8 -*- import urllib2 import json import re Sear...
分类:编程语言   时间:2015-04-30 08:55:26    阅读次数:170
关于爬虫Demo的一点补充
上一篇简单的Demo确实实现了一些爬虫的功能。但是距真正的搜索引擎爬虫确实想去甚远。 1.首先下载URL时,大多是维护一个DNS服务器,找到相应的IP在进行下载网页。 2.维护URL队列时,上篇程序属于纵向的深度遍历,所以维护队列会越来越大,这算是比较大的bug了。解决方法起线程,或者每个页面只抓取一个URL。 3,关于URL抓取和种子URL写的也比较简陋,好吧,原谅他只是个Demo。urll...
分类:其他好文   时间:2015-04-29 23:34:54    阅读次数:330
Python第一个程序小爬虫
最近想上手Python。快速入门一门语言的方法就是写个小Demo。Python Demo必须是爬虫了。第一个小爬虫程序有些简陋,高手勿喷。关于爬虫主要分为三个部分:根据队列中的URL爬取界面、获取内容、保存结果。程序是以百度网站大全为种子URL,抓取页面中URL依次放入队列中,爬虫从URL队列依次取得新URL继续向外爬取。# -*- coding: utf-8 -*- import urllib2...
分类:编程语言   时间:2015-04-29 21:47:24    阅读次数:154
如何防止网站被爬虫爬取的几种办法
如何防止网站被爬虫爬取的几种办法小中大chen2013-10-08 23:26Linux547 次浏览 抢沙发今天想对一个问题进行分析和讨论,就是关于爬虫对网站页面爬取的问题,有些网站通过爬虫去采集其它的网站页面信息作为己用,大量的爬取行为会对web服务器有比较性能有影响,主要的表现就是会变得很慢。...
分类:Web程序   时间:2015-04-29 19:20:31    阅读次数:144
【JAVA】图像识别——HSV肤色提取
OSCHINA上看到各种语言的抓妹子图的程序段,拿来跑一跑,都是爬虫的机制,而地址一般都是固定的,格式固定,才能抓到想要的图,这显示不够智能,于是把作者的代码改掉,变成了个下载图片的爬虫。然后问题就来了,...
分类:编程语言   时间:2015-04-29 17:42:14    阅读次数:286
python抓取京东商城的商品名称和价格
突然心血来潮想抓一个京东的商品价格,突然发现网页的源码里没有价格这一项,只有商品的编号,网上说是显示的同事js从数据库里取出商品价格,放在页面上,那么我只能模拟请求了。哇咔咔,记得去你给京东投简历之后就没有然后了,难道就因为我也叫京东,你这也太浮夸了,给我幼小心灵造成创伤了。     原本要写一下creepy这个模块来抓取了,但今天时间不够了,明天还要上班。。。。明天再写那个模块吧,据说...
分类:编程语言   时间:2015-04-29 10:00:23    阅读次数:179
从零开始学爬虫(一)------环境配置
前言: 本系列文章是对爬虫的简单介绍,以及教你如何用简单的方法爬取网站上的内容。 需要阅读者对html语言及python语言有基本的了解。 (本系列文章也是我在学习爬虫过程中的学习笔记,随着学习的深入会不断地更新)爬虫简介: 网络爬虫是一种自动获取网页内容的程序,是搜索引擎的重要组成部分。 ...
分类:其他好文   时间:2015-04-29 09:45:43    阅读次数:160
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!