人物介绍姓名:DougCutting个人名望:开发出开源全文检索引擎工具包Lucene。个人简介/主要荣誉:除了 Lucene,还开发了著名的网络爬虫工具 Nutch,分布式系统基础架构Hadoop,这些大师级作品都是开源的。目前任职 Apache 软件基金会主席。网络上对 Doug Cutting...
分类:
其他好文 时间:
2014-10-03 13:28:14
阅读次数:
368
Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结取结构化的数据。 --from wiki 说白了就是基于python的爬虫框架。 安装: ubuntu 14.04 python2.7(python3不支持...
分类:
其他好文 时间:
2014-10-02 14:32:53
阅读次数:
141
要在centos下安装一个python的爬虫框架scrapy,可是一直遇到lxml无法安装,报错为 error:?command?‘gcc‘?failed?with?exit?status?1 查找资料后在Stack Overflow找到解决方法 sudo?yum?install?-y?gcc...
分类:
其他好文 时间:
2014-10-02 13:58:33
阅读次数:
175
#! /usr/bin/env python#coding=utf-8# by chuxing 2014/10/1# qq:121866673from os.path import dirname, abspathfrom extract import extract,extract_allimpo...
分类:
编程语言 时间:
2014-10-01 21:46:21
阅读次数:
273
本想抓取网易摄影上的图,但发现查看html源代码时找不到图片的url,但firebug却能定位得到。(不知道为什么???)目标是抓取前50页的爆乳图,代码如下:import urllib2,urllib,re,os'''http://www.dbmeizi.com/category/2?p=%'''...
分类:
数据库 时间:
2014-10-01 21:26:21
阅读次数:
312
因为大三下的时候选修了搜索技术,了解了网络上搜索引擎和网络爬虫的信息扒取的一些东西,后来我们做了一个比较水的东西,就是只扒取了几家较大的下载网站几十个软件的评分下载量等信息,当用户输入一个程序名称,我们会根据下载量和评分算出的分数做一个推荐排序。
咳,扯远了。那时候我们在windows下需要用火狐来查看网页的源代码,这点强大的Safari也是可以做到的,甚至Safari提供的查看源...
分类:
Web程序 时间:
2014-10-01 02:14:30
阅读次数:
337
URL、URI、URNURL:protocol :// hostname[:port] / path / [;parameters][?query]#fragment
分类:
编程语言 时间:
2014-10-01 00:28:10
阅读次数:
182
基础知识搜索引擎搜索引擎爬虫会检索各个网站,分析他们的关键字,从一个连接到另一个连接,如果爬虫觉得这个关键字是有用的 就会存入搜索引擎数据库,反之如果没用的、恶意的、或者已经在数据库的,就会舍弃。搜索引擎数据库 保证是爬虫爬过的最新的数据。用户在使用搜索引擎会在搜索引擎数据库查找关键词,展现给用的的...
分类:
其他好文 时间:
2014-10-01 00:16:40
阅读次数:
187
网络爬虫程序的优劣,很大程度上反映了一个搜索引擎的好差。不信,你可以随便拿一个网站去查询一下各家搜索对它的网页收录情况,爬虫强大程度跟搜索引擎好坏基本成正比。 1.世界上最简单的爬虫——三行情诗 我们先...
分类:
Web程序 时间:
2014-09-30 19:37:00
阅读次数:
306
一个网站只有爬虫抓取了,才能被收录、有快照、有排名。所以搜索引擎爬虫对网站的抓取情况直接决定了一个网站seo的成败。今天笔者就从网站内部本身来分析一下那些因素将影响到搜索引擎爬虫的爬取: 1、网站速度影响爬虫访问 机房—DNS服务器—CDN—出口带宽--硬件—操作系统—服务器软件—程序 机房的...
分类:
Web程序 时间:
2014-09-30 17:03:59
阅读次数:
210