第二部分抽取起始页中进入宝贝详情页面的链接创建项目,并生成spider模板,这里使用crawlspider。2.在中scrapyshell中测试选取链接要使用的正则表达式。首先使用firefox和firebug查看源码,定位到要链接然后在shell中打开网页:scrapyshellhttp://shanhuijj.tmall.com/search.h..
分类:
编程语言 时间:
2015-04-05 19:04:49
阅读次数:
400
这个学期开设了编译原理和形式语言与自动机,里面都有介绍过正则表达式,今天自己学了学用python正则表达式写爬虫
一、网络爬虫的定义
网络爬虫,即Web Spider,是一个很形象的名字。
把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。
网络蜘蛛是通过网页的链接地址来寻找网页的。
从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址...
分类:
编程语言 时间:
2015-04-04 23:49:43
阅读次数:
1019
利用python抓取网络图片的步骤:
1.根据给定的网址获取网页源代码
2.利用正则表达式把源代码中的图片地址过滤出来
3.根据过滤出来的图片地址下载网络图片
import urllib
import re
import os
#urllib,r...
分类:
编程语言 时间:
2015-04-01 09:37:09
阅读次数:
171
python爬虫Pragmatic系列IV
说明:
在上一篇博客中,我们已经做到了从赶集网首页上抓取所有的链接,并下载下来,分析后存入Excel中。
本次目标:
在本节中,我们将使用python多线程技术从赶集网上抓取链接并分析,注意,我们这次能够抓获的链接数目可以远远大于上一篇博客中抓获的。
分析:
用爬虫统计信息那自然数据越多越好,为了获取更多的数据,我们研究下如何打开上千...
分类:
编程语言 时间:
2015-03-31 16:10:13
阅读次数:
212
在工作目录中初始化新仓库从现有仓库克隆检查当前文件状态跟踪新文件暂存已修改文件忽略某些文件查看已暂存和未暂存的更新提交更新跳过使用暂存区域移除文件移动文件限制输出长度使用图形化工具查阅提交历史修改最后一次提交取消已经暂存的文件取消对文件的修改查看当前的远程库添加远程仓库从远程仓库抓取数据推送数据到远...
分类:
其他好文 时间:
2015-03-31 14:39:59
阅读次数:
141
python爬虫Pragmatic系列III
说明:
在上一篇博客中,我们已经学会了从赶集网上的一家公司中提取出有关的信息,并存储到Excel中。
本次目标:
在本节中,我们将批量下载赶集首页上所有的公司界面(注意不是赶集网上所有的公司页面,我们可以把这个留给之后的任务),并批量的处理所有公司的有关信息,并保存到Excel中。
注意:
在上一篇博客中,我们使...
分类:
编程语言 时间:
2015-03-28 23:18:24
阅读次数:
441
首先要了解对方网页的执行机制,这能够用httpwacth或者httplook来看一下http发送和接收的数据。这两个工具应该说是比較简单易懂的。这里就不再介绍了。主要关注的内容是header和post的内容。通常会包括cookie,Referer页面和其它一些乱其八糟可能看不懂的变量,还有就是正常交...
分类:
Web程序 时间:
2015-03-15 19:35:31
阅读次数:
113
在使用Python对一些网站的数据进行采集时,经常会遇到需要登录的情况。这些情况下,使用FireFox等浏览器登录时,自带的调试器(快捷键F12)就可以看到登录的时候网页向服务器提交的信息,把这部分信息提取出来就可以利用Python的urllib2库结合Cookie进行模拟登录然后采集数据,..
分类:
编程语言 时间:
2015-03-12 01:06:48
阅读次数:
4418
Scrapy 是什么?
Scrapy 是一个开源的基于Twisted的python爬虫框架,我们只要定制几个简单的模块就能实现网络数据的爬取。
Scrapy 的整体架构
简单的解释一下上面的图:
爬虫处理的原材料是一个或多个url,爬取时Sheduler会把一个url分配给Downloader来进行一次网络的request请求,请求完成后Downloader再把所得到的res...
分类:
移动开发 时间:
2015-03-10 19:28:45
阅读次数:
259