搜索关键字：scrapy，搜索到2725个结果！码迷,mamicode.com！

【scrapy】学习Scrapy入门

Scrapy介绍 Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。所谓网络爬虫，就是一个在网上到处或定向抓取数据的程序，当然，这种说法不够专业，更专业的描述就是，抓取特定网站网页的HTML数据。抓取网页的一般方法是，定义一个入口页面，然后一般一个页面会有其他页面的URL，于是从当前页面获取到这些URL加...

分类：其他好文时间：2015-01-25 18:16:58 阅读次数：212

同步/异步，阻塞/非阻塞的个人小总结

同步/异步，阻塞/非阻塞的个人小总结最近一直在用scrapy写编写爬虫程序，在阅读其源码和开源项目的时候，常常会接触到一些网络编程相关的东东。首先，Scrapy是由Twisted写的一个受欢迎的Python事件驱动网络框架，它使用的是非堵塞的异步处理。在网络编程中有阻塞/非阻塞和同步/异步的概念，这里我做了一个总结：因为中文语意的问题，很多时候确实会导致混用，而且...

分类：其他好文时间：2015-01-19 19:10:04 阅读次数：183

使用scrapy制作的小说爬虫

使用scrapy制作的小说爬虫爬虫配套的django网站 https://www.zybuluo.com/xuemy268/note/63660首先是安装scrapy，在Windows下的安装比较麻烦，大家好好百度下，这里就不细说了，在ubuntu下的安装apt-get install python...

分类：其他好文时间：2015-01-16 16:08:56 阅读次数：266

scrapy

# -*- coding: utf-8 -*- import scrapy import chardet from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.ut...

分类：其他好文时间：2015-01-14 09:39:24 阅读次数：148

使用django+mysql+scrapy制作的一个小说网站

小说网站用的程序都是千篇一律的，jieqi + guanguang，无聊时间学习python+django，也做了一个小说网站，下面说一说做这个网站一些过程，制作这种采集站，最要紧的是要有一个好的采集器，在python的世界里面，爬取网页真是小菜一碟，urllib urllib2 requests ...

分类：数据库时间：2015-01-12 14:16:15 阅读次数：462

Python爬虫框架Scrapy 学习笔记 10.3 -------【实战】抓取天猫某网店所有宝贝详情

第三部分替换默认下载器，使用selenium下载页面对详情页稍加分析就可以得出：我们感兴趣的大部分信息都是由javascript动态生成的，因此需要先在浏览器中执行javascript代码，再从最终的页面上抓取信息（当然也有别的解决方案）。scrapy本身提供了Middleware机制。利用Dowloader..

分类：编程语言时间：2015-01-12 11:09:41 阅读次数：371

Python爬虫框架Scrapy 学习笔记 9 ----selenium

selenium本是用来对webapplication做自动化测试的。不过，它有个天大的好处：能让我们用python(当然不仅是python)代码模拟人对浏览器的操作。所需软件：python2.7,firefox25.0.1(版本不能太高),selenium2.44.0(使用pipinstallselenium安装即可)1.打开浏览器，请求百度主页，5秒..

分类：编程语言时间：2015-01-12 06:57:37 阅读次数：700

Python爬虫框架Scrapy 学习笔记 10.1 -------【实战】抓取天猫某网店所有宝贝详情

第一部分：任务描述起始页面：http://shanhuijj.tmall.com/search.htm?spm=a1z10.3-b.w4011-3112923129.1.KjGkS2这个页面列出了网店的所有宝贝，如图：点击进入宝贝详情页面，例如：http://detail.tmall.com/item.htm?spm=a1z10.3-b.w4011-3112923129.62.xGx75B&id=1091021..

分类：编程语言时间：2015-01-12 06:55:47 阅读次数：800

Python爬虫框架Scrapy 学习笔记 10.2 -------【实战】抓取天猫某网店所有宝贝详情

第二部分抽取起始页中进入宝贝详情页面的链接创建项目，并生成spider模板，这里使用crawlspider。2.在中scrapyshell中测试选取链接要使用的正则表达式。首先使用firefox和firebug查看源码，定位到要链接然后在shell中打开网页：scrapyshellhttp://shanhuijj.tmall.com/search.h..

分类：编程语言时间：2015-01-12 06:53:47 阅读次数：945

Python爬虫框架Scrapy 学习笔记 8----Spider

什么是爬虫?从逻辑角度讲，爬虫对应一个树。树枝是网页，树叶是感兴趣的信息。当我们从一个URL出发查找感兴趣的信息时，当前URL返回的内容可能包含我们感兴趣的信息，也可能包含另一个可能包含我们感兴趣的信息的URL。一个爬虫对应一次信息搜索，信息搜索过程会建立起一棵树。s..

分类：编程语言时间：2015-01-11 06:25:52 阅读次数：641

共2725条上一页 1 ... 261 262 263 264 265 ... 273 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)