一般爬虫都是用urllib包,requests包 配合正则.beautifulsoup等包混合使用,达到爬虫效果,不过有框架谁还用原生啊,现在我们来谈谈SCRAPY框架爬虫, 现在python3的兼容性上来了,SCRAPY不光支持python2版本了,有新的不用旧的,现在说一下让很多人望而止步的安装 ...
分类:
编程语言 时间:
2018-01-31 11:37:50
阅读次数:
103
# 抓取内容:商品名称,商品价格,商品链接,店铺名称,店铺链接 # 爬取的时候之前返回了多次302,301 但是html网页还是被爬取下来了 抓取的首页: start_urls = ['https://list.tmall.com/search_product.htm?spm=a220m.10008 ...
分类:
其他好文 时间:
2018-01-29 16:17:26
阅读次数:
316
下载器中间件(Downloader Middleware) 下载器中间件是介于Scrapy的request/response处理的钩子框架。是用于全局修改Scrapy request和response的一个轻量、底层的系统。 它处于 引擎(crawler.engine) 和 下载器(crawler. ...
分类:
其他好文 时间:
2018-01-28 19:12:57
阅读次数:
347
gcc编译时对’xxxx’未定义的引用问题 原因 解决办法 gcc 依赖顺序问题 gcc编译时对’xxxx’未定义的引用问题 原因 解决办法 gcc 依赖顺序问题 原因 解决办法 gcc 依赖顺序问题 gcc 依赖顺序问题 在使用gcc编译的时候有时候会碰到这样的问题,编译为.o(obj) 文件没有 ...
分类:
其他好文 时间:
2018-01-27 17:05:52
阅读次数:
194
目前很多网站管理者似乎对robots.txt并没有引起多大重视,甚至不知道这么一个文件的作用。本来应该保密的信息被爬虫抓取了,公布在公网上,本应该发布到公网的信息却迟迟不被搜索引擎收录。所以下面这篇文章,就来介绍robots.txt的作用和写作 robots.txt基本介绍 robots 是一个纯文 ...
分类:
其他好文 时间:
2018-01-27 13:37:31
阅读次数:
96
```
# -*- coding: utf-8 -*-
import scrapy
from scrapy.http import Request,FormRequest class IqianSpider(scrapy.Spider): name = 'iqian' allowed_domains... ...
分类:
其他好文 时间:
2018-01-25 00:09:46
阅读次数:
155
调试代码的时候发现浏览器,不管点什么地方都会跳到其他的乱七八糟的网站,查看DNS地址发现DNS地址变了 变成了下面的这两个,顺带又去百度了一下,可以看这里https://baijiahao.baidu.com/s?id=1589748951705875285&wfr=spider&for=pc 之后 ...
分类:
其他好文 时间:
2018-01-24 19:50:41
阅读次数:
151
一:简介 MongoDB是一款强大、灵活、且易于扩展的通用型数据库1、易用性 2、易扩展性 3、丰富的功能 4、卓越的性能 二:MongoDB基础知识 1、文档是MongoDB的核心概念。文档就是键值对的一个有序集{'msg':'hello','foo':3}。类似于python中的有序字典。 2、 ...
分类:
数据库 时间:
2018-01-24 15:32:13
阅读次数:
225
【链接】 "我是链接,点我呀:)" 【题意】 在这里输入题意 【题解】 会发现每个环可以操作的次数是固定的。 (环的大小 1 也就是说一旦环确定了。其实结果就已经确定了。 则直接看操作总数的奇偶性就可以了。 【代码】 cpp include define long long using namesp ...
分类:
其他好文 时间:
2018-01-23 13:08:36
阅读次数:
119
pipelines.py中有方法如下 def process_item(self, item, spider): 通过item参数,可以针对不同的Item进行处理,例如: if isinstance(item, AAItem): ...... elif isinstance(item, BBItem ...
分类:
其他好文 时间:
2018-01-22 17:27:51
阅读次数:
384