一个简单的爬虫案例 from scrapy_redis.spiders import RedisSpider import os,urllib.request,time class XiaohuaSpider(scrapy.Spider): name = 'xiaohua' allowed_doma ...
分类:
其他好文 时间:
2020-03-25 10:24:41
阅读次数:
58
WebMagic是一款爬虫框架,其底层使用的是HttpClient和Jsoup,让我们能够更方便的开发爬虫。 WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下 ...
分类:
Web程序 时间:
2020-03-24 23:23:16
阅读次数:
290
返回主页 回到顶端 Title URL java集合之List、ArrayList和LinkedList区别和实际应用演示 http://baijiahao.baidu.com/s?id=1659871787459693073&wfr=spider&for=pc Java中ArrayList和Lin ...
分类:
其他好文 时间:
2020-03-24 22:56:35
阅读次数:
153
一、基本概念 理解基本原理,本篇写的非常好:https://baijiahao.baidu.com/s?id=1639383166201396225&wfr=spider&for=pc 1、桥接模式(Bridge Pattern):将抽象部分与它的实现部分分离,使它们都可以独立地变化。它是一种对象结 ...
分类:
其他好文 时间:
2020-03-21 00:03:00
阅读次数:
68
目标:访问github,特别卡 优化办法:参考https://baijiahao.baidu.com/s?id=1608100091125662190&wfr=spider&for=pc 绕过dns解析,去这个网站()http://tool.chinaz.com/dns?type=1&host=gi ...
分类:
Web程序 时间:
2020-03-20 12:33:09
阅读次数:
92
步骤 1. 安装 Python,版本选择 Python 3,原因看这里: 1. 创建 virtual environment(venv) 1. 安装 pip 1. 安装 Scrapy 1. 写脚本 quotes_spider.py 1. 执行脚本 参考 ...
分类:
其他好文 时间:
2020-03-19 22:06:52
阅读次数:
74
最近使用了parallels desktop 安装了win10,启动后发现会导致mac无声音。后来百度到重启coreaudiod进程可解决(在活动监视器里直接结束该进程后会自动重启) 参考链接:MAC技巧:两个方法,轻松解决苹果电脑没声音! https://baijiahao.baidu.com/s ...
分类:
系统相关 时间:
2020-03-18 20:12:24
阅读次数:
92
https://www.jianshu.com/p/9385f14f607a https://baijiahao.baidu.com/s?id=1605211191470785921&wfr=spider&for=pc http://www.360doc.com/content/19/1028/09 ...
分类:
其他好文 时间:
2020-03-15 22:03:42
阅读次数:
45
scrapy中使用selenium来爬取页面 scrapy中如果下载中间件的 返回的是一个response对象,那么它会直接将该response返回 在这里利用selenium将网页渲染过的html抓取下来,然后在将其转换为scrapy所能解析的response对象 最后在spider中的parse ...
分类:
其他好文 时间:
2020-03-14 16:34:15
阅读次数:
54
1 import scrapy 2 from text_info.items import TextInfoItem 3 4 class A50zwSpider(scrapy.Spider): 5 name = '50zw' 6 allowed_domains = ['m.50zw.la'] 7 s ...
分类:
其他好文 时间:
2020-03-14 01:24:12
阅读次数:
253