搜索关键字：爬虫补充，搜索到2个结果！码迷,mamicode.com！

python爬虫补充章，在总控节点那台机器上安装mongodb和redis数据库都是非apt方法

因为发现爬虫爬取出来的数据如果按照表结构划分后存储，不仅麻烦而且非常大的冗余干脆试试用这样的非关系数据库来试试存储效果如何。这里我不打算用redis 进行比较，因为他是内存数据库，他擅长的领域应该是缓存和少量数据的统计归类（做这个的还有另外一大家伙memcache），redis 以后相配合其他应用提高效率的。这里相比较的主要是mongodb和mysql 的性能差，就特定指的是这样...

分类：数据库时间：2015-08-04 22:59:07 阅读次数：224

关于爬虫Demo的一点补充

上一篇简单的Demo确实实现了一些爬虫的功能。但是距真正的搜索引擎爬虫确实想去甚远。 1.首先下载URL时，大多是维护一个DNS服务器，找到相应的IP在进行下载网页。 2.维护URL队列时，上篇程序属于纵向的深度遍历，所以维护队列会越来越大，这算是比较大的bug了。解决方法起线程，或者每个页面只抓取一个URL。 3，关于URL抓取和种子URL写的也比较简陋，好吧，原谅他只是个Demo。urll...

分类：其他好文时间：2015-04-29 23:34:54 阅读次数：330

共2条

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)