码迷,mamicode.com
首页 >  
搜索关键字:爬虫补充    ( 2个结果
python爬虫补充章,在总控节点那台机器上安装mongodb和redis数据库 都是非apt方法
因为发现爬虫爬取出来的数据如果按照表结构划分后存储,不仅麻烦而且非常大的冗余 干脆试试用这样的非关系数据库来试试存储效果如何。 这里我不打算用redis 进行比较,因为他是内存数据库,他擅长的领域应该是缓存和少量数据的统计归类 (做这个的还有另外一大家伙memcache),redis 以后相配合 其他应用提高效率的。 这里相比较的主要是mongodb和mysql 的性能差,就特定指的是这样...
分类:数据库   时间:2015-08-04 22:59:07    阅读次数:224
关于爬虫Demo的一点补充
上一篇简单的Demo确实实现了一些爬虫的功能。但是距真正的搜索引擎爬虫确实想去甚远。 1.首先下载URL时,大多是维护一个DNS服务器,找到相应的IP在进行下载网页。 2.维护URL队列时,上篇程序属于纵向的深度遍历,所以维护队列会越来越大,这算是比较大的bug了。解决方法起线程,或者每个页面只抓取一个URL。 3,关于URL抓取和种子URL写的也比较简陋,好吧,原谅他只是个Demo。urll...
分类:其他好文   时间:2015-04-29 23:34:54    阅读次数:330
2条  
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!