历时半年的「吹水新闻」重构升级终于完成
吹水新闻2.0的地址是:http://news.reetsee.com;
吹水新闻1.0的地址是:http://reetseenews.duapp.com。(由于没有续费可能已经失效)
那么新版比旧版相比有哪些不同?...
分类:
其他好文 时间:
2015-01-04 23:05:37
阅读次数:
249
本文转载至 http://www.tuicool.com/articles/VZBj2e原文http://itindex.net/detail/52388-框架webmagic的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。官方网站http://web...
分类:
其他好文 时间:
2015-01-04 18:39:12
阅读次数:
217
作为网页设计师,搜索引擎优化重要吗?我们知道,网站设计是把屏幕上平淡无奇变成令人愉快的美感,更直观地辨认信息。这也是人与人之间在沟通想法,这样的方式一直在演变。1.网站结构对于搜索引擎优化,网站的结构是最重要的因素之一。网站结构是所有关于你的网页是如何联系在一起。搜索引擎爬虫的基础上它的设置方式判断...
分类:
其他好文 时间:
2015-01-04 15:10:56
阅读次数:
212
看知乎的时候发现了一个 “如何正确地吐槽” 收藏夹,里面的一些神回复实在很搞笑,但是一页一页地看又有点麻烦,而且每次都要打开网页,于是想如果全部爬下来到一个文件里面,是不是看起来很爽,并且随时可以看到全部的,于是就开始动手了。工具1.Python 2.72.BeautifulSoup分析网页我...
分类:
编程语言 时间:
2015-01-03 19:49:03
阅读次数:
187
根据上图解释的搜索引擎工作原理,笔者要一步一步为大家解释,讲解。进行完整的seo培训服务。1、www:我们的互联网,一个巨大的、复杂的体系;2、搜集器:这个我们站长们就都熟悉了,我们对它的俗称也就是蜘蛛,爬虫,而他的工作任务就是访问页面,抓取页面,并下载页面;3、控制器:蜘蛛下载下来的传给控制器,功...
分类:
其他好文 时间:
2015-01-03 13:05:07
阅读次数:
164
用WebCollector 2.x 配合另一个项目WeiboHelper,就可以直接爬取新浪微博的数据(无需手动获取cookie)...
分类:
Web程序 时间:
2015-01-02 23:44:58
阅读次数:
390
我们都知道布隆过滤是用来判断一个元素是否在一个集合中的很有效的方法。比如在WPS字处理软件中,需要检查一个单词是否拼写正确;在FBI中需要判断一个嫌疑犯的名字是否在嫌疑名单上;在网络爬虫里,判断一个网址是否被访问过。最简单的解决办法就是采用HashTable的方法来存储,它的好处是快速且精确,缺点是耗费大量内存空间。所以针对耗费空间大的问题,提出了布隆过滤。但是布隆过滤是有误识别率的,也就是说在集...
分类:
其他好文 时间:
2015-01-01 19:50:29
阅读次数:
222
我是一名大二的学生,课余时间开发了这个磁力搜索——btgoogle.com 。之前一直在有很多人研究DHT爬虫的群里面, 也就是研究所谓的磁力搜索 ,利用课余时间和群里的一个人一起开发DHT 协议型的磁力搜索,但是我只是负责前端的。但是这次合作,让我对互联网技术有了更多的了解,比如非采集型的 磁力....
分类:
其他好文 时间:
2015-01-01 18:29:20
阅读次数:
299
以下是伯乐在线从GitHub中整理出的15个最受欢迎的Python开源框架。这些框架包括事件I/O,OLAP,Web开发,高性能网络通信,测试,爬虫等。Django: Python Web应用开发框架Django 应该是最出名的Python框架,GAE甚至Erlang都有框架受它影响。Django是...
分类:
编程语言 时间:
2014-12-29 10:26:00
阅读次数:
186