通常,我们需要判断一个元素是否在一个集合中。比如在WPS字处理软件中,需要检查一个单词是否拼写正确;在FBI
中需要判断一个嫌疑犯的名字是否在嫌疑名单上;在网络爬虫里,判断一个网址是否被访问过。最简单的解决办法就是
采用HashTable的方法来存储,它的好处是快速且精确,缺点是耗费大量内存空间。
现在,来介绍一种数学工具,叫做布隆过滤器(Bloom Filter),是布隆在1970年...
分类:
其他好文 时间:
2014-10-19 02:41:55
阅读次数:
310
最近在玩一些爬虫,python中文转码刚接触是一件麻烦的事(转换的原理省略)一般来说有encode(‘gbk‘),edcode(‘utf8‘),decode(‘gbk‘),decode(‘utf8‘)可以解决很大一部问题但是今天遇到了‘\\u6210\\u529f‘这种格式,上面的三板斧就搞不定了经过万能的度娘,发现了第一个贴子,叹为..
分类:
编程语言 时间:
2014-10-17 07:05:36
阅读次数:
254
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,...
分类:
编程语言 时间:
2014-10-17 02:11:54
阅读次数:
306
博客园的第一个坑,想想都有点小激动 =3=首先是那个爬虫的地址:【原创】最近写的一个比较hack的小爬虫选择工具:以前用过Qt,那么选pyqt4也就是情理之中了。明确需求:0、首先,要读取漫画的全部章节进来,同时能选择相应的章节。1、其次,进入相应的章节后,显示该章节的图片,同时有“下一页”、“上一...
分类:
编程语言 时间:
2014-10-17 01:41:13
阅读次数:
370
目标:爬取爱漫画上面自己喜欢的一个漫画分析阶段:0、打开爱漫画主页,迎面就是一坨js代码。。直接晕了1、经过抓包和对html源码的分析,可以发现爱漫画通过另外一个域名发送图片,而当前域名中通过js动态生成图片的文件名。问题就在这里了,首先,图片的文件命名模式比较多,没办法通过js源码直接爬;其次,有...
分类:
其他好文 时间:
2014-10-15 20:42:11
阅读次数:
252
说起爬虫你一定想起:Scrapy,没用过这个东西,不过从Google,看起来很专业的,由于工作需要,偶尔也会从网上抓取一些数据,之前用的是beautifulsoup,我这个人其实也有点强迫症,一定要知道范围,优劣,那么问题来了?两个东西的范围是什么?以及那个更好?直接Google你可以得到答案原来是...
分类:
编程语言 时间:
2014-10-15 13:11:10
阅读次数:
164
package com.hpu.bai;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileOutputStream;import java.io.Fil...
分类:
其他好文 时间:
2014-10-15 03:19:59
阅读次数:
201
#!/usr/bin/env python#coding=utf-8import threadingimport urllibimport reimport timecur=0last=0totalcount=0depth=0t_mutex=threading.Condition() class M...
分类:
编程语言 时间:
2014-10-15 00:21:09
阅读次数:
297
最近闲着没事想看小说,找到一个全是南派三叔的小说的网站,决定都下载下来看看,于是动手,在很多QQ群里高手的帮助下(本人正则表达式很烂,程序复杂的正则都是一些高手指导的),花了三四天写了一个脚本
需要 BeautifulSoup 和 requests 两个库
(我已经把注释写得尽量详细)
这个程序的执行速度很慢,求高手告诉我优化的方法!!
#-*-coding:utf8-*-
from...
分类:
编程语言 时间:
2014-10-14 15:47:19
阅读次数:
227
网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。 比如,你要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网...
分类:
Web程序 时间:
2014-10-14 14:09:48
阅读次数:
207