第一个: 数据类型、 对象的不同属性会用不同的数据类型来描述,如 年龄-->int; 生日 -->date;数据挖掘时也要对不同的类型有不同的对待。第二个: 数据质量、 数据质量直接影响挖掘结果的质量、一般必须解决数据中的 噪点,离群点,数据遗漏,重复。第三个: ...
分类:
其他好文 时间:
2014-10-19 21:14:21
阅读次数:
194
通常,我们需要判断一个元素是否在一个集合中。比如在WPS字处理软件中,需要检查一个单词是否拼写正确;在FBI
中需要判断一个嫌疑犯的名字是否在嫌疑名单上;在网络爬虫里,判断一个网址是否被访问过。最简单的解决办法就是
采用HashTable的方法来存储,它的好处是快速且精确,缺点是耗费大量内存空间。
现在,来介绍一种数学工具,叫做布隆过滤器(Bloom Filter),是布隆在1970年...
分类:
其他好文 时间:
2014-10-19 02:41:55
阅读次数:
310
天地四方曰宇,往古来今曰宙时间是世界的重要组成部分,不论花开花落,还是云卷云舒都有它的影子。但它源起何处?又将去向何方?没人知道答案,也不需要答案,我们需要的只是一个相对的起点来标识时间,现今世界普遍采用公元纪年法来表示。公元纪年法以耶稣诞生日记为公元1年(没有公元0年),中国处于汉平帝刘衎(不会读...
分类:
Web程序 时间:
2014-10-19 01:14:38
阅读次数:
390
一场生日宴会,参加总人数可能5个人或者9个人,如果生日蛋糕要求事先切好,且切分的大小可以不一样,问最少切成多少块,才能保证不管总人数是5个还是9个,蛋糕都能平均分配给每一位参加者?13块: 1/9 5块 1/45 4块 4/45 4块PS:我也不知道怎么去证明,也不确定1...
分类:
其他好文 时间:
2014-10-17 21:45:37
阅读次数:
130
题目大意:有一块蛋糕,长为X,宽为Y,现在有n个人来分这块蛋糕,还要保证每个人分的蛋糕的面积相等。求一种分法,使得所有的蛋糕的长边与短边的比值的最大值最小。
思路:刚拿到这个题并没有什么思路。但是定睛一看,(n
直接爆搜就可以水过。传三个参数,代表当前的长和宽,还有当前块需要被分成几块,然后随便乱搞就可以水过了。。
CODE:
#include
#include
...
分类:
其他好文 时间:
2014-10-17 15:36:13
阅读次数:
175
题目大意:自行脑补。
思路:二分答案。
但是如何判断?
我们定义递归函数judge(a,b,k)表示长为a,宽为b的蛋糕能否被分为k块。
那么每次我们只需枚举划分方法即可,即分为多少块和多少块,横着切还是竖着。
当k=1时判断,返回即可。
这其中以当前二分的答案Mid作为参数。
这样就可以了。
Code:
#include
#include
#include ...
分类:
其他好文 时间:
2014-10-17 13:54:36
阅读次数:
196
最近在玩一些爬虫,python中文转码刚接触是一件麻烦的事(转换的原理省略)一般来说有encode(‘gbk‘),edcode(‘utf8‘),decode(‘gbk‘),decode(‘utf8‘)可以解决很大一部问题但是今天遇到了‘\\u6210\\u529f‘这种格式,上面的三板斧就搞不定了经过万能的度娘,发现了第一个贴子,叹为..
分类:
编程语言 时间:
2014-10-17 07:05:36
阅读次数:
254
最近在做项目的时候有一个需求:从网页面抓取数据,要求是首先抓取整个网页的html源码(后期更新要使用到)。刚开始一看这个简单,然后就稀里哗啦的敲起了代码(在这之前使用过Hadoop平台的分布式爬虫框架Nutch,...
分类:
编程语言 时间:
2014-10-17 02:11:54
阅读次数:
306
博客园的第一个坑,想想都有点小激动 =3=首先是那个爬虫的地址:【原创】最近写的一个比较hack的小爬虫选择工具:以前用过Qt,那么选pyqt4也就是情理之中了。明确需求:0、首先,要读取漫画的全部章节进来,同时能选择相应的章节。1、其次,进入相应的章节后,显示该章节的图片,同时有“下一页”、“上一...
分类:
编程语言 时间:
2014-10-17 01:41:13
阅读次数:
370
Cookie的简单使用程序逻辑:index.jsp用来输入和处理Cookie和取得Cookie(不知道是内存还客户端的)用show.jsp来接收表单数据和Cookie ,再发送Cookie 给客户端。index.jsp页面Insert title here姓名 : >出生日期 :> 邮箱地址...
分类:
其他好文 时间:
2014-10-17 01:07:03
阅读次数:
416