流操作:
什么是流,通俗来说就是读一点写一点,而且这个一点,是可以控制的,我可以让他一次读取1M或者10M或者100M都可以。
控制读取文件大小 这个就是缓冲区,设置缓冲区不可以太小,当然也不可以太大,适当就好,太小了会频繁读写硬盘,对硬盘损害加大,太大了也会拖慢速度。设置适当就可以。...
分类:
Web程序 时间:
2014-05-26 04:35:15
阅读次数:
288
目前为止介绍的都是数据的重排。另一类重要操作则是过滤、清理以及其他的转换工作。...
分类:
编程语言 时间:
2014-05-26 04:02:14
阅读次数:
570
Python能够成为流行的数据处理语言,部分原因是其简单易用的字符串和文本处理功能。大部分文本运算都直接做成了字符串对象的内置方法。对于更为复杂的模式匹配和文本操作,则可能需要用到正则表达式。pandas对此进行了加强,它使你能够对数组数据应用字符串表达式和正则表达式,而且能处理烦人的缺失数据。...
分类:
编程语言 时间:
2014-05-26 03:42:44
阅读次数:
443
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。
为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3, ...
分类:
其他好文 时间:
2014-05-25 07:01:04
阅读次数:
317
作者:Vamei 出处:http://www.cnblogs.com/vamei
欢迎转载,也请保留这段声明。谢谢!在了解了Linux文件管理背景知识之后,
我们可以学习一些命令来管理我们的文件。文件操作相关有一些命令可以帮助我们"修剪"之前看到的文件树。$touch a.txt如果a.txt不存在...
分类:
系统相关 时间:
2014-05-25 02:12:25
阅读次数:
315
(一)搜索引擎的开发一般可分为以下三大部分
1、数据采集层:一般使用爬虫获取互联网的数据,重要的开源项目有Heritrxi
2、数据分析处理层:将从互联网上获取到的数据进行提取归类、分词、语义分析得出索引得内容,等待用户查询使用,重要的开源项目有Lucene
3、视图层:也用户的交互界面,如一个网站的首页
其基本架构可参考下图:...
分类:
其他好文 时间:
2014-05-24 22:20:16
阅读次数:
349
Linux(CentOS)目录操作命令、文件操作命令、压缩解压缩命令转自:([曾恩])http://www.cnblogs.com/zengen/archive/2011/09/01/2161728.html一、目录操作命令
ls命令 — 功能说明:显示文件和目录列表。 — 命令格式:...
分类:
系统相关 时间:
2014-05-24 11:42:06
阅读次数:
397