码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
Hadoop在百度的应用
百度作为全球最大的中文搜索引擎公司,提供基于搜索引擎的各种产品,包括以网络搜索为主的功能性搜索;以贴吧为主的社区搜索;针对区域、行业的垂直搜索、MP3音乐搜索,以及百科等,几乎覆盖了中文网络世界中所有的搜索需求。百度对海量数据处理的要求是比较高的,要在线下对数据进行分析,还要在规定的时间内处理完并....
分类:其他好文   时间:2014-10-19 11:21:20    阅读次数:248
布隆过滤器
通常,我们需要判断一个元素是否在一个集合中。比如在WPS字处理软件中,需要检查一个单词是否拼写正确;在FBI 中需要判断一个嫌疑犯的名字是否在嫌疑名单上;在网络爬虫里,判断一个网址是否被访问过。最简单的解决办法就是 采用HashTable的方法来存储,它的好处是快速且精确,缺点是耗费大量内存空间。   现在,来介绍一种数学工具,叫做布隆过滤器(Bloom Filter),是布隆在1970年...
分类:其他好文   时间:2014-10-19 02:41:55    阅读次数:310
记和老友李吃饭
今天和好久不见的李姓好友去吃石锅鱼,感觉很不错,收获良多,纪要如下:1、需要根据实际情况科学的预测工作上的部门每天数据处理能力,提供给领导决策,影响领导决策,以免领导只能拍脑袋决策导致部门工作无法正常有序开展。2、要认识自己,客观的认识自己的性格中的特征,这个特征可能会带来好处也可能会带来坏处,关键...
分类:其他好文   时间:2014-10-19 00:04:09    阅读次数:229
booth乘法器原理
在微处理器芯片中,乘法器是进行数字信号处理的核心,同时也是微处理器中进行数据处理的关键部件。乘法器完成一次操作的周期基本上决定了微处理器的主频。乘法器的速度和面积优化对于整个CPU的性能来说是非常重要的。为了加快乘法器的执行速度,减少乘法器的面积,有必要对乘法器的算法、结构及电路的具体实现做深入的研究。 Booth算法与乘法器的一般结构 乘法器工作的基本原理是首先生成部分积,再将这些部分积相加...
分类:其他好文   时间:2014-10-18 22:26:33    阅读次数:310
JavaWeb学习总结(三十五)——使用JDBC处理Oracle大数据
一、Oracle中大数据处理 在Oracle中,LOB(Large Object,大型对象)类型的字段现在用得越来越多了。因为这种类型的字段,容量大(最多能容纳4GB的数据),且一个表中可以有多个这种类型的字段,很灵活,适用于数据 量非常大的业务领域(如图象、档案等)。 LOB类型分为BLOB和.....
分类:数据库   时间:2014-10-18 12:20:37    阅读次数:242
如今简直是一个后终端时代
装进小盒子的音乐路由,开博尔视频播放器,简直是一种硬件资源的浪费,开放接口才是硬道理,极路由也好不到哪去,只是云思想比较好。        如果我们回到20世纪60-70年代,那时所有的用户都坐在一台电传终端前工作,真正复杂数据处理的机器则在线缆的另一端,多用户分时系统的出现使得多个用户可以同时工作。这个思想直接导致了30年后大规模的C/S应用的出现,典型的就是Web服务,HTTP协议几乎成了应用...
分类:其他好文   时间:2014-10-18 11:14:23    阅读次数:179
浮点栈结构(转帖)
浮点栈结构(转帖)在介绍X86浮点栈结构之前,先说明一下X87,X87是IA_32体系结构中为提高浮点数据处理能力而增加的X87芯片系列数学协处理器,使用X87指令,X86指令集和X87指令集统称为X86指令集。可以简单的理解X87是一个浮点协处理器,是X86的浮点处理单元。X86的浮点单元(X87...
分类:其他好文   时间:2014-10-18 09:43:33    阅读次数:306
冒泡 选择排序
算法一直是编程的基础,而排序算法是学习算法的开始,排序也是数据处理的重要内容。所谓排序是指将一个无序列整理成按非递减顺序排列的有序序列。排列的方法有很多,根据待排序序列的规模以及对数据的处理的要求,可以采用不同的排序方法。那么就整理下网上搜索的资料,按自己的理解,把C语言的8大排序算法列出来。 普通...
分类:编程语言   时间:2014-10-18 09:42:58    阅读次数:258
CentOS系统下Hadoop、Hbase、Zookeeper安装配置
最近两天给一个项目搭建linux下的大数据处理环境,系统是CentOS 6.3。主要是配置JDK,安装Tomcat,Hadoop、HBase和Zookeeper软件,本人在Hadoop这方面也是新手,配置这个环境遇到过许多问题,查了许多资料,这里做一个总结,以便日后回顾。 首先是账户权限的修改,安装软件环境需要上传文件和一些系统文件的修改权限,所以最好设置成root权限 权限修改方法:http...
分类:其他好文   时间:2014-10-17 22:03:55    阅读次数:225
EDI相关知识
什么是EDI无纸无纸报关交易? EDI无纸报关是利用现代信息技术、采取物联网方式,对进出口货物申报数据和报文进行自动处理的一种先进的通关方式 ,具有数据处理自动化程度高,通关速度快、成本低、监管严密等特点,已为当今一些发达国家海关所采用。 实行EDI无纸报关后,企业可以足不出户,在自己的办公室将进出口货物报关数据通过网络传输至海关,海关计算机对报关单证的电子数据和报文进行自动处理,...
分类:其他好文   时间:2014-10-17 13:52:31    阅读次数:184
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!