码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
实现一个简单的邮箱地址爬虫(python)
我经常收到关于email爬虫的问题。有迹象表明那些想从网页上抓取联系方式的人对这个问题很感兴趣。在这篇文章里,我想演示一下如何使用python实现一个简单的邮箱爬虫。这个爬虫很简单,但从这个例子中你可以学到许多东西(尤其是当你想做一个新虫的时候)。 我特意简化了代码,尽可能的把主要思路表达清楚...
分类:编程语言   时间:2014-08-11 17:27:52    阅读次数:2023
易混点二
在层次化网络设计方案中,通常在(汇聚层)实现网络的访问策略控制。 层次化网络,核心,汇聚,接入; 核心层,骨干组件,高速交换组件,数据交换的任务; 汇聚层,核心层与终端用户接入层的分界面,网络访问策略,数据包处理,过滤,寻址,其他数据处理的任务; 接入层,本地网段用户接入;
分类:其他好文   时间:2014-08-11 17:13:12    阅读次数:188
数据库常见的场景
作为一个开发人员,起初的开发场景可能涉及的比较专业的业务开发,但是我们也得了解一下数据库的一些常见的大数据处理的场景,普及一下计算机知识,以后会遇到类似场景,自己也可以实现这些东西。主存同步:MS 场景:把A数据库的数据同步到B数据库 作用:备份,高可用,负载均衡 原理:binlog实时回复双...
分类:数据库   时间:2014-08-10 12:49:50    阅读次数:276
从Hadoop框架与MapReduce模式中谈海量数据处理(含淘宝技术架构)
从hadoop框架与MapReduce模式中谈海量数据处理前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,认为它们非常是神奇,而神奇的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,认为Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到...
分类:其他好文   时间:2014-08-09 18:40:08    阅读次数:297
关于Android创建Activity需要注意的地方
1.在onCreate()中加载UI,在onStart()/onResume()中刷新UI 2.在onCreate()中用Handler延时请求数据,数据处理最好是二次callback回调(第一次来自DB,第二次来自网络) 3.在Activity中尽量少创建Handler,创建一个UIHandler,一个后台HandlerThread足以 4.所有异步任务写进一个Runnable中,用自己写...
分类:移动开发   时间:2014-08-09 15:54:18    阅读次数:279
Socket网络编程--网络爬虫(1)
我们这个系列准备讲一下--网络爬虫。网络爬虫是搜索引擎系统中十分重要的组成部分,它负责从互联网中搜集网页,采集信息,这些网页信息用于建立索引从而为搜索引擎提供支持,它决定着整个引擎系统的内容是否丰富,信息是否即时,因此其性能的优劣直接影响着搜索引擎的效果。网络爬虫的基本工作原理: (1)从一个...
分类:其他好文   时间:2014-08-08 23:54:56    阅读次数:396
Xceed Ultimate Suite Xceed界面控件套包下载
Xceed Ultimate Suites是一款用户界面、数据处理套包,从.NET/WPF/silverLight平台到ActiveX下包含了65个子控件,以及Xceed公司的所有控件,具有表格、风格主题、图表、用户界面、ZIP、FTP、加密等功能控件。具体功能:UI控件: Xceed 3D Vie...
分类:其他好文   时间:2014-08-08 17:21:26    阅读次数:248
数据处理的两个基本问题(学习汇编)
1.为了描述上的简洁,在以后的课程中,将使用两个描述性的符号reg来表示一个寄存器,用sreg表示一个段寄存器。reg的集合包括:ax,bx,cx,dx,ah,al,bh,bl,ch,cl,dh,dl,sp,bp,si,di;sreg的集合包括:ds,ss,cs,es.8086CPU处理数据的两个基...
分类:其他好文   时间:2014-08-08 15:35:26    阅读次数:295
JAVA基于AE调用GP实现泰森多边形
调用GP实现数据处理是较快捷、较易入手的方法。使用JAVA语言基于AE调用GP实现泰森多边形的代码例如以下:public void CreatVoronoi(){ try { GeoProcessor gp=new GeoProcessor(); gp.setOv...
分类:编程语言   时间:2014-08-08 09:32:45    阅读次数:280
海量数据处理--hash和bit-map
问题实例:海量日志数据,提取出某日访问百度次数最多的那个IP。答:对于ip,最多也就2^32个。所以可以很好地通过hash函数映射到内存中,再进行统计。原理简述:hash的基本原理网上也已经很多了,下面简单提一下。在ssh协议加密中,sha-1就是通过哈希来进行的。哈希就是将一个字符串或者其他数字之...
分类:其他好文   时间:2014-08-07 22:50:15    阅读次数:290
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!