码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
Python框架之Django学习笔记(十)
又是一周周末,如约学习Django框架。在上一次,介绍了MVC开发模式以及Django自己的MVT开发模式,此次,就从数据处理层Model谈起。 数据库配置 首先,我们需要做些初始配置;我们需要告诉Django使用什么数据库以及如何连接数据库。假定你已经完成了数据库服务器的安装和激活,并且已...
分类:编程语言   时间:2014-09-27 17:53:30    阅读次数:271
WebCollector内核解析—如何设计一个爬虫
本文利用WebCollector内核的解析,来描述如何设计一个网络爬虫。 WebCollector使用了Nutch的爬取逻辑(分层广度遍历),Crawler4j的的用户接口(覆盖visit方法,定义用户操作),以及一套自己的插件机制,设计了一套爬虫内核。...
分类:Web程序   时间:2014-09-27 13:36:09    阅读次数:687
栅格数据处理 RasterDataset RasterLayer Raster RasterBandCollection
1 IRasterLayer myrasterlayer = MapControl.Map.Layer[index] as IRasterLayer;2 IRaster myRaster = myrasterlayer.Raster;3 ...
分类:其他好文   时间:2014-09-27 00:34:18    阅读次数:281
大数据学习笔记
转自: http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-Engine大数据处理是云计算中非常重要的领域,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐...
分类:其他好文   时间:2014-09-26 22:27:38    阅读次数:219
storm集群 + kafka单机性能测试
storm与kafka单机功能整合很顺利,但是到了storm集群环境和数据处理性能时则出现了一些问题,现将测试过程和问题简单记录如下: ? ? 性能指标:每分钟处理至少100万的信息(csv格式,100bytes左右),信息...
分类:其他好文   时间:2014-09-26 12:59:39    阅读次数:228
从hadoop框架与MapReduce模式中谈海量数据处理
前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。 由此,最近凡是空闲...
分类:其他好文   时间:2014-09-26 05:21:18    阅读次数:285
海量数据处理
因为set/map/multiset/multimap都是基于RB-tree之上,所以有自动排序功能,而hash_set/hash_map/hash_multiset/hash_multimap都是基于hashtable之上,所以不含有自动排序功能,至于加个前缀multi_无非就是允许键值重复而已。...
分类:其他好文   时间:2014-09-26 01:44:28    阅读次数:297
给网站加入优雅的实时反爬虫策略
你的网站内容很有价值,希望被google,百度等正规搜索引擎爬虫收录,却不想让那些无节操的山寨爬虫把你的数据扒走坐享其成。本文将探讨如何在网站中加入优雅的反爬虫策略。【思路】反爬虫策略要考虑以下几点:能被google、百度等正规搜索引擎爬虫抓取,不限流量和并发数;阻止山寨爬虫的抓取;反爬虫策略应该是...
分类:Web程序   时间:2014-09-25 21:33:37    阅读次数:327
简单的使用php多线程抓取网页
PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址。既然 Curl Mu...
分类:编程语言   时间:2014-09-25 19:37:17    阅读次数:150
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!