搜索关键字：爬虫数据处理，搜索到15133个结果！码迷,mamicode.com！

Python框架之Django学习笔记（十）

又是一周周末，如约学习Django框架。在上一次，介绍了MVC开发模式以及Django自己的MVT开发模式，此次，就从数据处理层Model谈起。数据库配置首先，我们需要做些初始配置；我们需要告诉Django使用什么数据库以及如何连接数据库。假定你已经完成了数据库服务器的安装和激活，并且已...

分类：编程语言时间：2014-09-27 17:53:30 阅读次数：271

WebCollector内核解析—如何设计一个爬虫

本文利用WebCollector内核的解析，来描述如何设计一个网络爬虫。 WebCollector使用了Nutch的爬取逻辑（分层广度遍历），Crawler4j的的用户接口（覆盖visit方法，定义用户操作）,以及一套自己的插件机制，设计了一套爬虫内核。...

分类：Web程序时间：2014-09-27 13:36:09 阅读次数：687

栅格数据处理 RasterDataset RasterLayer Raster RasterBandCollection

1 IRasterLayer myrasterlayer = MapControl.Map.Layer[index] as IRasterLayer;2 IRaster myRaster = myrasterlayer.Raster;3 ...

分类：其他好文时间：2014-09-27 00:34:18 阅读次数：281

大数据学习笔记

转自： http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-Engine大数据处理是云计算中非常重要的领域，自Google公司提出MapReduce分布式处理框架以来，以Hadoop为代表的开源软件受到越来越多公司的重视和青睐...

分类：其他好文时间：2014-09-26 22:27:38 阅读次数：219

storm集群 + kafka单机性能测试

storm与kafka单机功能整合很顺利，但是到了storm集群环境和数据处理性能时则出现了一些问题，现将测试过程和问题简单记录如下： ? ? 性能指标：每分钟处理至少100万的信息（csv格式，100bytes左右），信息...

分类：其他好文时间：2014-09-26 12:59:39 阅读次数：228

从hadoop框架与MapReduce模式中谈海量数据处理

前言几周前，当我最初听到，以致后来初次接触Hadoop与MapReduce这两个东西，我便稍显兴奋，觉得它们很是神秘，而神秘的东西常能勾起我的兴趣，在看过介绍它们的文章或论文之后，觉得Hadoop是一项富有趣味和挑战性的技术，且它还牵扯到了一个我更加感兴趣的话题：海量数据处理。由此，最近凡是空闲...

分类：其他好文时间：2014-09-26 05:21:18 阅读次数：285

海量数据处理

因为set/map/multiset/multimap都是基于RB-tree之上，所以有自动排序功能，而hash_set/hash_map/hash_multiset/hash_multimap都是基于hashtable之上，所以不含有自动排序功能，至于加个前缀multi_无非就是允许键值重复而已。...

分类：其他好文时间：2014-09-26 01:44:28 阅读次数：297

给网站加入优雅的实时反爬虫策略

你的网站内容很有价值，希望被google，百度等正规搜索引擎爬虫收录，却不想让那些无节操的山寨爬虫把你的数据扒走坐享其成。本文将探讨如何在网站中加入优雅的反爬虫策略。【思路】反爬虫策略要考虑以下几点：能被google、百度等正规搜索引擎爬虫抓取，不限流量和并发数；阻止山寨爬虫的抓取；反爬虫策略应该是...

分类：Web程序时间：2014-09-25 21:33:37 阅读次数：327

简单的使用php多线程抓取网页

PHP 利用 Curl Functions 可以完成各种传送文件操作，比如模拟浏览器发送GET，POST请求等等，受限于php语言本身不支持多线程，所以开发爬虫程序效率并不高，这时候往往需要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址。既然 Curl Mu...

分类：编程语言时间：2014-09-25 19:37:17 阅读次数：150

共15133条上一页 1 ... 1458 1459 1460 1461 1462 ... 1514 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)