又是一周周末,如约学习Django框架。在上一次,介绍了MVC开发模式以及Django自己的MVT开发模式,此次,就从数据处理层Model谈起。 数据库配置 首先,我们需要做些初始配置;我们需要告诉Django使用什么数据库以及如何连接数据库。假定你已经完成了数据库服务器的安装和激活,并且已...
分类:
编程语言 时间:
2014-09-27 17:53:30
阅读次数:
271
本文利用WebCollector内核的解析,来描述如何设计一个网络爬虫。
WebCollector使用了Nutch的爬取逻辑(分层广度遍历),Crawler4j的的用户接口(覆盖visit方法,定义用户操作),以及一套自己的插件机制,设计了一套爬虫内核。...
分类:
Web程序 时间:
2014-09-27 13:36:09
阅读次数:
687
1 IRasterLayer myrasterlayer = MapControl.Map.Layer[index] as IRasterLayer;2 IRaster myRaster = myrasterlayer.Raster;3 ...
分类:
其他好文 时间:
2014-09-27 00:34:18
阅读次数:
281
转自: http://www.csdn.net/article/2013-12-04/2817707-Impala-Big-Data-Engine大数据处理是云计算中非常重要的领域,自Google公司提出MapReduce分布式处理框架以来,以Hadoop为代表的开源软件受到越来越多公司的重视和青睐...
分类:
其他好文 时间:
2014-09-26 22:27:38
阅读次数:
219
storm与kafka单机功能整合很顺利,但是到了storm集群环境和数据处理性能时则出现了一些问题,现将测试过程和问题简单记录如下: ? ? 性能指标:每分钟处理至少100万的信息(csv格式,100bytes左右),信息...
分类:
其他好文 时间:
2014-09-26 12:59:39
阅读次数:
228
前言 几周前,当我最初听到,以致后来初次接触Hadoop与MapReduce这两个东西,我便稍显兴奋,觉得它们很是神秘,而神秘的东西常能勾起我的兴趣,在看过介绍它们的文章或论文之后,觉得Hadoop是一项富有趣味和挑战性的技术,且它还牵扯到了一个我更加感兴趣的话题:海量数据处理。 由此,最近凡是空闲...
分类:
其他好文 时间:
2014-09-26 05:21:18
阅读次数:
285
因为set/map/multiset/multimap都是基于RB-tree之上,所以有自动排序功能,而hash_set/hash_map/hash_multiset/hash_multimap都是基于hashtable之上,所以不含有自动排序功能,至于加个前缀multi_无非就是允许键值重复而已。...
分类:
其他好文 时间:
2014-09-26 01:44:28
阅读次数:
297
你的网站内容很有价值,希望被google,百度等正规搜索引擎爬虫收录,却不想让那些无节操的山寨爬虫把你的数据扒走坐享其成。本文将探讨如何在网站中加入优雅的反爬虫策略。【思路】反爬虫策略要考虑以下几点:能被google、百度等正规搜索引擎爬虫抓取,不限流量和并发数;阻止山寨爬虫的抓取;反爬虫策略应该是...
分类:
Web程序 时间:
2014-09-25 21:33:37
阅读次数:
327
PHP 利用 Curl Functions 可以完成各种传送文件操作,比如模拟浏览器发送GET,POST请求等等,受限于php语言本身不支持多线程,所以开发爬虫程序效率并不高,这时候往往需 要借助Curl Multi Functions 它可以实现并发多线程的访问多个url地址。既然 Curl Mu...
分类:
编程语言 时间:
2014-09-25 19:37:17
阅读次数:
150