Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是 ...
分类:
编程语言 时间:
2016-12-22 06:32:18
阅读次数:
260
计算科学,又称科学计算,是一个与数学模型构建、定量分析方法以及利用计算机来分析和解决科学问题相关的研究领域。在实际应用中,计算科学主要应用于:对各个科学学科中的问题,进行计算机模拟和其他形式的计算。 这一领域不同于计算机科学(对于计算、计算机以及信息处理的研究),同时也异于科学和工程学的传统形式—— ...
分类:
其他好文 时间:
2016-12-16 16:46:14
阅读次数:
482
消息中间件KafkaKafka它本质上是一个消息系统,不同于传统的企业信息队列系统,它是以近乎实时的方式处理流经一个公司的所有数据,目前已经服务于LinkedIn、Netflix、Uber以及Verizon,并为此建立了实时信息处理平台。应用场景:1.Kafka可以应用于消息系统,比如,当下较为热门..
分类:
其他好文 时间:
2016-12-13 16:38:16
阅读次数:
116
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 这就是整个Scrapy的架构图了; 各部件职能: Scrapy Engine: 这是引擎,负责Spiders、ItemPipeline、Downloader、Sch ...
分类:
其他好文 时间:
2016-12-09 00:05:29
阅读次数:
174
我用一个集团公司对人事信息处理场景的简单案例,来作为入门,详细分析DataFrame上的各种常用操作,包括集团子公司的职工人事信息的合并,职工的部门相关信息查询、职工信息的统计、关联职工与部门信息的统计,以及如何将各种统计得到的结果存储到外部存储系统等。 在此入门案例里,涉及的DataFrame实例 ...
分类:
其他好文 时间:
2016-12-03 15:09:04
阅读次数:
190
属性扩展 大体意思:有外键关系时将代号化信息处理成原始文字 如:Info表中的民族列显示的是民族代号处理成Nation表中的民族名称 需要在Info类里面扩展一个显示nation名称的属性 ...
分类:
Web程序 时间:
2016-12-02 21:48:56
阅读次数:
200
一、扩展属性 处理:有外键关系时将代号化信息处理成原始文字,让用户可看懂的(粗略解释) 利用扩展属性 如:Info表中的民族列显示的是民族代号处理成Nation表中的民族名称 需要在Info类里面扩展一个显示nation名称的属性 代码显示: 第一步:在NationDA里面构造一个代号换成名称的方法 ...
分类:
其他好文 时间:
2016-12-02 01:51:01
阅读次数:
160
扩展属性 处理:有外键关系时将代号化信息处理成原始文字,让用户可看懂的(粗略解释) 利用扩展属性 如:users表中的民族列显示的是民族代号处理成Nation表中的民族名称 需要在users类里面扩展一个显示nationname名称的属性 代码显示: ...
分类:
Web程序 时间:
2016-12-01 11:59:13
阅读次数:
229
在之前的文章中,客户端和服务端。一般情况下并非是一对一的关系。多对一,多个客户端连接一个服务端。并且服务端需要对每一个客户端进行信息处理。 在客户端不多的情况下,可以采取为每一个客户端创建一个进程对其进行服务。 SocketServer中为Forking架构。 代码说明: 两个关键类ForkingS ...
分类:
编程语言 时间:
2016-11-22 23:39:57
阅读次数:
221
第 6 章 认知吝啬鬼 术语卡 术语:完全析取推理(fully disjunctive reasoning) 印象:完全析取推理是指面临诸多选项做出决策时,或是在推理任务中选出最佳问题解决方案时,对所有可能性及其结果进行分析、采择的思维过程。析取推理是一种系统性且速度较慢的信息处理方式。 例子:丹尼... ...
分类:
其他好文 时间:
2016-11-19 15:39:17
阅读次数:
173