序:这是一篇发表在2003年6月刊的MSDN Magazine的文章,现在已经不能在线阅读,只提供chm下载。讲的是异步请求处理那些事,正是我上一篇博文涉及的东西(BTW,事实上这篇杂志阐述了那么搞然并卵),期间有搜索到这篇文章,很受裨益。担心MS哪么时候不再提供下载以及本地保管不便,所以现在誊上来 ...
Logstash基本介绍和使用场景 自我认为:logstash就是日志的采集收集,日志的搬运工,实时去采集日志。读取不同的数据源,并进行过滤,开发者自定义规范输出到目的地。日志的来源很多,如系统日志,应用日志等等(同类软件:filebeat) 官方文档:https://www.elastic.co/ ...
分类:
其他好文 时间:
2018-05-22 17:22:26
阅读次数:
213
Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) ...
分类:
其他好文 时间:
2018-05-22 17:21:58
阅读次数:
182
简介 在下图中可以看到items.py与pipeline.py,其中items是用来定义抓取内容的实体;pipeline则是用来处理抓取的item的管道 Item管道的主要责任是负责处理有蜘蛛从网页中抽取的Item,他的主要任务是清晰、验证和存储数据。当页面被蜘蛛解析后,将被发送到Item管道,并经 ...
分类:
其他好文 时间:
2018-05-20 22:19:17
阅读次数:
327
前言 今天在使用阿里云的时候,无意间看到了有GPU服务器,于是对它做了一个大概的了解。 概念 GPU是Graphics Processing Unit的缩写,翻译成中文就是图形处理器。是一种专门在个人电脑、工作站、游戏机和一些移动设备(如平板电脑、智能手机等)上图像运算工作的微处理器。GPU是专为执 ...
分类:
其他好文 时间:
2018-05-20 22:19:01
阅读次数:
306
一:Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline,这些Item Pipeline组件按定义的顺序处理Item。 每个Item Pipeline都是实现了简单方法的Python类,比如决定此Item是丢弃而存储。以下是item pipeli ...
分类:
其他好文 时间:
2018-05-19 10:43:09
阅读次数:
206
ITEM PIPELINE用法详解: ITEM PIPELINE作用: 清理HTML数据 验证爬取的数据(检查item包含某些字段) 去重(并丢弃)【预防数据去重,真正去重是在url,即请求阶段做】 将爬取结果保存到数据库中 ITEM PIPELINE核心方法(4个) (1)、open_spider ...
分类:
其他好文 时间:
2018-05-19 00:18:15
阅读次数:
228
恢复内容开始 scrapy-redis使用以及剖析 点我 scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - ...
分类:
其他好文 时间:
2018-05-17 23:27:21
阅读次数:
634
使用MySQL数据库存储 安装mysql模块包 pip install mysqlclient 相关库文件 sudo apt-get install libmysqlclient-devel sudo apt-get install python-devel mysql-devel 阻塞型的数据写入 ...
分类:
数据库 时间:
2018-05-17 21:41:55
阅读次数:
189
OpenGL中的渲染管线包括:顶点着色器(vertex shader)、细分着色器(里面包含两种:细分控制着色器和细分控制着色器)(tessellation shader)、几何着色器、光栅化及片元着色器(fragment shader),其中并不是每一次渲染图形都需要用到所有的着色器,但是,顶点着 ...
分类:
其他好文 时间:
2018-05-15 17:37:24
阅读次数:
169