码迷,mamicode.com
首页 >  
搜索关键字:pipeline    ( 994个结果
scrapy-redis使用以及剖析
scrapy-redis使用以及剖析 scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 scr ...
分类:其他好文   时间:2018-07-23 15:49:19    阅读次数:134
scrapy-redis的使用与解析
scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 scrapy-redis组件 1. URL去 ...
分类:其他好文   时间:2018-07-23 15:04:15    阅读次数:208
Python Scrapy爬虫框架之初次使用
本案例来自小甲鱼的课程 关于Scrapy的安装网上都有方法,这里便不再叙述。 使用Scrapy抓取一个网站一共需要四个步骤: 0、创建一个Scrapy项目; 1、定义Item容器; 2、编写爬虫; 3、存储内容。 本次爬取的目标是全球最大的目录网站http://www.dmoztools.net,由 ...
分类:编程语言   时间:2018-07-22 18:43:54    阅读次数:253
HDFS 总结
HDFS是一个分布式文件存储系统 Client 提交读写请求(拆分blocksize) NameNode 全局把控(知道blocksize的地址) dataNode 存储数据(将数据存储进去,且以Pipeline的方式把数据写完) 1.如果你要把数据写到HDFS上去,的流程是 发起请求-client ...
分类:其他好文   时间:2018-07-22 00:28:52    阅读次数:169
Tomcat 架构概述
Tomcat 是一个 Web 应用服务器,它是对 HTTP 和 Servlet 规范的实现,简单来说它做了这几件事:处理 HTTP 协议、执行 Servlet 和处理网络 I/O。这里以 6.0.53 版本为例(实现了 HTTP/1.1、Servlet2.5),研究其基本结构。 关于源码版本,我使用 ...
分类:其他好文   时间:2018-07-21 19:53:11    阅读次数:189
Netty传递字符串
想在Netty的channel中传递字符串,需要在客户端Client设置sc.pipeline().addLast(new StringEncoder());服务端Server设置sc.pipeline().addLast(new StringDecoder());就可以了; 客户端代码: 服务端代 ...
分类:Web程序   时间:2018-07-19 19:16:19    阅读次数:544
使用scikit-learn 估计器分类
本章的几个概念: 估计器(estimator) 用于分类、聚类和回归分析 转换器(transformer):用于数据预处理回来数据转换 流水线(pipeline): 组合数据挖掘流程, 便于在此使用 1.scikit-learn估计器 数据集下载地址:UCI 加载数据集: #coding=gbk # ...
分类:其他好文   时间:2018-07-19 13:35:57    阅读次数:257
Scrapy抓取360网站图片
项目名称:抓取360网站图片 目标url:http://image.so.com 项目描述:利用Scrapy的ImagePipeline抓取360网站的图片 要利用Scrapy抓取图片,第一步还是先定义item 第二步是在settings.py中打开ImagePipeline,然后定义一下文件的存储 ...
分类:Web程序   时间:2018-07-18 16:53:59    阅读次数:166
scrapy爬虫录入mysql中文乱码的解决
scrapy爬取item后,我们可以用pipeline.py把item录入到mysql数据库里 编写pipeline.py定义一个类,这个类就是用来录入数据库的,记得在setting.py里的item_pipelines={......}里加上这个类的路径,然后可以在setting里写数据库连接的i ...
分类:数据库   时间:2018-07-17 16:27:16    阅读次数:239
Java开发之深入剖析Netty框架源码实战视频教程
第1章课程介绍介绍本课程需要的前提知识和内容概要第2章Netty基本组件使用一个简单的socket例子概括Netty里面的基本组件,包括NioEventLoop,Channel,ByteBuf,Pipeline,ChannelHandler第4章NioEventLoop分析Nettyreactor线程处理过程,包括事件监听,事件处理,常规任务处理和定时任务处理第5章新连接接入分析新连接接入以及绑定
分类:编程语言   时间:2018-07-15 11:06:15    阅读次数:175
994条   上一页 1 ... 44 45 46 47 48 ... 100 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!