码迷,mamicode.com
首页 >  
搜索关键字:数据采集    ( 1158个结果
社会化海量数据采集爬虫框架搭建
随着BIG DATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前。如何能够做到所见即所得的无阻拦式采集、如何快速把不规则页面结构化并存储、如何满足越来越多的数据采集还要在有限时间内采集。这篇文章结合我们自身项目经验谈一下。我们来看一下作为人是怎么获取网页数据的呢?1、打开浏...
分类:其他好文   时间:2014-07-10 12:32:08    阅读次数:237
C# winform调用WebBrowser经典怪问题总结
原文:C# winform调用WebBrowser经典怪问题总结最近一直研究网页数据采集,单单采集数据,其实HtmlAgilityPack就足够了。对HtmlAgilityPack感兴趣的可以到这里看看:C#采集代理服务器ip并设置IE代理--HtmlAgilityPack实战代码 但是有个问题:要...
分类:Windows程序   时间:2014-07-07 12:10:21    阅读次数:372
转:openTSDB 2.0 安装
OpenTSDB-2.0.0安装布署2014-02-27 11:07:49|分类:大数据|标签:hadoop|举报|字号订阅1、介绍OpenTSDB是一个架构在Hbase系统之上的实时监控信息收集和展示平台。它支持秒级数据采集所有metrics,支持永久存储,可以做容量规划,并很容易的接入到现有的报...
分类:数据库   时间:2014-07-07 08:00:49    阅读次数:780
垂直搜索的相关知识点总结
垂直搜索引擎大体上需要以下技术 1.Spider 2.网页结构化信息抽取技术或元数据采集技术 3.分词、索引 4.其他信息处理技术 垂直搜索引擎的技术评估应从以下几点来判断 1.全面性 2.更新性 3.准确性 4.功能性 垂直搜索的进入门槛很低,但是竞争的门槛很高。没有专注的精神和精湛的技术是不行的。行业门户网站具备行业优势但他们又是没有...
分类:其他好文   时间:2014-07-04 08:45:56    阅读次数:295
一种远程修改sqlite数据库的方法
基于MOXA平台管理机开发,使用DA660采集工业设备实时数据,并发送上位机。...
分类:数据库   时间:2014-06-25 07:30:28    阅读次数:334
如何写一个处理多媒体的中间库
这里实现一个简单的多媒体数据流的处理库,它是以Filter的思想来实现的,通过Filter可以实现多路数据采集,处理和输出;一. 如何实现一个filter1.定义一个Filter descripter 结构,它包含了Filter的主要属性和行为;typedef struct McFilterDesc...
分类:其他好文   时间:2014-06-18 17:14:32    阅读次数:202
【Flume NG用户指南】(2)配置
要在一个Flume Agent中定义数据流,你需要通过一个Channel将Source和Sink连接起来。你需要列出给定Agent的Source、Sink和Channel。一个Source可以指定多个Channel,但是一个Sink只能指定一个Channel。...
分类:其他好文   时间:2014-06-18 06:30:34    阅读次数:306
.Net解析html文档类库HtmlAgilityPack完整使用说明
在前几篇文章中([搜房网房产数据采集程序demo--GeckoWebBrowser实例])都有提到一个解析html的C#类库HtmlAgilityPack,今天终于有时间整理一下,并把Demo分享一下。HtmlAgilityPack是一个基于.Net的、第三方免费开源的微型类库,主要用于在服务器端解...
分类:Web程序   时间:2014-06-16 00:03:53    阅读次数:452
三层概念总结
显示层UI:      作用:向用户展现特定业务数据                采集用户的输入信息和操作     设计原则:用户至上,兼顾简洁       业务逻辑层BLL(Business Logic Layer):     作用:从DAL中获取数据,以供UI显示用     从UI中获取用户指令和数据,执行业务逻辑     从UI中获取用户指令和数据,通过DAL写入数据源 ...
分类:其他好文   时间:2014-06-10 06:39:02    阅读次数:270
哪种代理适合用于Web数据采集
在Web数据采集中为了避免被服务器封锁而通过代理下载的情况很常见。但是,并非所有的代理都适合于Web数据采集。下面是鲲鹏数据的技术人员给出的说明。根据HTTP代理的匿名性可以将其分为以下几种:1. 透明代理(Transparent Proxies)目标服务器能够检测到真实的源IP。目标服务器根据HT...
分类:Web程序   时间:2014-06-08 19:40:06    阅读次数:247
1158条   上一页 1 ... 112 113 114 115 116 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!