搜索关键字：爬虫数据处理，搜索到15133个结果！码迷,mamicode.com！

马哥6-2

sed的基本用法：sed：StreamEditor行编辑器（全屏编辑器：vi）sed：模式空间：默认不编辑源文件，仅对模式空间中的数据处理，而后，处理结束后，将模式空间打印至屏幕sed[optons]‘AddressCommand‘file...-n静默模式-i：直接修改源文件-e：SCRIPT-eSCRIPT:可以同时执行多个脚本-..

分类：其他好文时间：2014-11-21 19:03:18 阅读次数：186

Error: 7884, Severity: 20, State: 1

??背景：程序异常中断“TCPProvider, error: 0 - An existing connection was forcibly closed by the remotehost.”，手工执行查询没有问题，不过执行时间要几十秒。Trace程序的执行，发现要数十分钟，经了解，原因在于程序使用了SqlDataReader读取数据，并且在读取的过程中进行了一系列数据处理，...

分类：其他好文时间：2014-11-21 18:58:05 阅读次数：336

【转】大数据哪里来

转自：http://www.douban.com/note/309472506/海量数据（又称大数据）已经成为各大互联网企业面临的最大问题，如何处理海量数据，提供更好的解决方案，是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广，大家都在构建自己的大数据处理，大数据分析...

分类：其他好文时间：2014-11-20 18:35:59 阅读次数：205

Scrapy系列教程（3）------Spider（爬虫核心，定义链接关系和网页信息抽取）

Spiders Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。换句话说，Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。对spider来说，爬取的循环类似下文: 以初始的URL初始化Request，并设置回调函数。当该request下载完毕并返回时，将生...

分类：Web程序时间：2014-11-20 12:04:07 阅读次数：329

Scrapy系列教程（6）------如何避免被禁

避免被禁止(ban) 有些网站实现了特定的机制，以一定规则来避免被爬虫爬取。与这些规则打交道并不容易，需要技巧，有时候也需要些特别的基础。如果有疑问请考虑联系商业支持。下面是些处理这些站点的建议(tips): 使用user agent池，轮流选择之一来作为user agent。池中包含常见的浏览器的user agent(google一下一大堆)禁止cookies(参考 ...

分类：其他好文时间：2014-11-20 12:02:41 阅读次数：239

一个采集邮箱的网络爬虫（听毕老师讲的）

package 案例;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import ...

分类：其他好文时间：2014-11-19 21:59:30 阅读次数：258

TeamWork#3,Week5,Performance Test of Crawlers

爬虫总体性能不错，能完成基本的网络数据爬取，没有功能上的缺陷。下图为饿了么网站商户信息爬取结果及原网站信息。大部分信息是正确的，但也有一些错误。比如下图，小渝馆家常菜和渝码头川菜位置爬取错了。再比如鑫蜀轩酒楼和久久丫的顺序错了。quantity_sold这一项，有的没有数据，是网站标签的问题，不是爬...

分类：其他好文时间：2014-11-19 20:18:35 阅读次数：161

大数据备份和恢复应用案例--通过分区表备份和恢复数据

大数据备份和恢复应用案例--通过分区表备份和恢复数据海量数据备份和恢复方案对于OLAP的数据库的业务特点，是将批量的数据加载入库，然后对这些数据进行分析处理，比如报表或者数据挖掘，最后给业务提供一种决策支持；另外，这类数据库的数据实时性非常高，一旦这些数据处理完毕后，就很少再次使用（有时，也需要对这类数据进行查询）。对于OLAP数据库的备份和恢复可以考虑这样几种...

分类：其他好文时间：2014-11-19 18:42:02 阅读次数：309

JSON.stringify（）

JSON.stringify()一般我们只使用一个参数，实际上它可以传三个参数，提供更加强大的数据处理功能。

分类：Web程序时间：2014-11-19 18:31:00 阅读次数：348

大数据备份和恢复应用案例--通过分区表备份和恢复数据

大数据备份和恢复应用案例--通过分区表备份和恢复数据海量数据备份和恢复方案对于OLAP的数据库的业务特点，是将批量的数据加载入库，然后对这些数据进行分析处理，比如报表或者数据挖掘，最后给业务提供一种决策支持；另外，这类数据库的数据实时性非常高，一旦这些数据处理完..

分类：其他好文时间：2014-11-19 16:27:11 阅读次数：255

共15133条上一页 1 ... 1434 1435 1436 1437 1438 ... 1514 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)