码迷,mamicode.com
首页 >  
搜索关键字:爬虫 数据处理    ( 15133个结果
马哥6-2
sed的基本用法:sed:StreamEditor行编辑器(全屏编辑器:vi)sed:模式空间:默认不编辑源文件,仅对模式空间中的数据处理,而后,处理结束后,将模式空间打印至屏幕sed[optons]‘AddressCommand‘file...-n静默模式-i:直接修改源文件-e:SCRIPT-eSCRIPT:可以同时执行多个脚本-..
分类:其他好文   时间:2014-11-21 19:03:18    阅读次数:186
Error: 7884, Severity: 20, State: 1
??背景:         程序异常中断“TCPProvider, error: 0 - An existing connection was forcibly closed by the remotehost.”,手工执行查询没有问题,不过执行时间要几十秒。Trace程序的执行,发现要数十分钟,经了解,原因在于程序使用了SqlDataReader读取数据,并且在读取的过程中进行了一系列数据处理,...
分类:其他好文   时间:2014-11-21 18:58:05    阅读次数:336
【转】大数据哪里来
转自:http://www.douban.com/note/309472506/海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广,大家都在构建自己的大数据处理,大数据分析...
分类:其他好文   时间:2014-11-20 18:35:59    阅读次数:205
Scrapy系列教程(3)------Spider(爬虫核心,定义链接关系和网页信息抽取)
Spiders Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。 对spider来说,爬取的循环类似下文: 以初始的URL初始化Request,并设置回调函数。 当该request下载完毕并返回时,将生...
分类:Web程序   时间:2014-11-20 12:04:07    阅读次数:329
Scrapy系列教程(6)------如何避免被禁
避免被禁止(ban) 有些网站实现了特定的机制,以一定规则来避免被爬虫爬取。 与这些规则打交道并不容易,需要技巧,有时候也需要些特别的基础。 如果有疑问请考虑联系 商业支持 。 下面是些处理这些站点的建议(tips): 使用user agent池,轮流选择之一来作为user agent。池中包含常见的浏览器的user agent(google一下一大堆)禁止cookies(参考 ...
分类:其他好文   时间:2014-11-20 12:02:41    阅读次数:239
一个采集邮箱的网络爬虫(听毕老师讲的)
package 案例;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import ...
分类:其他好文   时间:2014-11-19 21:59:30    阅读次数:258
TeamWork#3,Week5,Performance Test of Crawlers
爬虫总体性能不错,能完成基本的网络数据爬取,没有功能上的缺陷。下图为饿了么网站商户信息爬取结果及原网站信息。大部分信息是正确的,但也有一些错误。比如下图,小渝馆家常菜和渝码头川菜位置爬取错了。再比如鑫蜀轩酒楼和久久丫的顺序错了。quantity_sold这一项,有的没有数据,是网站标签的问题,不是爬...
分类:其他好文   时间:2014-11-19 20:18:35    阅读次数:161
大数据备份和恢复应用案例--通过分区表备份和恢复数据
大数据备份和恢复应用案例--通过分区表备份和恢复数据 海量数据备份和恢复方案      对于OLAP的数据库的业务特点,是将批量的数据加载入库,然后对这些数据进行分析处理,比如报表或者数据挖掘,最后给业务提供一种决策支持;另外,这类数据库的数据实时性非常高,一旦这些数据处理完毕后,就很少再次使用(有时,也需要对这类数据进行查询)。  对于OLAP数据库的备份和恢复可以考虑这样几种...
分类:其他好文   时间:2014-11-19 18:42:02    阅读次数:309
JSON.stringify()
JSON.stringify()一般我们只使用一个参数,实际上它可以传三个参数,提供更加强大的数据处理功能。
分类:Web程序   时间:2014-11-19 18:31:00    阅读次数:348
大数据备份和恢复应用案例--通过分区表备份和恢复数据
大数据备份和恢复应用案例--通过分区表备份和恢复数据海量数据备份和恢复方案对于OLAP的数据库的业务特点,是将批量的数据加载入库,然后对这些数据进行分析处理,比如报表或者数据挖掘,最后给业务提供一种决策支持;另外,这类数据库的数据实时性非常高,一旦这些数据处理完..
分类:其他好文   时间:2014-11-19 16:27:11    阅读次数:255
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!