sed的基本用法:sed:StreamEditor行编辑器(全屏编辑器:vi)sed:模式空间:默认不编辑源文件,仅对模式空间中的数据处理,而后,处理结束后,将模式空间打印至屏幕sed[optons]‘AddressCommand‘file...-n静默模式-i:直接修改源文件-e:SCRIPT-eSCRIPT:可以同时执行多个脚本-..
分类:
其他好文 时间:
2014-11-21 19:03:18
阅读次数:
186
??背景: 程序异常中断“TCPProvider, error: 0 - An existing connection was forcibly closed by the remotehost.”,手工执行查询没有问题,不过执行时间要几十秒。Trace程序的执行,发现要数十分钟,经了解,原因在于程序使用了SqlDataReader读取数据,并且在读取的过程中进行了一系列数据处理,...
分类:
其他好文 时间:
2014-11-21 18:58:05
阅读次数:
336
转自:http://www.douban.com/note/309472506/海量数据(又称大数据)已经成为各大互联网企业面临的最大问题,如何处理海量数据,提供更好的解决方案,是目前相当热门的一个话题。类似MapReduce、 Hadoop等架构的普遍推广,大家都在构建自己的大数据处理,大数据分析...
分类:
其他好文 时间:
2014-11-20 18:35:59
阅读次数:
205
Spiders
Spider类定义了如何爬取某个(或某些)网站。包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是您定义爬取的动作及分析某个网页(或者是有些网页)的地方。
对spider来说,爬取的循环类似下文:
以初始的URL初始化Request,并设置回调函数。 当该request下载完毕并返回时,将生...
分类:
Web程序 时间:
2014-11-20 12:04:07
阅读次数:
329
避免被禁止(ban)
有些网站实现了特定的机制,以一定规则来避免被爬虫爬取。 与这些规则打交道并不容易,需要技巧,有时候也需要些特别的基础。 如果有疑问请考虑联系 商业支持 。
下面是些处理这些站点的建议(tips):
使用user agent池,轮流选择之一来作为user agent。池中包含常见的浏览器的user agent(google一下一大堆)禁止cookies(参考 ...
分类:
其他好文 时间:
2014-11-20 12:02:41
阅读次数:
239
package 案例;import java.io.BufferedReader;import java.io.BufferedWriter;import java.io.File;import java.io.FileReader;import java.io.FileWriter;import ...
分类:
其他好文 时间:
2014-11-19 21:59:30
阅读次数:
258
爬虫总体性能不错,能完成基本的网络数据爬取,没有功能上的缺陷。下图为饿了么网站商户信息爬取结果及原网站信息。大部分信息是正确的,但也有一些错误。比如下图,小渝馆家常菜和渝码头川菜位置爬取错了。再比如鑫蜀轩酒楼和久久丫的顺序错了。quantity_sold这一项,有的没有数据,是网站标签的问题,不是爬...
分类:
其他好文 时间:
2014-11-19 20:18:35
阅读次数:
161
大数据备份和恢复应用案例--通过分区表备份和恢复数据
海量数据备份和恢复方案
对于OLAP的数据库的业务特点,是将批量的数据加载入库,然后对这些数据进行分析处理,比如报表或者数据挖掘,最后给业务提供一种决策支持;另外,这类数据库的数据实时性非常高,一旦这些数据处理完毕后,就很少再次使用(有时,也需要对这类数据进行查询)。
对于OLAP数据库的备份和恢复可以考虑这样几种...
分类:
其他好文 时间:
2014-11-19 18:42:02
阅读次数:
309
JSON.stringify()一般我们只使用一个参数,实际上它可以传三个参数,提供更加强大的数据处理功能。
分类:
Web程序 时间:
2014-11-19 18:31:00
阅读次数:
348
大数据备份和恢复应用案例--通过分区表备份和恢复数据海量数据备份和恢复方案对于OLAP的数据库的业务特点,是将批量的数据加载入库,然后对这些数据进行分析处理,比如报表或者数据挖掘,最后给业务提供一种决策支持;另外,这类数据库的数据实时性非常高,一旦这些数据处理完..
分类:
其他好文 时间:
2014-11-19 16:27:11
阅读次数:
255