批量大文本筛选过滤工具开发记录本周花了两三天的时间做了一个大文本数据筛选工具,主要是针对excel打开很慢或者无法打开的几百兆乃至几G的csv、txt文件,提供常规的数据筛选、统计和输出功能。这个大文本筛序需求对生产中的数据挑选和数据分析来说是比较常见的。本文就开发的过程简单记录如下:
使用什么开发语言?
怎样保证用户体验?
如何维护优化?
使用什么开发语言?这问得有点像是废话。我很熟悉Python...
分类:
其他好文 时间:
2015-07-04 14:00:49
阅读次数:
192
[Author]: kwu --- Sqoop处理Clob与Blob字段,在Oracle中Clob为大文本,Blob存储二进制文件。遇到这类字段导入hive或者hdfs需要特殊处理。...
分类:
其他好文 时间:
2015-06-28 09:57:54
阅读次数:
145
有时我们需要查询大文本而不是数据库,这时就需要流式读入文件并实现查询算法,还要进行并行处理以提高性能。但JAVA本身缺少相应的类库,需要硬编码才能实现结构化文件计算,代码复杂且可读性差,难以实现高效的并行处理。
使用免费的集算器可以弥补这一不足。集算器封装了丰富的结构化文件读写和游标计算函数,书写简单代码就能实现并行计算,并提供了易用的JDBC接口。JAVA应用程序可以将集算器脚...
分类:
编程语言 时间:
2015-06-16 09:20:29
阅读次数:
203
LOB,Large Objects,是一种用于存储大对象的数据类型,一般LOB又分为BLOB与CLOB。BLOB通常用于存储二进制数据,比如图片、音频、视频等。CLOB通常用于存储大文本,比如小说。 MySQL数据库中没有专门的CLOB数据类型,而如果要存储大文本,MySQL采用的是TEXT类型。....
分类:
数据库 时间:
2015-06-13 17:05:03
阅读次数:
233
1. 源数据 Like this:格式: .csv和.txt内容:(几十万行)大小:64.7M 和64.8M电脑:i5-2540M 4G内存2.数据更新检测:这是一些位置信息图,1和2分别是同一地区不同时期采集的数据,现检测更新的信息。假使以NDP_ID这列数据作为POI的唯一标志码。设定:如果ND...
分类:
编程语言 时间:
2015-06-05 17:02:22
阅读次数:
396
给TMemo.Text := '几M大的文本';如果ScrollBars 不是 sbBoth的话,程序很可能 无响应。今天郁闷了半天才发现的。
分类:
其他好文 时间:
2015-05-31 21:34:46
阅读次数:
108
LOB (Large Objects) 分为:CLOB和BLOB,即大文本和大二进制数据 CLOB:用于存储大文本 BLOB:用于存储二进制数据,例如图像、声音、二进制文 在mysql中,只有BLOB,没有CLOB,mysql存储大文本用TEXT TEXT 分为:TINYTEXT...
分类:
数据库 时间:
2015-05-28 19:50:00
阅读次数:
210
一)、Linux的三大文本处理之GREP:GREP(GlobalsearchREgularexpressionandPrintouttheline,全面搜索正则表达式并把行打印出来):在给出文件列表或标准输出后,grep会对匹配一个或多个正则表达式的文本进行搜索,并只输出匹配(或者不匹配)的行或文本。----摘自于维基百科GR..
分类:
系统相关 时间:
2015-05-19 11:01:50
阅读次数:
191
一)、Linux的三大文本处理之GREP:GREP(GlobalsearchREgularexpressionandPrintouttheline,全面搜索正则表达式并把行打印出来):在给出文件列表或标准输出后,grep会对匹配一个或多个正则表达式的文本进行搜索,并只输出匹配(或者不匹配)的行或文本。----摘自于维基百科GR..
分类:
系统相关 时间:
2015-05-19 10:59:50
阅读次数:
215
一)、Linux的三大文本处理之GREP:GREP(GlobalsearchREgularexpressionandPrintouttheline,全面搜索正则表达式并把行打印出来):在给出文件列表或标准输出后,grep会对匹配一个或多个正则表达式的文本进行搜索,并只输出匹配(或者不匹配)的行或文本。----摘自于维基百科GR..
分类:
系统相关 时间:
2015-05-19 10:58:32
阅读次数:
174