去重复行,用SQL写很简单,就一句SELECT DISTINCT … FROM。但是文件上没法直接用SQL了,想用SQL还得找个数据库先建表,也很麻烦。如果是小文件,那用java对付一下也不太费劲,大概这样: String file ="d:/urls.txt"; ArrayList<String> ...
分类:
编程语言 时间:
2020-06-15 10:09:59
阅读次数:
114
概述 定义 HDFS是一个分布式文件管理系统 优缺点 优点 (1)高容错 多副本提高容错、某个副本丢失可以自动恢复 (2)适合处理大数据 ? 能处理PB级别数据、能处理百万的文件数据量 (3)可构建在廉价机器上 缺点 (1)不适合低时延数据访问 (2)无法高效存储小文件 (3)不支持并发写入和文件修 ...
分类:
其他好文 时间:
2020-06-14 20:26:42
阅读次数:
58
1 背景 用户本地有一份txt或者csv文件,无论是从业务数据库导出、还是其他途径获取,当需要使用蚂蚁的大数据分析工具进行数据加工、挖掘和共创应用的时候,首先要将本地文件上传至ODPS,普通的小文件通过浏览器上传至服务器,做一层中转便可以实现,但当这份文件非常大到了10GB级别,我们就需要思考另一种 ...
分类:
编程语言 时间:
2020-06-10 19:21:32
阅读次数:
125
Nginx定时日志切割 现有的日志都会存在access.log文件中,但是随着时间的推移,这个文件的内容会越来越多,体积会越来越大,不便于运维 人员查看,所以我们可以通过把这个大的日志文件切割为多份不 同的小文件作为日志,切割规则可以以天为单位,如果每天有几 百G或者几个T的日志的话,则可以按需以每 ...
分类:
其他好文 时间:
2020-06-10 12:47:13
阅读次数:
52
Zookeeper概述zookeeper高容错数据一致性协议(CP)的分布式小文件系统,提供类似于文件系统的目录方式的数据存储。全局数据一致性:每个server保存一份相同的数据副本,client无论连接到哪个server展示的数据都是一致的。可靠性:一旦事务成功提交,就会被保留下来。有序性:客户端发起的事务请求,在也会顺序的应用在Zookeeper中。数据更新原子性:一次数据更新要么成功要么失败
分类:
其他好文 时间:
2020-06-08 12:44:34
阅读次数:
60
webpack性能优化: 优化开发体验 优化输出质量 优化开发体验: 提升效率 优化构建速度‘ 优化使用体验 优化输出质量: 优化要发布到线上的代码,减少用户能感知到的加载时间 提升代码性能,性能好,执行越快 缩小文件范围: 优化loader配置:test、include、exclude三个配置项来 ...
分类:
Web程序 时间:
2020-06-02 00:06:23
阅读次数:
101
一、HDFS优缺点 优点: 高容错性 数据自动保存多个副本 某一个副本丢失后,它可以自动恢复 适合处理大数据 数据规模,可以达到PB级 文件规模,能够处理百万规模的文件数量 可构建在廉价机器上,通过多副本保证可靠性 缺点: 不适合低延时数据访问 不适合对大量小文件进行存储 存储大量小文件,他会占用N ...
分类:
其他好文 时间:
2020-06-01 23:45:55
阅读次数:
68
概览 首先我们来认识一下HDFS, HDFS(Hadoop Distributed File System )Hadoop分布式文件系统。它其实是将一个大文件分成若干块保存在不同服务器的多个节点中。通过联网让用户感觉像是在本地一样查看文件,为了降低文件丢失造成的错误,它会为每个小文件复制多个副本(默 ...
分类:
其他好文 时间:
2020-05-28 18:13:32
阅读次数:
84
作为运维,日常工作中Rsync和Scp命令用户文件备份,文件或者文件夹拷贝 但是2着的主要区别并不是所有人知道 SCP 占用系统资源少 适合拷贝大文件 适合做全备份 加密传输 Rsync Rsync算法之传输文件不同部分,速度快 适合小文件 系统I/O会非常高 适合做差异备份 非加密传输 ...
分类:
其他好文 时间:
2020-05-25 19:54:43
阅读次数:
79
介绍 FastDFS是一个开源的 轻量级分布式文件系统 ,它对文件进行管理,功能包括:文件存储、文件同步、文件上传下载等,解决了 大容量存储 和 负载均衡 的问题。特别适合以 中小文件为载体 的服务 注意: FastDFS只能上传小于500MB的文件 FastDFS系统有三个角色:跟踪服务器,存储服 ...
分类:
其他好文 时间:
2020-05-24 09:28:22
阅读次数:
65