好: 1、不用打字就可以发消息 2、中英文都可之间转换 3、识别效率高 4、不占用内存 5、避免了信息遗漏 6、方便记录语音类型的重要信息 7、旁边有人不方便听语音时可以看文字 8、语音内容过长可以减少时间 9、更容易传达信息 10、下载到数据库时,在没网的情况下也可以使用 11、以文本的方式看内容 ...
分类:
其他好文 时间:
2020-12-01 12:21:32
阅读次数:
8
前段时间跟一个朋友聊起kafka,flint,spark这些是不是某种分布式运算框架。我自认为的分布式运算框架最基础条件是能够把多个集群节点当作一个完整的系统,然后程序好像是在同一台机器的内存里运行一样。当然,这种集成实现方式有赖于底层的一套消息系统。这套消息系统可以把消息随意在集群各节点之间自由传 ...
分类:
其他好文 时间:
2020-11-30 16:09:25
阅读次数:
9
一、Git简史及同类产品对比:1、git简史:同生活中的许多伟大事件一样,Git诞生于一个极富纷争大举创新的年代。Linux内核开源项目有着为数众广的参与者。绝大多数的Linux内核维护工作都花在了提交补丁和保存归档的繁琐事务上(1991-2002年间)。到2002年,整个项目组开始启用分布式版本控制系统BitKeeper来管理和维护代码。到2005年的时候,开发BitKeeper的商业公司同Li
分类:
其他好文 时间:
2020-11-27 11:24:28
阅读次数:
8
###Spark中的UDF Spark1.6只能创建临时UDF,不支持创建持久化的UDF。 从Spark-2.0开始,SparkSQL支持持久化的UDF,目前看来是支持UDAF ###Spark中的UDF 过程 (1)自定义UDF类,实现UDF1/2/3....22中的接口之一,其中UDF后跟的数字 ...
分类:
其他好文 时间:
2020-11-26 15:06:55
阅读次数:
6
1.大数据架构图谱 文件系统 HDFS Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。 GlusterFS 是一个集群的文件系统 ...
分类:
其他好文 时间:
2020-11-25 12:06:50
阅读次数:
8
最近经常有小伙伴留言,核心问题都比较类似,就是虽然接触Spark有一段时间了,但是搞不明白一个问题,为什么我从HDFS上加载不同的文件时,打印的分区数不一样,并且好像spark.default.parallelism这个参数时不是一直起作用?其实笔者之前的文章已有相关介绍,想知道为什么,就必须了解S... ...
分类:
其他好文 时间:
2020-11-23 12:25:04
阅读次数:
5
C是一致性,A是可用性,P是分区容错。前两个没什么好说的,主要是P我不太清楚。然后我看文章中最后的证明,有点明白了。分区是指两个服务器之间发送信息失败。而分区容错就是系统允许发生这种两个服务器之间无法传输数据的情况。 也就是说C和A如果算是正面的、好的性质,那么P就是负面的、坏的性质。 那为什么允许 ...
分类:
其他好文 时间:
2020-11-23 12:04:57
阅读次数:
5
# abc的类型为tbl_spark class(abc) #"tbl_spark" #列名 colnames(abc) #行数 abc %>% count() # 把abc转为data frame a <- data.frame(abc) class(a) #"data.frame" #行列数 d ...
分类:
其他好文 时间:
2020-11-21 12:35:33
阅读次数:
5
HBase是一个高可靠、高性能、面向列的,主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。它基于Google Bigtable开源实现,但二者有明显的区别:Google Bigtable基于GFS存储,通过MAPREDUCE处理存储的数据,通过chubby处理协同服务;而HB... ...
分类:
其他好文 时间:
2020-11-20 12:05:39
阅读次数:
11
Spark Streaming处理流程中,遇到某些批次耗时长的问题,排查思路
分类:
其他好文 时间:
2020-11-18 13:12:54
阅读次数:
8