# 在对数据进行分析时,主要细分为明确目标、应用思维和如下8个具体步骤: 1、读取数据 2、清洗数据 3、操作数据 4、转换数据 5、整理数据 6、分析数据 7、展现数据 8、总结报告 接下来将介绍使用python来具体处理数据,包括上面几个步骤的实现,以及给出具体的操作例子。 需要记住的是使用py ...
分类:
其他好文 时间:
2020-04-21 18:14:39
阅读次数:
79
1.熟悉wc命令 wc命令用于计算文件的Byte数、字数、或是列数,若不指定文件名称、或是所给予的文件名为"-",则wc指令会从标准输入设备读取数据。 参数: c或--bytes或--chars 只显示Bytes数。 -l或--lines 只显示行数。 -w或--words 只显示字数。 --hel ...
分类:
系统相关 时间:
2020-04-20 14:00:14
阅读次数:
81
1】Receiver是使用高层次的consumer Api来实现的。 receiver 接收的消息都是存储在spark Executor中的,然后spark启动jobq去处理那些消息 然而,默认情况下,这种方式会因为底层的失败丢失数据。 如果要启用高可靠机制,让数据零丢失,就必须启用spark st ...
分类:
其他好文 时间:
2020-04-20 11:59:44
阅读次数:
64
并发指在同一时间内可以执行多个任务。并发编程含义比较广泛,包含多线程编程、多进程编程及分布式程序等。本章讲解的并发含义属于多线程编程。goroutine是由Go语言的运行时调度完成,而线程是由操作系统调度完成。使用者分配足够多的任务,系统能自动帮助使用者把任务分配到CPU上,让这些任务尽量并发运作。 ...
分类:
其他好文 时间:
2020-04-20 01:12:23
阅读次数:
51
问题背景 NIO是面向缓冲区进行通信的,不是面向流的。我们都知道,既然是缓冲区,那它一定存在一个固定大小。这样一来通常会遇到两个问题: 消息粘包 :当缓冲区足够大,由于网络不稳定种种原因,可能会有多条消息从通道读入缓冲区,此时如果无法分清数据包之间的界限,就会导致粘包问题; 消息不完整 :若消息没有 ...
分类:
编程语言 时间:
2020-04-19 17:40:24
阅读次数:
56
索引通常能够极大的提高查询的效率,如果没有索引,MongoDB在读取数据时必须扫描集合中的每个文件并选取那些符合查询条件的记录。这种扫描全集合的查询效率是非常低的,特别在处理大量的数据时,查询可以要花费几十秒甚至几分钟,这对网站的性能是非常致命的。 索引是特殊的数据结构,索引存储在一个易于遍历读取的 ...
分类:
数据库 时间:
2020-04-19 12:35:43
阅读次数:
81
一、前言 工作或学习中,相信很多同学跟我一样,对于json字符串和字典两者的概念一直摸棱两可。emmm,既然不懂,那我们查资料并整理下来。 二、json字符串和字典的区别 简单粗暴地说,字典是一种数据结构,而json是一种数据格式(纯字符串),可以被解析成Python的dict或者其他形式。 jso ...
分类:
编程语言 时间:
2020-04-18 12:10:33
阅读次数:
76
I/O流·其他流 序列流 * A:什么是序列流 * 序列流可以把多个字节输入流整合成一个,从序列流中读取数据时,将从被整合的第一个流开始,读完后再读下一个 * B:使用方式 * 整合两个:SequenceInputStream(InputStream, InputStream) * 整合多个:Seq ...
分类:
编程语言 时间:
2020-04-16 22:24:06
阅读次数:
70
统计类:读取数据、做简单包装转换map、filter、按某个字段分组,开窗,做聚合 排序| TopN:再做一个ProcessFunction,把所有数据都收集到排序输出;以上是基于DataStreamAPI,也可以用高级API、TableAPI和FlinkSQL业务流程中的状态做检测输出和警告:自定 ...
分类:
其他好文 时间:
2020-04-14 22:34:20
阅读次数:
69
管道输入流应连接到管道输出流。 然后,管道输入流将提供任何数据字节写入管道输出流。 通常,一个线程从PipedInputStream对象读取数据,而另一个线程将数据写入相应的PipedOutputStream。 不建议尝试从单个线程使用两个对象,因为这可能会死锁该线程。 管道输入流包含一个缓冲区,在 ...
分类:
编程语言 时间:
2020-04-11 23:38:52
阅读次数:
74