分库分表介绍 随着微服务这种架构的兴起,我们应用从一个完整的大的应用,切分为很多可以独立提供服务的小应用。每个应用都有独立的数据库。 数据的切分分为两种: 垂直切分:按照业务模块进行切分,将不同模块的表切分到不同的数据库中。 水平切分:将一张大表按照一定的切分规则,按照行切分到不同的表或者不同的库中 ...
分类:
数据库 时间:
2020-02-04 10:56:57
阅读次数:
92
如果不希望文件被切分,例如判断文件中记录是否有序,可以让minimumSize值大于最大文件的大小,但是文件的大小不能超过blockSize,或者重写FileInputFormat方法isSplitable()返回为false。下面介绍将多个小文件合成一个大的序列文件的例子: 1)自定义完整文件输入 ...
分类:
其他好文 时间:
2020-02-03 14:01:49
阅读次数:
81
安装jieba:pip install jieba 原理: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 ...
分类:
编程语言 时间:
2020-02-02 19:34:51
阅读次数:
263
jieba简介 jieba库是一个简单实用的中文自然语言处理分词库。 jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。 jieba支持三种分词模式: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧 ...
分类:
其他好文 时间:
2020-02-02 19:31:12
阅读次数:
108
Base 16 Base16编码使用16个ASCII可打印字符(数字0-9和字母A-F)对任意字节数据进行编码。Base16先获取输入字符串每个字节的二进制值(不足8比特在高位补0),然后将其串联进来,再按照4比特一组进行切分,将每组二进制数分别转换成十进制,在下述表格中找到对应的编码串接起来就是B ...
分类:
其他好文 时间:
2020-02-02 01:27:33
阅读次数:
1221
分布式数据集 编辑 Spark围绕的核心概念,是弹性分布式数据集(RDD),一个有容错机制,可以被并行操作的集合。目前有两种类型的RDD: 并行集合(Parrallelized Collections),接收一个已经存在的Scala集合,在它上面运行各种并发计算; Hadoop数据集(Hadoop ...
分类:
其他好文 时间:
2020-02-01 23:17:16
阅读次数:
80
数据传递: 一旦WebSocket客户端、服务端建立连接后,后续的操作都是基于数据帧的传递。 WebSocket根据opcode来区分操作的类型。比如0x8表示断开连接,0x0-0x2表示数据交互。 1、数据分片 WebSocket的每条消息可能被切分成多个数据帧。当WebSocket的接收方收到一 ...
分类:
Web程序 时间:
2020-02-01 16:28:33
阅读次数:
109
敏捷软件开发 百度百科的定义 敏捷开发 (Scrum)以用户的需求进化为核心,采用迭代、循序渐进的方法进行软件开发。在敏捷开发中,软件项目在构建初期被切分成多个子项目,各个子项目的成果都经过测试,具备可视、可集成和可运行使用的特征。换言之,就是把一个大项目分为多个相互联系,但也可独立运行的小项目,并 ...
分类:
其他好文 时间:
2020-01-31 20:56:31
阅读次数:
75
Tmux是非常流行的终端复用软件,通过一个终端登录远程主机并运行tmux后,在其中可以开启多个控制台而无需再“浪费”多余的终端来连接这台远程主机。相对于Screen,它更加先进:支持屏幕切分,而且具备丰富的命令行参数,使其可以灵活、动态的进行各种布局和操作。对于Tmux的使用,可以参考:Tmux终端 ...
分类:
系统相关 时间:
2020-01-30 14:35:19
阅读次数:
135
一、创建用户并指定家目录 示例:useradd -u 514 -g dba -G root -d /usr/local/mysql mysqladmin useradd表示:增加用户 -u 514:表示指定用户的id为514 -g data:表示指定用户的主组为data -G root:表示指定用户 ...
分类:
其他好文 时间:
2020-01-29 23:44:06
阅读次数:
121