环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 一、cut:显示切割的行数据f:选择显示的列s:不显示没有分隔符的行d:自定义分隔符 举例:cut -d' ' -f1-3 test.txt 按照空格切分test.txt ...
                            
                            
                                分类:
系统相关   时间:
2018-12-22 18:25:44   
                                阅读次数:
268
                             
                    
                        
                            
                            
                                前言: 公司要统计 treasury库hive表磁盘空间,写了个脚本,如下: 查询hive仓库表占用hdfs文件大小: hadoop fs -du -h /user/hive/warehouse/treasury.db > treasury.txt 脚本: 调用命令: sh filter2.sh 1 ...
                            
                            
                                分类:
系统相关   时间:
2018-12-19 19:37:09   
                                阅读次数:
252
                             
                    
                        
                            
                            
                                    转自:http://jolestar.com/parallel-programming-model-thread-goroutine-actor/ 先梳理下两个概念,几乎所有讲并发的文章都要先讲这两个概念: 并发(concurrency) 并发的关注点在于任务切分。举例来说,你是一个创业公司的CEO ...
                            
                            
                                分类:
其他好文   时间:
2018-12-18 21:24:18   
                                阅读次数:
166
                             
                    
                        
                            
                            
                                用途 用来把一组数组分割成离散的区间。比如有一组年龄数据,可以使用 将年龄数据分割成不同的年龄段并打上标签。 原型 参数含义 :被切分的类数组(array like)数据,必须是1维的(不能用DataFrame); :bins是被切割后的区间(或者叫“桶”、“箱”、“面元”),有3中形式:一个int ...
                            
                            
                                分类:
其他好文   时间:
2018-12-18 00:07:54   
                                阅读次数:
446
                             
                    
                        
                            
                            
                                一. 中文分词技术 中文自动分词可主要归纳为“规则分词”“统计分词”和“混合分词”,规则分词主要是通过人工设立词库,按照一定方式进行匹配切分,实现简单高效,但对新词很难进行处理,统计分词能够较好应对新词发现能特殊场景,但太过于依赖语料的质量,因此实践中多是采用两者的结合,即混合分词。 1.1 规则分 ...
                            
                            
                                分类:
编程语言   时间:
2018-12-17 02:42:01   
                                阅读次数:
173
                             
                    
                        
                            
                            
                                    0. 概念 0.1 消息系统 消息系统负责将数据从一个应用程序传输到另一个应用程序,因此应用程序可以专注于数据,而不用担心怎么去共享它。 1)点对点消息系统: 消息被保留在队列中,一个或多个消费者可以消耗队列中的消息,但是特定的消息只能由一个消费者消费,一旦消费掉了,消息就会从队列中消失。 2)发布 ...
                            
                            
                                分类:
其他好文   时间:
2018-12-16 21:41:18   
                                阅读次数:
160
                             
                    
                        
                            
                            
                                    文件读取与异常 文件读取与判断 os模块是调用来处理文件的。 先从最原始的读取txt文件开始吧! 新建一个aaa.txt文档,键入如下英文名篇: 同目录下创建一个新的file.py文档 结果如下 如果文件不存在怎么办? split切分 现在我们要把这个桥段转化为第三人称的形式 这里是个极其简单对话区 ...
                            
                            
                                分类:
编程语言   时间:
2018-12-16 19:31:37   
                                阅读次数:
283
                             
                    
                        
                            
                            
                                    分区 分区就是把一个数据表的文件和索引分散存储在不同的物理文件中。 mysql支持的分区类型包括Range、List、Hash、Key,其中Range比较常用: RANGE分区:基于属于一个给定连续区间的列值,把多行分配给分区。 LIST分区:类似于按RANGE分区,区别在于LIST分区是基于列值匹 ...
                            
                            
                                分类:
数据库   时间:
2018-12-15 17:19:10   
                                阅读次数:
202
                             
                    
                        
                            
                            
                                    概述: jieba是优秀的中文分词第三方库,jieba分词依靠中文词库 https://pypi.org/project/jieba/ 安装:pip install jieba import jieba jieba分词的三种模式 精确模式:把文本精确的分开,不存在冗余单词 全模式:把文本中所有可能的 ...
                            
                            
                                分类:
其他好文   时间:
2018-12-14 01:00:20   
                                阅读次数:
678
                             
                    
                        
                            
                            
                                    目录 架构的基本认识 架构的发展历程 单体架构 分布式(RPC) 面向服务架构(SOA) 微服务架构 架构当中的一些概念介绍(例如:服务治理) 架构的基本认识 定义 根据要解决的问题,对目标系统的边界进行界定,对目标系统按照某个原则进行切分,使拆分出来的部分进行有机的联系,合并组装称为一个整体,完成 ...
                            
                            
                                分类:
其他好文   时间:
2018-12-12 22:10:19   
                                阅读次数:
240