1.首先学习基本的知识,文本分析。学习基本的linux命令,使用脚本对文本进行细粒度的切分,并对模型进行调研 2.分析文本文件中的特征, 3.分析文本文件中上下文之间的关系。 4.编写脚本文件,对脚本预处理,数据清洗,并产生格式化的数据 5.建立模型 6.编写map,reduce过程文件,对数据进行 ...
分类:
其他好文 时间:
2016-05-31 00:57:12
阅读次数:
117
HTTP Live Streaming
这个是 Apple 为了提高流播效率开发的技术,特点是将流媒体切分为若干 TS 片段(比如每10秒一段),然后通过一个扩展的 m3u 列表文件将这些
TS 片段集中起来供客户端播放器接收。
这样做相比使用 RTSP 协议的好处在于,一旦切分完成,之后的分发过程完全不需要额外使用任何专门软件,普通的网络服务器即可,大大降低了 CDN 边缘服务...
分类:
移动开发 时间:
2016-05-30 10:16:16
阅读次数:
877
内容目录: find 文件查找 grep 文本搜索 xargs 命令行参数转换 sort 排序 uniq 消除重复行 用tr进行转换 cut 按列切分文本 paste 按列拼接文本 wc 统计行和字符的工具 sed 文本替换利器 awk 数据流处理工具 迭代文件中的行、单词和字符 内容目录: fin ...
分类:
系统相关 时间:
2016-05-28 19:09:57
阅读次数:
264
一、简介 1 主从服务优势: 好处一:实现服务器负载均衡 通过服务器复制功能,可以在主服务器和从服务器之间实现负载均衡。即可以通过在主服务器和从服务器之间切分处理客户查询的负荷,从而得到更好的客户相应时间。通常情况下,数据库管理员会有两种思路。 好处二:通过复制实现数据的异地备份 可以定期的将数据从 ...
分类:
其他好文 时间:
2016-05-26 18:28:29
阅读次数:
146
awk 'NF {if(NR > 500){print $0 "\n"}else{print $0}}' Bloom_result.csv > ./Bloom.csv awk '{print $0"\n"}' Bloom_result.csv > ./Bloom.csv awk '{print $0 ...
分类:
系统相关 时间:
2016-05-26 10:26:08
阅读次数:
208
前言 首先确保已经搭建好Hadoop集群环境,可以参考《Linux下Hadoop集群环境的搭建》一文的内容。我在测试mapreduce任务时,发现相比于使用Job.setNumReduceTasks(int)控制reduce任务数量而言,控制map任务数量一直是一个困扰我的问题。好在经过很多摸索与实 ...
分类:
其他好文 时间:
2016-05-23 14:43:38
阅读次数:
300
java String.split(); 别的不说,单说其中一个问题,这个函数去切分空字符串时,得到的结果; public static void main(String[] args) {// String countType = "3,3"; String countType = "";// S ...
分类:
编程语言 时间:
2016-05-23 10:28:51
阅读次数:
133
中文分词工具:结巴分词
github地址:https://github.com/fxsjy/jieba一、分词功能
精确模式(默认):试图将句子最精确地切开,适合文本分析;
全模式,把句子中所有的可以成词的词语都扫描出来,但是不能解决歧义;
搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。注意:jieba.cut以及jieba.c...
分类:
编程语言 时间:
2016-05-22 12:32:43
阅读次数:
268
一.数据类型 1.数字 int 2.整型 3.浮点型 float a += 1 和 a = a+1 方法相同 布尔值:真和假,1 和 0 ,1是真,0是假 二.字符串 填充、删减、变形、切分、连接、判定、查找、替换、编码 type('a') str(1) #转换成字符串 int('1') #转成数字 ...
分类:
其他好文 时间:
2016-05-21 11:42:12
阅读次数:
264
归并排序 实现过程 归并排序算法: 1、首先将链表进行切分。在我们的算法中,使用两个指针fast和slow,fast的遍历速度是slow指针的两倍。所以当fast遍历到链表的末尾时,slow恰好找到了链表的最中间位置,(这是使用链表存储相对于数组比较麻烦的地方,没办法直接选取最中间的值)。 2、使用 ...
分类:
编程语言 时间:
2016-05-20 17:22:52
阅读次数:
227