第1章 引言 随着互联网应用的广泛普及,海量数据的存储和訪问成为了系统设计的瓶颈问题。对于一个大型的互联网应用。每天几十亿的PV无疑对数据库造成了相当高的负载。对于系统的稳定性和扩展性造成了极大的问题。通过数据切分来提高站点性能,横向扩展数据层已经成为架构研发人员首选的方式。水平切分数据库。能够减少 ...
分类:
数据库 时间:
2017-05-27 10:37:49
阅读次数:
272
IKAnalyzer简介 IKAnalyzer简介 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 IKAnalyzer特性 a. 算法采用“正向迭代最细粒度切分算法”,支持细粒度和最 ...
分类:
其他好文 时间:
2017-05-24 15:52:18
阅读次数:
218
按点(.)切分,必须要注意转义!如:split("\\.")。 例子: [java] view plain copy print? public class Test { public static void main(String[] args) { String s = "adhahd.txt" ...
分类:
编程语言 时间:
2017-05-21 18:57:22
阅读次数:
164
Python中基本的读文件和简单数据处理 暂无评论 DataQuest上面的免费课程(本文是Python基础课程部分),里面有些很基础的东西(csv文件读,字符串预处理等),发在这里做记录。涉及下面六个案例: Find the lowest crime rate(读取csv文件,字符串切分,for循 ...
分类:
编程语言 时间:
2017-05-17 00:47:17
阅读次数:
323
#!/usr/bin/envpython
#-*-coding:utf8-*-
#切分nginx按照日期切分日志文件
from__future__importdivision
importos,sys
big_file=‘/data/logs/media.net.error.log‘
#按照文件大小拆分
defsplit_by_filesize(fromfile,todir,chunksize=0):
"""
chunksize:字节建议每100M..
分类:
编程语言 时间:
2017-05-16 23:09:16
阅读次数:
192
1、scws简单介绍 SCWS 是 Simple Chinese Word Segmentation 的首字母缩写(即:简易中文分词系统)。 这是一套基于词频词典的机械式中文分词引擎,它能将一整段的中文文本基本正确地切分成词。 词是中文的最小语素单位,但在书写时并不像英语会在词之间用空格分开。 所以 ...
分类:
Web程序 时间:
2017-05-16 12:52:13
阅读次数:
155
面向对象编程——Object Oriented Programming,简称OOP,是一种程序设计思想。OOP把对象作为程序的基本单元,一个对象包含了数据和操作数据的函数。 面向过程的程序设计把计算机程序视为一系列的命令集合,即一组函数的顺序执行。为了简化程序设计,面向过程把函数继续切分为子函数,即 ...
分类:
编程语言 时间:
2017-05-14 10:43:39
阅读次数:
212
git使用经验总结 一、克隆项目 1.通过GitLab查询 项目 的地址 2.克隆项目(gitAddr需从gitLab中查得) git clone gitAddr 3.切分支 切到dev分支 git checkout dev 4.转换为eclipse项目 mvn eclipse:eclipse 5. ...
分类:
其他好文 时间:
2017-05-11 17:07:45
阅读次数:
136
以人为核心,迭代,循序渐进 项目被切分为多个子项目,每个子项目都经过测试,具备集成和可运行的特征 5个价值观:沟通、简单、反馈、勇气、谦逊 敏捷模型与瀑布模型的区别 相对于瀑布模型,提高开发效率和响应能力 瀑布模型以文档为驱动,敏捷开发只写必要的文档,尽量少写文档,注重人与人之间面对面的交流,强调以 ...
分类:
其他好文 时间:
2017-05-10 21:21:03
阅读次数:
150
今天公司抽取了4千万的表大概十几G 用sqoop抽取是30--40分钟 开了两个map。模型是oracle hdfs(hive)。以前只抽过几十万级别,所以千万级别感觉还是spilt做好切分和定好切分字段。尽量避免木桶效应。才能把sqoop时间缩到最短。另外。hdfs load到hive 加了ove ...
分类:
其他好文 时间:
2017-05-10 01:09:54
阅读次数:
283