通过特定的统计方法(数学方法)将数据转换成算法要求的数据 数值行数据:标准缩放: 1.归一化 2.标准化 类别型数据:one-hot编码 时间类型:时间的切分 sklearn特征处理API: sklearn.preprocessing 归一化: 特点:通过对原始数据进行变化把数据映射到(默认为【0, ...
分类:
其他好文 时间:
2021-01-14 11:08:01
阅读次数:
0
问题: 给定一个由0~9组成的字符串,判断该字符串是否为一个可加字符串。 可加字符串:对字符串进行切分后,各切片构成的数字,除了前两个数字外,之后的数字都等于前两个之和。 ?? 注意:每个切片数字若不等于0,则不能以'0'开头。 Example 1: Input: "112358" Output: ...
分类:
其他好文 时间:
2021-01-13 11:01:24
阅读次数:
0
避免查询无关的列,如使用Select * 返回所有的列。 避免查询无关的行 切分查询。将一个对服务器压力较大的任务,分解到一个较长的时间中,并分多次执行。如要删除一万条数据,可以分10次执行,每次执行完成后暂停一段时间,再继续执行。过程中可以释放服务器资源给其他任务。 分解关联查询。将多表关联查询的 ...
分类:
其他好文 时间:
2021-01-01 12:04:23
阅读次数:
0
最近中台的文章比较多,大多数谈历史,谈原因,之后就是谈技术了,但是中台真的实施起来,却躲不开下面的灵魂拷问。问题一:到底哪些应该作为中台,哪些不应该作为中台,是谁决定的?如何决定的?问题二:每一个中台应该有哪些功能?谁来定义?和业务方如何切分?怎样保证切分的合理?每一个中台应该有多大?按接口数?代码行数?什么时候决定再拆分?谁决定?问题三:维护每一个中台的团队应该有多大?10个人?100人?用户中
分类:
其他好文 时间:
2020-12-14 13:58:46
阅读次数:
13
1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - ...
分类:
其他好文 时间:
2020-12-09 12:09:11
阅读次数:
6
HBase是一个高可靠、高性能、面向列的,主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。它基于Google Bigtable开源实现,但二者有明显的区别:Google Bigtable基于GFS存储,通过MAPREDUCE处理存储的数据,通过chubby处理协同服务;而HB... ...
分类:
其他好文 时间:
2020-11-20 12:05:39
阅读次数:
11
一、缘起(1)并发量大,流量大的互联网架构,一般来说,数据库上层都有一个服务层,服务层记录了“业务库名”与“数据库实例”的映射关系,通过数据库连接池向数据库路由sql语句以执行:如上图:服务层配置用户库user对应的数据库实例物理位置为ip(其实是一个内网域名)。(2)随着数据量的增大,数据要进行水平切分,分库后将数据分布到不同的数据库实例(甚至物理机器)上,以达到降低数据量,增强性能的扩容目的:
分类:
数据库 时间:
2020-11-18 13:09:39
阅读次数:
15
《TopK到底怎么答?》介绍了TopK的四种解法,其中随机选择(randomizedselect)最为经典,用减治法(Reduce&Conquer)的思想,将数据规模急速降低,总体复杂度为O(n)。结尾挖了一个坑:求TopK,有没有比随机选择更快的方法呢?空间换时间,是算法优化中最常见的手段,如果有相对充裕的内存,可以有更快的算法。画外音:即使内存不够,也可以水平切分,使用分段的方法来操作
分类:
其他好文 时间:
2020-11-17 12:08:41
阅读次数:
5
为什么分在正式开始之前,菜菜还是要强调一点,你的数据表是否应该分,需要综合考虑很多因素,比如业务的数据量是否到达了必须要切分的数量级,是否可以有其他方案来解决当前问题?我不止一次的见过,有的leader在不考虑综合情况下,盲目的进行表拆分业务,导致的情况就是大家不停的加班,连续几周996,难道leader你不掉头发吗?还有的架构师在一个小小业务初期就进行表拆分,大家为了配合你也是马不停蹄的加班赶进
分类:
其他好文 时间:
2020-11-12 13:21:00
阅读次数:
7
一、基本概念概念一:单库概念二:分片分片解决“数据量太大”这一问题,也就是通常说的“水平切分”。一旦引入分片,势必面临“数据路由”的新问题,数据到底要访问哪个库。路由规则通常有3种方法:(1)范围:range优点:简单,容易扩展。缺点:各库压力不均(新号段更活跃)。(2)哈希:hash优点:简单,数据均衡,负载均匀。缺点:迁移麻烦(2库扩3库数据要迁移)。(3)统一路由服务:router-conf
分类:
数据库 时间:
2020-11-10 11:28:38
阅读次数:
11