搜索关键字：切分，搜索到1250个结果！码迷,mamicode.com！

特征处理

通过特定的统计方法(数学方法)将数据转换成算法要求的数据数值行数据：标准缩放： 1.归一化 2.标准化类别型数据：one-hot编码时间类型：时间的切分 sklearn特征处理API： sklearn.preprocessing 归一化：特点：通过对原始数据进行变化把数据映射到(默认为【0， ...

分类：其他好文时间：2021-01-14 11:08:01 阅读次数：0

306. Additive Number

问题：给定一个由0～9组成的字符串，判断该字符串是否为一个可加字符串。可加字符串：对字符串进行切分后，各切片构成的数字，除了前两个数字外，之后的数字都等于前两个之和。 ?? 注意：每个切片数字若不等于0，则不能以'0'开头。 Example 1: Input: "112358" Output: ...

分类：其他好文时间：2021-01-13 11:01:24 阅读次数：0

查询优化点?

避免查询无关的列，如使用Select * 返回所有的列。避免查询无关的行切分查询。将一个对服务器压力较大的任务，分解到一个较长的时间中，并分多次执行。如要删除一万条数据，可以分10次执行，每次执行完成后暂停一段时间，再继续执行。过程中可以释放服务器资源给其他任务。分解关联查询。将多表关联查询的 ...

分类：其他好文时间：2021-01-01 12:04:23 阅读次数：0

中台灵魂拷问，计划经济模式还是市场经济模式

最近中台的文章比较多，大多数谈历史，谈原因，之后就是谈技术了，但是中台真的实施起来，却躲不开下面的灵魂拷问。问题一：到底哪些应该作为中台，哪些不应该作为中台，是谁决定的？如何决定的？问题二：每一个中台应该有哪些功能？谁来定义？和业务方如何切分？怎样保证切分的合理？每一个中台应该有多大？按接口数？代码行数？什么时候决定再拆分？谁决定？问题三：维护每一个中台的团队应该有多大？10个人？100人？用户中

分类：其他好文时间：2020-12-14 13:58:46 阅读次数：13

jieba库的使用说明

1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 -中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库，需要额外安装 - jieba库提供三种分词模式，最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - ...

分类：其他好文时间：2020-12-09 12:09:11 阅读次数：6

深入探讨HBASE

HBase是一个高可靠、高性能、面向列的，主要用于海量结构化和半结构化数据存储的分布式key-value存储系统。它基于Google Bigtable开源实现，但二者有明显的区别：Google Bigtable基于GFS存储，通过MAPREDUCE处理存储的数据，通过chubby处理协同服务；而HB... ...

分类：其他好文时间：2020-11-20 12:05:39 阅读次数：11

数据库秒级平滑扩容架构方案

一、缘起（1）并发量大，流量大的互联网架构，一般来说，数据库上层都有一个服务层，服务层记录了“业务库名”与“数据库实例”的映射关系，通过数据库连接池向数据库路由sql语句以执行：如上图：服务层配置用户库user对应的数据库实例物理位置为ip（其实是一个内网域名）。（2）随着数据量的增大，数据要进行水平切分，分库后将数据分布到不同的数据库实例（甚至物理机器）上，以达到降低数据量，增强性能的扩容目的：

分类：数据库时间：2020-11-18 13:09:39 阅读次数：15

bitmap计数，求TopK最快的方法？

《TopK到底怎么答？》介绍了TopK的四种解法，其中随机选择(randomizedselect)最为经典，用减治法(Reduce&Conquer)的思想，将数据规模急速降低，总体复杂度为O(n)。结尾挖了一个坑：求TopK，有没有比随机选择更快的方法呢？空间换时间，是算法优化中最常见的手段，如果有相对充裕的内存，可以有更快的算法。画外音：即使内存不够，也可以水平切分，使用分段的方法来操作

分类：其他好文时间：2020-11-17 12:08:41 阅读次数：5

做好分库分表其实很难之二

为什么分在正式开始之前，菜菜还是要强调一点，你的数据表是否应该分，需要综合考虑很多因素，比如业务的数据量是否到达了必须要切分的数量级，是否可以有其他方案来解决当前问题？我不止一次的见过，有的leader在不考虑综合情况下，盲目的进行表拆分业务，导致的情况就是大家不停的加班，连续几周996，难道leader你不掉头发吗？还有的架构师在一个小小业务初期就进行表拆分，大家为了配合你也是马不停蹄的加班赶进

分类：其他好文时间：2020-11-12 13:21:00 阅读次数：7

数据库软件架构，到底要设计些什么？

一、基本概念概念一：单库概念二：分片分片解决“数据量太大”这一问题，也就是通常说的“水平切分”。一旦引入分片，势必面临“数据路由”的新问题，数据到底要访问哪个库。路由规则通常有3种方法：（1）范围：range优点：简单，容易扩展。缺点：各库压力不均（新号段更活跃）。（2）哈希：hash优点：简单，数据均衡，负载均匀。缺点：迁移麻烦（2库扩3库数据要迁移）。（3）统一路由服务：router-conf

分类：数据库时间：2020-11-10 11:28:38 阅读次数：11