spark sql 的function中有一个 instr 可以判断其中一列是否是另外一列的子字符 新增字段 判断一个字段是否包含另一个字段的字符串,如果包含值为1否则是0 Df.withColumn("newColumn",when(instr(col("aColumn"),col("bColum ...
分类:
数据库 时间:
2020-10-27 10:54:18
阅读次数:
55
###查看 Linux 版本 uname -a lsb_release -a cat /etc/lsb_release cat /etc/issue cat /proc/version 不同版本的命令可能不一样 ###查看 CPU 信息 lscpu cat /proc/cpuinfo 会显示出物理核 ...
分类:
系统相关 时间:
2020-10-26 10:39:44
阅读次数:
27
Pandas 数据清洗常见方法 01 读取数据 df=pd.read_csv('文件名称') 02 查看数据特征 df.info() 03 查看数据量 df.shape 04 查看各数字类型的统计量 df.describe() 05 去除重复值 df.drop_duplicates(inplace= ...
分类:
其他好文 时间:
2020-10-21 21:22:59
阅读次数:
31
今天买的一台服务器发现其硬盘容量与购买界面的描述不符,于是我去问了客服才知道有一块硬盘需要自己挂载,所以记录自己硬盘分区以及挂载操作得此文。 测试环境 ? 由于时间限制,本人仅在centos 8下测试通过,理论上适用于几乎所有的linux发行版。 硬盘分区 ? 输入df -h查看当前系统的硬盘容量使 ...
分类:
系统相关 时间:
2020-10-21 21:22:07
阅读次数:
34
一、创建excel import pandas as pd df = pd.DataFrame() df.to_excel('C:/Temp/output.xls') print('Done!') 试着添加一些数据 import pandas as pd df = pd.DataFrame({'ID ...
分类:
其他好文 时间:
2020-10-18 16:33:11
阅读次数:
20
场景介绍本文为您介绍如何快速搭建一个基于ECS和NAS的私有网盘。背景知识本场景主要涉及以下云产品和服务:云服务器ECS云服务器(ElasticComputeService,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(InfrastructureasaService)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效
分类:
其他好文 时间:
2020-10-12 20:45:02
阅读次数:
31
今天做等频离散化实验时出现错误吗,代码如下: col20 =df.loc[:,['col20']] #提取特征col20的数据 col20 col20_ = pd.qcut(col20,5) #对其进行等频离散化 col20_ 报错信息: Input array must be 1 dimensio ...
分类:
其他好文 时间:
2020-10-12 20:38:53
阅读次数:
49
给树莓派设置静态IP原因 DHCP自动分配的IP来回变动,导致远程连接无法实现 可以提高联网速度 网上大多数方法都是修改 /etc/network/interfaces 配置文件,增加静态IP的设定。但是在树莓派上通过修改 interfaces 设置静态IP的方法,并不完美,即便取得了静态IP,DH ...
分类:
其他好文 时间:
2020-10-05 22:18:20
阅读次数:
28
在缺失值填补上如果用前后的均值填补中间的均值,比如,0,空,1,我们希望中间填充0.5;或者0,空,空,1,我们希望中间填充0.33,0.67这样。 可以用pandas的函数进行填充,因为这个就是线性插值法 df..interpolate() dd=pd.DataFrame(data=[0,np.n ...
分类:
编程语言 时间:
2020-09-24 21:23:08
阅读次数:
47