##Task2 数据读取与数据分析 ####1.学习目标 学习使用Pandas读取赛题数据 分析赛题数据的分布规律 ####2.数据读取 代码示例: import pandas as pd file_dir = "nlp_data_list" train_df = pd.read_csv("./{} ...
分类:
其他好文 时间:
2020-07-23 01:45:01
阅读次数:
80
replace() 既可以替换某列,也可以替换某行,还可以全表替换 df.replace() 或者 df[col]replace() #参数如下: df.replace(to_replace=None, value=None, inplace=False, limit=None, regex=Fal ...
分类:
其他好文 时间:
2020-07-22 20:36:06
阅读次数:
129
Pandas的Merge相当于sql的join,将不同的表关联在一个表 #读取电影数据,sep为分割符 df_ratings=pd.read_csv(r'...\datas\movielens-1m\ratings.dat',sep='',engine='python',names='UserIDM ...
分类:
其他好文 时间:
2020-07-21 23:22:47
阅读次数:
88
按数值、列表、区间、条件、函数五种方法。 Pandas查询数据的几种方法 1.df.loc(),根据行、列的标签值查询(推荐使用) 2.df.iloc(),根据行、列的数值查询(不推荐使用) 3.df.where()方法 4.df.query()方法 重点 Pandas使用df.loc查询数据的方法 ...
分类:
其他好文 时间:
2020-07-20 22:43:13
阅读次数:
115
直接赋值、apply、assign、分条件赋值 仍旧以天气数据为案例 第一步:清洗数据 df.loc[:,'bWendu']=df['bWendu].str.replace('C','').astype('int32') 上图包含了直接赋值方法 第二、apply方法 df['wendu_type'] ...
分类:
其他好文 时间:
2020-07-20 22:29:31
阅读次数:
90
Linux 磁盘管理 Linux磁盘管理好坏直接关系到整个系统的性能问题。 Linux磁盘管理常用三个命令为df、du和fdisk。 df:列出文件系统的整体磁盘使用量 du:检查磁盘空间使用量 fdisk:用于磁盘分区 df df命令参数功能:检查文件系统的磁盘空间占用情况。可以利用该命令来获取硬 ...
分类:
系统相关 时间:
2020-07-18 21:50:58
阅读次数:
99
数据选择 行选择、列选择、行列同时选择 列选择 一列 df['操作人'] 多列:嵌套列表 df[['操作人',['部门']]]#返回dataframe 列的位置:iloc #iloc:接受行,列 df[:,1:5]#所有行,1-4列 df[[0,3,4],[0,3,4]]#0,3,4行、列 行标签 ...
分类:
其他好文 时间:
2020-07-17 11:37:25
阅读次数:
76
缺失值处理 1.当缺失值的比例占数据样本的比例比较小,则可以直接删除。 2.数据补齐 查看缺失值 df = pd.read_excel(r'缺失值处理.xlsx') df 每列缺失值的总数 df.isnull().sum() 列缺失值所占的比例 #apply df.apply(lambda x: s ...
分类:
其他好文 时间:
2020-07-16 21:46:44
阅读次数:
117
excel文件 最基本的文件读取 # 只需要传入文件路径即可 df = pd.read_excel(r'数据读取.xlsx') df 读取指定sheet上面的数据 #sheet_name df = pd.read_excel(r'数据读取.xlsx', sheet_name='Sheet2') df ...
分类:
其他好文 时间:
2020-07-16 18:26:13
阅读次数:
85
1. 磁盘加挂 //查看磁盘挂载路径和使用情况 [root@localhost ~]# df -l Filesystem 1K-blocks Used Available Use% Mounted on /dev/mapper/centos-root 9754624 6240060 3514564 ...
分类:
系统相关 时间:
2020-07-16 12:11:53
阅读次数:
128