数据准备:【1】mysql数据库导出,以逗号间隔,方便后期解析【2】提交服务器:rz 上传到Linux虚拟机中【3】提交到集群中:hadoop fs –put emp.csv /input搁浅:关闭安全模式:hdfs dfsadmin -safemode leave实现简单的输入内容到文件: -ec... ...
分类:
其他好文 时间:
2020-06-24 15:54:09
阅读次数:
61
1、 开始 => SQL Server Management Studio 连接 选中数据库 => 任务 => 导出数据 导出数据到 test.txt,格式为 ...
分类:
数据库 时间:
2020-06-23 13:06:53
阅读次数:
115
编程婴儿又在编程。 男朋友又让我给他处理数据,其中一个数据大小有10g以上,我还需要把这个数据和其他数据进行匹配,然后分组统计得到一些数据。 之前简简单单用一下read_csv不能打开这么大的数据,我在寻找办法。 因为要做匹配,所以我本来打算模块化把数据写进来之后,然后再合并起来做。但是总是不行,报 ...
分类:
编程语言 时间:
2020-06-23 01:24:52
阅读次数:
106
最近做的项目,有个需求(从Elastic Search取数据,业务运算后),每次要向MySQL插入1300万数据左右。最初用MySQL的executemany()一次插入10000条数据,统计的时间如下: 如上,插入时间,由于系统的IO变化,会有波动,最快在4秒左右。 后改为"load data i ...
分类:
数据库 时间:
2020-06-22 21:00:39
阅读次数:
71
1. 查看文件编码格式 file -i filename 其中 charset=iso-8859-1 就是ansi的文件格式 如何转化为 UTF-8 iconv -f ansi -t utf8 xxxx.csv -o xxxx2.csv 转化后就变为正常显示. 可用于导HIVE前文件格式的转换 ...
分类:
系统相关 时间:
2020-06-22 13:09:10
阅读次数:
102
使用workbeach直接导入csv 下面这个导入按钮有的表有,有的表没有,需要看一下表的设定。 使用数据库原生数据库连接导入 1、下载第三方包pymysql 2、编写代码 import pymysql conn = pymysql.connect( host = '127.0.0.1', user ...
分类:
数据库 时间:
2020-06-21 23:37:55
阅读次数:
89
探索性数据分析——Profiling 可以快速预览数据 导入包: import pandas as pd import pandas_profiling 导入数据: data=pd.read_csv("model.csv") 或者hive_query 输出报告: pandas_profiling.P ...
分类:
其他好文 时间:
2020-06-21 23:21:42
阅读次数:
41
有时需要根据条件,访问DataFrame中的数据。例如,找出电影数据集中,某个导演的电影: # 加载数据 movies_df = pd.read_csv("IMDB-Movie-Data.csv", index_col="Title") movies_df.columns = ['rank', 'g ...
分类:
编程语言 时间:
2020-06-21 22:57:55
阅读次数:
81
describe 在整个DataFrame上使用describe(),我们可以得到一个统计结果: import pandas as pd # 加载数据 movies_df = pd.read_csv("IMDB-Movie-Data.csv", index_col="Title") movies_d ...
分类:
编程语言 时间:
2020-06-21 21:46:01
阅读次数:
81
以登录为例子 创建两个.yml文件 第一种用testsuite实现单接口的参数化 login.yml和testsuite.yml login文件内容: testsuit文件内容: 第二种csv实现参数化 ...
分类:
Web程序 时间:
2020-06-21 00:43:14
阅读次数:
77