pandas分块读取大量数据集

时间：2020-06-04 23:11:26 阅读：154 评论：0 收藏：0 [点我收藏+]

两个参数：chunksize，iterator

1、chunksize

read_csv 和 read_table 有一个chunksize参数，用以指定一个块大小（每次读取多少行），返回一个可迭代的 TextFileReader 对象。

import pandas as pd
reader = pd.read_csv("pff_GEN_NUCHANGE.csv",chunksize=10000)
for df in reader :
    对df处理
    #如df.drop(columns=[‘GEN_id‘],axis=1,inplace=True)
    #print(type(df),df.shape)打印看一下信息

to_csv也同样有chunksize参数

2、iterator=True

import pandas as pd
reader = pd.read_csv("pff_GEN_NUCHANGE.csv", iterator=True)

loop = True
chunkSize = 100000
chunks = []
while loop:
    try:
        chunk = reader.get_chunk(chunkSize)
        chunks.append(chunk)
    except StopIteration:
        loop = False
        print ("Iteration is stopped.")
pff_AA_df = pd.concat(chunks, ignore_index=True)

pandas分块读取大量数据集

标签：bsp dex 迭代大小 panda app _id iter gen

原文地址：https://www.cnblogs.com/romangao/p/13047103.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行