1、统计回归所需处理的数据量可能非常大,必要时需对文件进行拆分或合并。
2、可以用 pandas2、将 Excel 文件分割为多个文件或合并。
将 Excel 文件分割为多个文件
# 将 Excel文件分割为多个文件 import pandas as pd dfData = pd.read_excel('./example.xls', sheetname='Sheet1') nRow, nCol = dfData.shape # 获取数据的行列 # 假设数据共有198,000行,分割为 20个文件,每个文件 10,000行 for i in range(0, int(nRow/10000)+1): saveData = dfData.iloc[i*10000+1:(i+1)*10000+1, :] # 每隔 10,000 fileName= './example_{}.xls'.format(str(i)) saveData.to_excel(fileName, sheet_name = 'Sheet1', index = False)
将多个Excel文件合并为一个文件
# 将多个 Excel 文件合并为一个文件 import pandas as pd ## 两个 Excel 文件合并 #data1 = pd.read_excel('./example0.xls', sheetname='Sheet1') #data2 = pd.read_excel('./example1.xls', sheetname='Sheet1') #data = pd.concat([data1, data2]) # 多个 Excel 文件合并 dfData = pd.read_excel('./example0.xls', sheetname='Sheet1') for i in range(1, 20): fileName = './example_{}.xls'.format(str(i)) dfNew = pd.read_excel(fileName) dfData = pd.concat([dfData, dfNew]) dfData.to_excel('./example', index = False)
本文链接:http://so.lmcjl.com/news/8560/