本文最后更新于 637 天前，其中的信息可能已经过时，如有错误请发送邮件到wuxianglongblog@163.com

数据的读写

Pandas模块能够读写很多格式的数据，如CSV、EXCEL、SQL、JSON、HTML,SAS，PICKLE等。在Pandas中，文件通常使用类似pd.read_xxx()形式的函数进行读取，并使用类似.to_xxx()形式的方法进行写入。

例如：

import numpy as np

import pandas as pd

df = pd.DataFrame(np.random.randn(3, 5),
                  index=list("abc"),
                  columns=list("ABCDE"))

df

可以使用.to_csv()方法将它保存为CSV文件：

df.to_csv("foo.csv")

CSV文件可以用pd.read_csv()函数读取：

pd.read_csv("foo.csv")

	Unnamed: 0	A	B	C	D	E
0	a	-0.020062	-0.599706	0.277161	0.080379	-0.646617
1	b	1.438798	-1.000701	0.091833	-0.112943	0.860176
2	c	-0.171525	1.093374	0.501429	-1.123508	-0.930662

与原来的DataFrame对象相比，读取到的对象多了Unnamed:0的列，它是原来DataFrame对象的行标记。在保存的时候，Pandas默认会保存行标记和列标记的值；在读取时，Pandas并不知道这一列是行标记，所以会将其当做普通的数据列读取出来。

为了解决这个问题，可以在读取时，使用参数index_col指定行标记所在的列：

pd.read_csv("foo.csv", index_col=0)

也可以在保存的时候，忽略行标记：

df.to_csv("foo.csv", index=False)

pd.read_csv("foo.csv")

其它类型文件的读写方法类似，在具体参数上可能会有一些不同，常用的方法有：

值得注意的是，读写EXCEL时，需要调用一些额外的模块，如xlrd、xlwt、openpyxl等，如果系统没有按照这些模块，需要额外通过pip或者conda安装。

%rm foo.csv

发送评论编辑评论

发送评论 编辑评论