pandas处理excel简单记录

前言

一个项目需要处理比较大量的Excel数据，正好找了个教程学习一下，顺便就当是记录+翻译了。

原始网址：https://www.dataquest.io/blog/excel-and-pandas/

简单使用

跳过安装这个库和相关的依赖库的过程。

import pandas as pd

excel_file = 'movies.xls'
try:
    movie_sheet1 = pd.read_excel(excel_file, sheet_name="1900s")
    movie_sheet2 = pd.read_excel(excel_file, sheet_name="2000s")
    movie_sheet3 = pd.read_excel(excel_file, sheet_name="2010s")
except FileNotFoundError as e:
    print("file not found")

print(type(movie_sheet1))

首先要操作excel，自然是得找到那个Excel文件，然后Excel文件有sheet表格，这里可以看到用三个对象分别代表这三个sheet表格。这几个对象都是DataFrame对象。

然后就可以通过DataFrame对象来访问表格的数据了。

处理数据

读取某个特定的值

现在就可以通过这个DataFrame对象来获取数据了，比如movie_sheet1['Title'][0]就会返回在Title列下边的第一个元素的值。

读取整行

可以通过data=movie_sheet1.iloc[0].values获取一行的数据，这里注意，第0行是从Excel表格里面的第2行开始的。

也可以通过一次来读取多行：data = movie_sheet1.iloc[[0, 1, 7]].values

读取整列

而如果你要读取一整列的话，只需要data = movie_sheet1['Title'].values

排序

如果要排序的话，只需要指定排序的列名就行：movie_sheet.sort_values(['Gross Earnings'], ascending=False)