前言
一个项目需要处理比较大量的Excel数据,正好找了个教程学习一下,顺便就当是记录+翻译了。
原始网址:https://www.dataquest.io/blog/excel-and-pandas/
简单使用
跳过安装这个库和相关的依赖库的过程。
1 | import pandas as pd |
首先要操作excel,自然是得找到那个Excel文件,然后Excel文件有sheet表格,这里可以看到用三个对象分别代表这三个sheet表格。这几个对象都是DataFrame对象。
然后就可以通过DataFrame对象来访问表格的数据了。
处理数据
读取某个特定的值
现在就可以通过这个DataFrame对象来获取数据了,比如movie_sheet1['Title'][0]就会返回在Title列下边的第一个元素的值。
读取整行
可以通过data=movie_sheet1.iloc[0].values获取一行的数据,这里注意,第0行是从Excel表格里面的第2行开始的。
也可以通过一次来读取多行:data = movie_sheet1.iloc[[0, 1, 7]].values
读取整列
而如果你要读取一整列的话,只需要data = movie_sheet1['Title'].values
排序
如果要排序的话,只需要指定排序的列名就行:movie_sheet.sort_values(['Gross Earnings'], ascending=False)