十分钟搞定Pandas
1.创建对象
1 | 1.可以通过传递一个list对象来创建一个Series,pandas会默认创建整型索引 |
1 | # -*- coding: utf-8 -*- |

1 | 2.通过传递一个numpy array,时间索引以及列表标签来创建一个DataFrame |
1 | # -*- coding: utf-8 -*- |

1 | 3.通过传递一个能够被转换成类似序列结构的字典对象来创建一个DataFrame |
1 | # -*- coding: utf-8 -*- |

1 | 4.查看不同列的数据类型 |
1 | # -*- coding: utf-8 -*- |

1 | 5.如果你是用的是python,使用Tab自动补全功能会自动识别所有的属性以及自定义的列,下面是所有能够被自动识别属性的一个子集 |
1 | # -*- coding: utf-8 -*- |
2.查看数据
1 | 1.查看frame中头部和尾部的行 |
1 | # -*- coding: utf-8 -*- |

1 | 2.显示索引、列和底层的numpy数据 |
1 | # -*- coding: utf-8 -*- |

1 | 3.describe()函数对于数据快速统计汇总 |
1 | # -*- coding: utf-8 -*- |

1 | 4.对数据的转置 |
1 | # -*- coding: utf-8 -*- |

1 | 5.按轴进行排序 |
1 | # -*- coding: utf-8 -*- |

1 | 6.按值进行排序 |
1 | # -*- coding: utf-8 -*- |

3.选择
1 | 虽然标准的Python/Numpy的选择和设置表达式都能够直接派上用场,但是作为工程使用的代码,推荐使用经过优化的pandas数据访问范式:.at,.iat,.loc,.iloc和.ix |
3.1.获取
1 | 1.选择一个单独的列,这返回一个Series,等同于 |
1 | # -*- coding: utf-8 -*- |

1 | 2.通过[]进行选择,这将会对行进行切片 |
1 | # -*- coding: utf-8 -*- |

3.2.通过标签选择
1 | 1.使用标签来获取一个交叉的区域 |
1 | # -*- coding: utf-8 -*- |

1 | 2.通过标签来在多个轴上进行选择 |
1 | # -*- coding: utf-8 -*- |

1 | 3.标签切片 |
1 | # -*- coding: utf-8 -*- |

1 | 4.对于返回的对象进行维度缩减 |
1 | # -*- coding: utf-8 -*- |

1 | 5.获取一个标量 |
1 | # -*- coding: utf-8 -*- |

1 | 6.快速访问一个标量 |
1 | # -*- coding: utf-8 -*- |

3.3.通过位置选择
1 | 1.通过传递数值进行位置选择(选择的是行) |
1 | # -*- coding: utf-8 -*- |

1 | 2.通过数值进行切片 |
1 | # -*- coding: utf-8 -*- |

1 | 3.通过指定一个位置的列表,与numpy/python中的情况类似 |
1 | # -*- coding: utf-8 -*- |

1 | 4.对行进行切片 |
1 | # -*- coding: utf-8 -*- |

1 | 5.对列进行切片 |
1 | # -*- coding: utf-8 -*- |

1 | 6.获取特定的值 |
1 | # -*- coding: utf-8 -*- |

3.3.布尔索引
1 | 1.使用一个单独列的值来选择数据 |
1 | # -*- coding: utf-8 -*- |

1 | 2.使用where操作来选择数据 |
1 | # -*- coding: utf-8 -*- |

1 | 3.使用isin()方法来过滤 |
1 | # -*- coding: utf-8 -*- |

3.4.设置
1 | 1.设置一个新的列 |
1 | # -*- coding: utf-8 -*- |

1 | 2.通过标签设置新的值 |
1 | # -*- coding: utf-8 -*- |

1 | 3.通过位置设置新的值 |
1 | # -*- coding: utf-8 -*- |

1 | 4.通过一个numpy数值设置一组新值 |
1 | # -*- coding: utf-8 -*- |

1 | 5.通过where操作来设置新的值 |
1 | # -*- coding: utf-8 -*- |
4.缺失值处理
1 | 在pandas中,使用np.nan来代替缺失值,这些值默认不会包含在计算中 |
1 | 1.reindex()方法可以对执行轴上的索引进行改变/增加/删除操作,这将返回原始数据的一个拷贝 |
1 | 2.去掉包含缺失值的行 |
1 | 3.对缺失值进行填充 |
1 | 4.对数据进行布尔填充 |
5.统计
6.合并
7.分组
8.REshaping
9.时间序列
10.Categorical
11.画图
12.导入和保存数据
本文作者 : Matrix
原文链接 : https://matrixsparse.github.io/2016/05/22/十分钟搞定Pandas/
版权声明 : 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
知识 & 情怀 | 二者兼得