Pandas图鉴：Series 和 Index

2023年 8月 9日数据运维剑圣无痕

Pandas[1]是用Python分析数据的工业标准。只需敲几下键盘，就可以加载、过滤、重组和可视化数千兆字节的异质信息。它建立在NumPy库的基础上，借用了它的许多概念和语法约定，所以如果你对NumPy很熟悉，你会发现Pandas是一个相当熟悉的工具。即使你从未听说过NumPy，Pandas也可以让你在几乎没有编程背景的情况下轻松拿捏数据分析问题。

Pandas 给 NumPy 数组带来的两个关键特性是：

异质类型 —— 每一列都允许有自己的类型

索引 —— 提高指定列的查询速度

事实证明，这些功能足以使Pandas成为Excel和数据库的强大竞争者。

Polars[2]是Pandas最近的转世（用Rust编写，因此速度更快，它不再使用NumPy的引擎，但语法却非常相似，所以学习 Pandas 后对学习 Polars 帮助非常大。

Pandas 图鉴系列文章由四个部分组成：

Part 1. Motivation：Pandas图鉴(一)：Pandas vs Numpy
Part 2. Series and Index
Part 3. DataFrames
Part 4. MultiIndex

我们将拆分成四个部分，依次呈现～建议关注和星标@公众号：数据STUDIO，精彩内容等你来～

Part 2. Series 和 Index

Series剖析

Series是NumPy中一维数组的对应物，是DataFrame代表其列的基本构件。尽管与DataFrame相比，它的实际重要性正在减弱（你完全可以在不知道Series是什么的情况下解决很多实际问题），但如果不先学习Series和Index，可能很难理解DataFrame的工作原理。

在内部，Series将数值存储在一个普通的NumPy向量中。因此，它继承了它的优点（紧凑的内存布局，快速的随机访问）和缺点（类型同质性，缓慢的删除和插入）。在此基础上，可以通过标签访问Series的值，使用一个叫做index的类似数字的结构。标签可以是任何类型的（通常是字符串和时间戳）。它们不需要是唯一的，但唯一性是提高查询速度所需要的，并且在许多操作中都是假定的。

图片

现在每个元素都可以用两种方式来处理：通过label（=使用索引）和通过position（=不使用索引）：

图片

按位置寻址by position 有时被称为 by positional index，这只是增加了混乱。

很明显，一对方括号是不够的。特别是：

s[2:3]不是解决2号元素的最方便方式
如果标签恰好是整数，s[1:3]就变得模糊不清。它可能是指标签1到3（含）或位置指数1到3（不含）。

为了解决这些问题，Pandas又有两种方括号的 “口味”：

图片

.loc[]总是使用标签并包括区间的两端；
.iloc[]总是使用位置索引，并排除了右端。

在这里使用方括号而不是小括号的目的是为了获得方便的Python切分：可以使用一个单冒号或双冒号，其含义是熟悉的start:stop:step。缺失的 start（end）就是从系列的开始（到结束）。步骤参数允许用s.iloc[::2]来引用偶数行，用s[‘Paris’:’Oslo’:-1]来获取反向顺序的元素。

它们还支持布尔索引（用布尔数组进行索引），如该图所示：

Series.isin(), Series.between()

而可以在这张图片中看到他们是如何支持 “花式索引” 的（用整数阵列进行索引）：

图片

由于某些原因，Series没有一个漂亮的富文本外观，所以与DataFrame相比，看似比较低级：

图片

这里对Series进行稍加修饰，使其看起来更好，如下图所示：

图片

竖线意味着这是一个Series，而不是一个DataFrame。

也可以用pdi.sidebyside(obj1, obj2, …)来并排显示几个系列或DataFrames：

图片

pdi（代表pandas illustrated）是github上的一个开源库pdi[3]，具有本文的这个和其他功能。安装非常方便：

pip install pandas-illustrated

索引

负责通过标签获取系列元素（以及DataFrame的行和列）的对象被称为索引。索引速度很快：无论有5个元素还是50亿个元素，都可以在一定的时间内得到结果。

索引是一个真正的多态对象。默认情况下，当创建一个没有索引参数的Series（或DataFrame）时，它初始化为一个类似于Python的range()的惰性对象。就像range()一样，它几乎不使用任何内存，并提供与位置索引相吻合的标签。

现在创建一个有一百万个元素的系列：

>>> s = pd.Series(np.zeros(10**6))
>>> s.index
RangeIndex(start=0, stop=1000000, step=1)
>>> s.index.memory_usage() # 字节数
128 # 与Series([0.])的情况相同

现在，如果删除一个元素，索引就会隐含地变形为一个类似口令的结构，如下所示：

>>> s1 = s.drop(1)
>>> s1.index
Int64Index([ 0, 2, 3, 4, 5, 6, 7、
      ...
      999993, 999994, 999995, 999996, 999997, 999998, 999999],
      dtype='int64', length=999999)
>>> s1.index.memory_usage()
7999992

这个结构消耗了8Mb的内存!，为了避免这种情况，并回到轻量级的类似范围的结构，我们写下：

>>> s2 = s1.reset_index（drop=True）。
>>> s2.index
RangeIndex(start=0, stop=999999, step=1)
>>> s2.index.memory_usage()
128

如果你是Pandas的新手，你可能会想为什么Pandas不自己做呢？对于非数字标签来说，这有点显而易见：为什么（以及如何）Pandas在删除一行后，会重新标记所有后续的行？对于数字标签，答案就有点复杂了。

首先，Pandas 纯粹通过位置来引用行，所以如果想在删除第3行之后再去找第5行，可以不用重新索引（这就是iloc的作用）。

第二，保留原始标签是一种与过去某个时刻保持联系的方式，就像 “保存游戏” 按钮。如果你有一个有一百列和一百万行的大表，需要找到一些数据。你逐一进行了几次查询，每次都缩小了搜索范围，但只看了列的一个子集，因为同时看到所有的一百个字段是不现实的。现在你已经找到了目标行，想看到原始表中关于它们的所有信息。一个数字索引可以帮助你立即得到它。

从原理上讲，如下图所示：

图片

一般来说，需要保持索引值的唯一性。例如，在索引中存在重复的值时，查询速度的提升并不会提升。Pandas没有像关系型数据库那样的 “唯一约束”（该功能[4]仍在试验中），但它有一些函数来检查索引中的值是否唯一，并以各种方式删除重复值。

有时，但一索引不足以唯一地识别某行。例如，同名的城市有时碰巧出现在不同的国家，甚至在同一个国家的不同地区。因此，（城市，州）是一个比单独的城市更适合识别一个地方的候选者。在数据库中，它被称为 “复合主键”。在Pandas中，它被称为MultiIndex（第4部分），索引内的每一列都被称为level。

索引的另一个重要特性是它是不可改变的。与DataFrame中的普通列相比，你不能就地修改它。索引中的任何变化都涉及到从旧的索引中获取数据，改变它，并将新的数据作为一个新的索引重新连接起来。例如，要将列名就地转换为字符串（节省内存），可以写df.columns = df.columns.astype(str)，或者不就地转换（对链式方法有用）df.set_axis(df.columns.astype(str), axis=1)。但正是由于不可更改性，不允许只写df.City.name = ‘city’，所以必须借助于df.rename(columns={‘City’: ‘city’})。

索引有一个名字（在MultiIndex的情况下，每一层都有一个名字）。而这个名字在Pandas中没有被充分使用。一旦在索引中包含了列，就不能再使用方便的df.column_name符号了，而必须恢复到不太容易阅读的df.index或者更通用的df.loc[]。有了MultiIndex。df.merge–可以用名字指定要合并的列，不管这个列是否属于索引。

按值查找元素

考虑以下Series对象：

图片

索引提供了一种快速而方便的方法，可以通过标签找到一个值。但是，通过值来寻找标签呢？

s.index[s.tolist().find(x)] # 对于len(s) 1000，速度更快

pdi中有一对包装器，叫做find()和findall()，它们速度快（因为它们根据Series的大小自动选择实际的命令），而且更容易使用。

如下代码所示：

>>> import pdi
>>> pdi.find(s, 2)
'penguin'
>>> pdi.findall(s, 4)
Index(['cat', 'dog'], dtype='object')

缺失值

Pandas使用者对缺失值特别关注。通常情况下，可以通过向read_csv提供一个标志来接收一个带有NaN的DataFrame。否则，可以在构造函数或赋值运算符中使用None（尽管对于不同的数据类型，它的实现方式略有不同），例如：

图片

对于NaN，可以做的第一件事是了解是否有任何NaN。从上图可以看出，isna()产生一个布尔数组，而.sum()给出缺失值的总数。

现在你知道它们的存在，可以选择通过删除、用常量值填充或插值来摆脱它们，如下所示：

fillna(), dropna(), interpolate()

另一方面，可以继续使用它们。大多数Pandas函数都会忽略缺失的值：

图片

更高级的函数（median, rank, quantile等）也是如此。

算术操作是根据索引来调整的：

图片

在索引中存在非唯一值的情况下，其结果是不一致的。不要对具有非唯一索引的系列使用算术运算。

比较

对有缺失值的数组进行比较可能很棘手。这里有一个例子：

>>> np.all(pd.Series([1., None, 3.]) ==
      pd.Series([1., None, 3.]))
False
>>> np.all(pd.Series([1, None, 3], dtype='Int64') ==
      pd.Series([1, None, 3], dtype='Int64'))
True
>>> np.all(pd.Series(['a', None, 'c']) ==
      pd.Series(['a', None, 'c']))
False

为了正确地进行比较，NaN需要被替换成保证在数组中缺少的东西。例如，用”、-1或∞：

>>> np.all(s1.fillna(np.inf) == s2.fillna(np.inf))  #对所有的dtypes都有效
True

或者更好的是，使用标准的NumPy或Pandas比较函数：

>>> s = pd.Series([1., None, 3.])
>>> np.array_equal(s.value, s.value, equal_nan=True)
True
>>> len(s.compare(s)) == 0
True

这里，比较函数返回一个差异列表（实际上是一个DataFrame），而array_equal直接返回一个布尔值。

当比较混合类型的DataFrame时，NumPy就会出问题（问题#19205[5]），而Pandas做得非常好。下面是这一情况：

>>> df = pd.DataFrame({'a': [1., None, 3.], 'b': ['x', None, 'z']})
>>> np.array_equal(df.values, df.values, equal_nan=True)
TypeError

>>> len(df.compare(df)) == 0
True

添加、插入、删除

尽管系列对象应该是大小不可变的，但有可能在原地追加、插入和删除元素，但所有这些操作都是：

缓慢，因为它们需要为整个对象重新分配内存并更新索引；
痛苦的不方便。

下面是插入数值的一种方式和删除数值的两种方式：

图片

第二种删除值的方法（通过删除）比较慢，而且在索引中存在非唯一值的情况下可能会导致复杂的错误。

Pandas有df.insert方法，但它只能将列（而不是行）插入到数据框架中（而且对序列根本不起作用）。

另一种追加和插入的方法是用iloc对DataFrame进行切片，应用必要的转换，然后用concat把它放回去。pdi中实现了一个叫做insert的函数，可以自动完成这个过程：

图片

注意，（就像在df.insert中一样）插入的位置是由0> s = pd.Series([1, 3, 20, 2, 10])
>>> for k, v in s.groupby(s//10, sort=False):
print(k, v.tolist())
0 [1, 3, 2]
2 [20]
1 [10]