Python Pandas开发：DataFrame如何实现分组后组内多列累加？

2023年 7月 11日开发运维大猫

Python进行项目上的工具开发，在用到Pandas这个包时，发现其groupby功能真的逆天，相比sas而言，代码上真的简化很多，而且我认为从原理上来说，其groupby相当于实现了并行功能，就是各组同时在进行数据处理，顺序不分先后。相比sas的永远row by row处理，在速度上理论上是要快很多的。

对于Pandas的groupby，其能够实现各种描述统计mean、sum或者取first或者head取前几行这些功能，我觉得这个并没有惊艳到我。

让我惊叹的是它的apply功能，可以涵盖对Pandas groupby之后的任何组内处理，尤其是涉及到上下行的关联处理时，也可以直接通过自定义函数来实现。

例如，本次分享下Python是如何通过Pandas的groupby实现组内的多个列累加，也就是在groupby后的每一个组内，每一行的结果都是之前所有行结果的和。

从实现逻辑上来讲，这个并不复杂。首先给一个SAS的处理示范代码：

data want;  set template;  by groupbyvar;  retain sum1-sum2 0;  if first.groupbyvar then d0;sum1=var1;sum2=var2;end;  else do;sum1=sum1+var1;sum2=sum2+var2;end; run;

SAS处理一般正常就是首先by之后通过first语句赋值var1给sum1赋值var2给sum2，然后通过retain实现var1和var2累加，最后得到新的变量sum1和sum2。