函数 | 作用 |
---|---|
df.value_counts() | 统计数据出现的次数或者频率 |
df.sort_values() | 按出现次数排序 |
df.sum() | 求和 |
df.groupby() | 分组统计 |
df.unique() | 统计不重复的数据个数 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 |
# 统计一个字段出现的次数或者频率 df = df['uid'].value_counts().reset_index(name='uid_count') ''' Args: ascending: 结果默认为降序排列,如果设置为True,则按照升序排列 normalize: 是否正则化,如果设置为True,则转化为比率 ''' # 按条件查询后后排序 相当于SQL的SELECT * FROM 'train_df' WHERE uid='u138120097' ORDER BY 'time' ASC train_df[train_df['uid']=='u138120097'].sort_values('time', axis=0, ascending=True, inplace=False) # 分组统计个数 h = g.groupby(['uid','1_count','uid_count','ratio']).size().reset_index(name='counts") |
参考
Pandas常用统计方法
https://blog.csdn.net/luckarecs/article/details/71627893