使用pandas进行数据可视化和探索性数据分析的技巧及方法
如何使用pandas进行数据可视化和探索性分析
导语:在数据分析的过程中,可视化和探索性分析是不可或缺的环节。pandas是Python中一个非常强大的数据分析库,除了具有数据处理功能外,还提供了一系列用于数据可视化和探索性分析的工具。本文将介绍如何使用pandas进行数据可视化和探索性分析,并给出具体的代码示例。
一、数据可视化1.折线图折线图是一种常用的数据可视化方法,可用于展示数据随时间的变化趋势。使用pandas绘制折线图非常简单,只需要调用DataFrame的plot方法即可。下面是一个示例代码:
import pandas as pd 1. 创建一个DataFrame data = {'日期': ['2020-01-01', '2020-01-02', '2020-01-03', '2020-01-04'], '销售额': [100, 200, 150, 180]} df = pd.DataFrame(data) 1. 将日期列转换成日期类型 df['日期'] = pd.to_datetime(df['日期']) 1. 设置日期列为索引 df.set_index('日期', inplace=True) 1. 绘制折线图 df.plot()登录后复制
import pandas as pd 1. 创建一个DataFrame data = {'城市': ['北京', '上海', '广州', '深圳'], '人口': [2152, 2424, 1348, 1303]} df = pd.DataFrame(data) 1. 设置城市列为索引 df.set_index('城市', inplace=True) 1. 绘制柱状图 df.plot(kind='bar')登录后复制
import pandas as pd 1. 创建一个DataFrame data = {'体重': [65, 75, 58, 80, 68], '身高': [175, 180, 160, 190, 170]} df = pd.DataFrame(data) 1. 绘制散点图 df.plot.scatter(x='身高', y='体重')登录后复制
import pandas as pd 1. 创建一个DataFrame data = {'姓名': ['张三', '李四', '王五', '赵六'], '年龄': [18, 20, 22, 24], '身高': [170, 175, 180, 185]} df = pd.DataFrame(data) 1. 输出年龄的平均值、中位数、最小值、最大值等统计量 print('平均年龄:', df['年龄'].mean()) print('年龄中位数:', df['年龄'].median()) print('最小年龄:', df['年龄'].min()) print('最大年龄:', df['年龄'].max())登录后复制
import pandas as pd 1. 创建一个DataFrame data = {'体重': [65, 75, 58, 80, 68], '身高': [175, 180, 160, 190, 170]} df = pd.DataFrame(data) 1. 计算体重和身高的相关系数和协方差 print('相关系数:', df['体重'].corr(df['身高'])) print('协方差:', df['体重'].cov(df['身高']))登录后复制
import pandas as pd import numpy as np 1. 创建一个包含缺失值的DataFrame data = {'姓名': ['张三', '李四', np.nan, '赵六'], '年龄': [18, 20, np.nan, 24]} df = pd.DataFrame(data) 1. 判断哪些值是缺失值 print(df.isnull()) 1. 填充缺失值 df.fillna(0, inplace=True) 1. 删除包含缺失值的行 df.dropna(inplace=True)登录后复制
以上就是使用pandas进行数据可视化和探索性数据分析的技巧及方法的详细内容,更多请关注每日运维网(www.mryunwei.com)其它相关文章!