Pandas库使用指南
Pandas是Python中一个强大的数据分析库,主要用于数据操作和分析。以下是Pandas的基本使用方法:
1. 安装与导入
pip install pandas # 安装
import pandas as pd # 导入
2. 数据结构
Series (一维数据)
s = pd.Series([1, 3, 5, np.nan, 6, 8])
DataFrame (二维表格)
# 从字典创建
df = pd.DataFrame({
'A': 1.,
'B': pd.Timestamp('20230101'),
'C': pd.Series(1, index=list(range(4)),
'D': np.array([3] * 4, dtype='int32'),
'E': pd.Categorical(["test", "train", "test", "train"]),
'F': 'foo'
})
# 从CSV文件读取
df = pd.read_csv('filename.csv')
3. 基本操作
查看数据
df.head() # 查看前5行
df.tail(3) # 查看后3行
df.index # 查看索引
df.columns # 查看列名
df.describe() # 统计摘要
df.T # 转置
选择数据
df['A'] # 选择单列
df[0:3] # 选择行
df.loc[0] # 按标签选择行
df.iloc[0] # 按位置选择行
df.at[0, 'A'] # 选择特定值
df.iat[0, 0] # 按位置选择特定值
df[df.A > 0] # 布尔索引
数据处理
df.dropna() # 删除缺失值
df.fillna(value=5) # 填充缺失值
df.isnull() # 检查缺失值
df.apply(lambda x: x*2) # 应用函数
df.sort_values(by='B') # 排序
df.groupby('E').sum() # 分组聚合
数据合并
pd.concat([df1, df2]) # 连接
pd.merge(left, right, on='key') # 合并
df.join(other, on='key') # 连接
输入输出
df.to_csv('foo.csv') # 保存到CSV
df.to_excel('foo.xlsx') # 保存到Excel
pd.read_excel('foo.xlsx') # 读取Excel
4. 时间序列处理
dates = pd.date_range('20230101', periods=6) # 创建日期范围
ts = pd.Series(np.random.randn(6), index=dates) # 时间序列
ts.shift(2) # 移动数据
ts.resample('D').mean() # 重采样
5. 可视化
df.plot() # 基本绘图
df.plot.scatter(x='A', y='B') # 散点图
df.plot.hist(alpha=0.5) # 直方图
这只是Pandas的基础功能,Pandas还支持更复杂的数据处理和分析操作。建议查阅官方文档了解更多高级用法。