Python的pandas库怎么使用？

Pandas库使用指南

Pandas是Python中一个强大的数据分析库，主要用于数据操作和分析。以下是Pandas的基本使用方法：

1. 安装与导入

pip install pandas  # 安装
import pandas as pd  # 导入

2. 数据结构

Series (一维数据)

s = pd.Series([1, 3, 5, np.nan, 6, 8])

DataFrame (二维表格)

# 从字典创建
df = pd.DataFrame({
    'A': 1.,
    'B': pd.Timestamp('20230101'),
    'C': pd.Series(1, index=list(range(4)), 
    'D': np.array([3] * 4, dtype='int32'),
    'E': pd.Categorical(["test", "train", "test", "train"]),
    'F': 'foo'
})

# 从CSV文件读取
df = pd.read_csv('filename.csv')

3. 基本操作

查看数据

df.head()  # 查看前5行
df.tail(3)  # 查看后3行
df.index  # 查看索引
df.columns  # 查看列名
df.describe()  # 统计摘要
df.T  # 转置

选择数据

df['A']  # 选择单列
df[0:3]  # 选择行
df.loc[0]  # 按标签选择行
df.iloc[0]  # 按位置选择行
df.at[0, 'A']  # 选择特定值
df.iat[0, 0]  # 按位置选择特定值
df[df.A > 0]  # 布尔索引

数据处理

df.dropna()  # 删除缺失值
df.fillna(value=5)  # 填充缺失值
df.isnull()  # 检查缺失值
df.apply(lambda x: x*2)  # 应用函数
df.sort_values(by='B')  # 排序
df.groupby('E').sum()  # 分组聚合

数据合并

pd.concat([df1, df2])  # 连接
pd.merge(left, right, on='key')  # 合并
df.join(other, on='key')  # 连接

输入输出

df.to_csv('foo.csv')  # 保存到CSV
df.to_excel('foo.xlsx')  # 保存到Excel
pd.read_excel('foo.xlsx')  # 读取Excel

4. 时间序列处理

dates = pd.date_range('20230101', periods=6)  # 创建日期范围
ts = pd.Series(np.random.randn(6), index=dates)  # 时间序列
ts.shift(2)  # 移动数据
ts.resample('D').mean()  # 重采样

5. 可视化

df.plot()  # 基本绘图
df.plot.scatter(x='A', y='B')  # 散点图
df.plot.hist(alpha=0.5)  # 直方图

这只是Pandas的基础功能，Pandas还支持更复杂的数据处理和分析操作。建议查阅官方文档了解更多高级用法。

Pandas库使用指南

1. 安装与导入

2. 数据结构

Series (一维数据)

DataFrame (二维表格)

3. 基本操作

查看数据

选择数据

数据处理

数据合并

输入输出

4. 时间序列处理

5. 可视化

相关推荐：