【 Python高级编程】Pythonz中Pandas表格读取与数据处理
Python中的Pandas表格读取与数据处理
Pandas 是 Python 中一个强大的数据处理与分析库,特别适合处理表格数据。本文将介绍如何使用 Pandas 读取表格文件并进行基本的数据处理操作。
一、读取表格数据
Pandas 可以读取多种格式的表格数据,常见的有 CSV、Excel、SQL 等。
1. 读取 CSV 文件
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('example.csv')
# 查看前5行数据
print(df.head())
2. 读取 Excel 文件
import pandas as pd
# 读取 Excel 文件
df = pd.read_excel('example.xlsx')
# 查看前5行数据
print(df.head())
二、基本数据处理操作
1. 查看数据结构
# 查看数据基本信息
print(df.info())
# 查看数据统计信息
print(df.describe())
2. 数据筛选与过滤
# 筛选特定列
df_filtered = df[['column1', 'column2']]
# 筛选满足条件的行
df_filtered = df[df['column1'] > 50]
# 查看筛选后的数据
print(df_filtered.head())
3. 数据清洗
# 处理缺失值
df_cleaned = df.dropna() # 删除包含缺失值的行
df_cleaned = df.fillna(0) # 用0填充缺失值
# 数据类型转换
df['column1'] = df['column1'].astype(int)
# 查看清洗后的数据
print(df_cleaned.head())
4. 数据聚合与分组
# 按列分组并计算均值
grouped_df = df.groupby('column1').mean()
# 查看分组后的数据
print(grouped_df)
5. 数据可视化
Pandas 可以结合 Matplotlib 进行简单的数据可视化。
import matplotlib.pyplot as plt
# 绘制柱状图
df['column1'].plot(kind='bar')
plt.show()
# 绘制折线图
df['column1'].plot(kind='line')
plt.show()
三、总结
通过本文的介绍,您了解了如何使用 Pandas 读取表格数据并进行基本的数据处理操作。Pandas 提供了丰富的功能,使得数据处理和分析变得简单高效。希望这些内容能帮助您更好地掌握 Pandas,提升数据处理能力。