如何使用 Python 和 Pandas 进行数据清洗?
数据清洗步骤:
- 导入库
- 读取数据
- 数据预处理
- 数据清洗
- 保存结果
代码示例:
import pandas as pd
# 导入库
data = pd.read_csv("data.csv")
# 读取数据
print(data.head())
# 数据预处理
data["age"] = data["age"].fillna(25)
data["salary"] = data["salary"].fillna(10000)
# 数据清洗
data.dropna(inplace=True)
data["country"] = data["country"].str.lower()
# 保存结果
print(data.to_csv("cleaned_data.csv", index=False))
其他方法:
- **筛选:**使用
loc
和iloc
索引选择数据。 - **分组:**使用
groupby
分组数据并进行处理。 - **分组统计:**使用
describe
和agg
函数进行数据统计。 - **数据转换:**使用
astype
和fillna
函数进行数据转换。
注意:
- 数据清洗是一个迭代过程,需要逐步进行。
- 确保数据格式正确,以便进行数据清洗。
- 可以使用其他库,例如
numpy
和matplotlib
,进行数据可视化。