如何使用 Python 和 Pandas 进行数据清洗?

如何使用 Python 和 Pandas 进行数据清洗?

数据清洗步骤:

  1. 导入库
  2. 读取数据
  3. 数据预处理
  4. 数据清洗
  5. 保存结果

代码示例:

import pandas as pd

# 导入库
data = pd.read_csv("data.csv")

# 读取数据
print(data.head())

# 数据预处理
data["age"] = data["age"].fillna(25)
data["salary"] = data["salary"].fillna(10000)

# 数据清洗
data.dropna(inplace=True)
data["country"] = data["country"].str.lower()

# 保存结果
print(data.to_csv("cleaned_data.csv", index=False))

其他方法:

  • **筛选:**使用 lociloc索引选择数据。
  • **分组:**使用 groupby分组数据并进行处理。
  • **分组统计:**使用 describeagg函数进行数据统计。
  • **数据转换:**使用 astypefillna函数进行数据转换。

注意:

  • 数据清洗是一个迭代过程,需要逐步进行。
  • 确保数据格式正确,以便进行数据清洗。
  • 可以使用其他库,例如 numpymatplotlib,进行数据可视化。
相似内容
更多>