如何利用 Python 的 Pandas 库进行数据清洗?

如何利用 Python 的 Pandas 库进行数据清洗?

步骤:

  1. 导入 pandas 库
import pandas as pd
  1. 读取数据
# 读取 CSV 文件
data = pd.read_csv("your_file.csv")

# 读取 JSON 文件
data = pd.read_json("your_file.json")
  1. 数据清洗
  • **过滤数据:**使用 locquery 方法过滤数据。
  • **清理数据:**使用 dropfillna 方法清理数据。
  • **转换数据类型:**使用 astype 方法将数据类型转换为需要的格式。
  • **创建新的变量:**使用 pd.Seriespd.DataFrame 创建新的变量。
  1. 保存清洗后的数据
# 保存 CSV 文件
data.to_csv("cleaned_data.csv", index=False)

# 保存 JSON 文件
data.to_json("cleaned_data.json", indent=4)

示例:

import pandas as pd

# 读取 CSV 文件
data = pd.read_csv("data.csv")

# 过滤数据
data_filtered = data[data["age"] > 25]

# 清理数据
data_cleaned = data_filtered.dropna()

# 创建新的变量
data["age_group"] = data_cleaned["age"] // 10

# 保存清洗后的数据
data_cleaned.to_csv("cleaned_data.csv", index=False)

其他功能:

  • **数据合并:**使用 merge 方法合并数据。
  • **数据分组:**使用 groupby 方法对数据进行分组。
  • **数据分析:**使用 pandas 提供的各种分析函数进行数据分析。
相似内容
更多>