如何利用 Python 的 Pandas 库进行数据清洗?
步骤:
- 导入 pandas 库
import pandas as pd
- 读取数据
# 读取 CSV 文件
data = pd.read_csv("your_file.csv")
# 读取 JSON 文件
data = pd.read_json("your_file.json")
- 数据清洗
- **过滤数据:**使用
loc
或query
方法过滤数据。 - **清理数据:**使用
drop
或fillna
方法清理数据。 - **转换数据类型:**使用
astype
方法将数据类型转换为需要的格式。 - **创建新的变量:**使用
pd.Series
或pd.DataFrame
创建新的变量。
- 保存清洗后的数据
# 保存 CSV 文件
data.to_csv("cleaned_data.csv", index=False)
# 保存 JSON 文件
data.to_json("cleaned_data.json", indent=4)
示例:
import pandas as pd
# 读取 CSV 文件
data = pd.read_csv("data.csv")
# 过滤数据
data_filtered = data[data["age"] > 25]
# 清理数据
data_cleaned = data_filtered.dropna()
# 创建新的变量
data["age_group"] = data_cleaned["age"] // 10
# 保存清洗后的数据
data_cleaned.to_csv("cleaned_data.csv", index=False)
其他功能:
- **数据合并:**使用
merge
方法合并数据。 - **数据分组:**使用
groupby
方法对数据进行分组。 - **数据分析:**使用 pandas 提供的各种分析函数进行数据分析。