使用 Python 编写一个数据分析脚本对一个数据集进行分析例如计算数据集中不同变量之间的相关性或进行数据可视化?
import pandas as pd
# 加载数据
data = pd.read_csv("data.csv")
# 计算数据集中不同变量之间的相关性
corr = data.corr().corr().abs()
# 打印相关性矩阵
print(corr)
# 进行数据可视化
data.plot.scatter(x="variable1", y="variable2")
data.show()
数据准备
假设数据名为 data.csv
,包含一个名为 variable1
和 variable2
的变量。
运行脚本
- 将
data.csv
替换为实际的文件名。 - 运行脚本。
输出
该脚本将输出以下两项:
- 相关性矩阵,显示不同变量之间的相关性。
- 数据可视化,显示变量之间的关系。
示例数据
variable1,variable2
1,2
3,4
5,6
7,8
解释
-
corr()
函数计算数据集中所有变量对之间的相关性。 -
abs()
函数返回绝对值,确保结果是非负的。 -
print(corr)
打印相关性矩阵。 -
data.plot.scatter()
使用x
和y
变量来绘制变量之间的关系。 -
data.show()
显示可视化的图。