使用 Python 编写一个机器学习模型例如支持向量机或决策树用于进行模型集成?
代码示例:
import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# Load the data
data = pd.read_csv('data.csv')
# Split the data into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(data.drop('target', axis=1), data['target'], test_size=0.2, random_state=42)
# Create a Random Forest classifier
classifier = RandomForestClassifier()
# Train the classifier
classifier.fit(X_train, y_train)
# Evaluate the classifier on the testing set
accuracy = accuracy_score(classifier.predict(X_test), y_test)
print('Accuracy:', accuracy)
# Save the trained classifier
classifier.save('my_model.h5')
解释:
- 数据加载:使用 pandas 读取数据并将其转换为 NumPy 数据框。
-
数据分割:使用
train_test_split
函数将数据分为训练集 (80%) 和测试集 (20%)。 - 模型创建:创建一个随机森林分类器实例。
-
训练模型:使用
fit
方法训练模型。 -
测试模型:使用
predict
方法对测试集进行预测。 - 评估模型:计算测试集上的准确率。
-
保存模型:将训练好的模型保存为
my_model.h5
文件。
注意:
-
data.drop('target', axis=1)
将删除数据中的 'target' 列。 -
train_test_split
函数默认使用随机分隔,因此每次运行模型可能会得到不同的训练集和测试集。 -
accuracy_score
函数返回模型在测试集上的准确率。 - 可以根据需要修改模型参数,例如树的深度或数量。