如何使用 Python 编写一个机器学习模型可以用于文本分类?
- 导入必要的库。
- 定义数据集。
- 准备数据。
- 创建模型。
- 训练模型。
- 评估模型。
- 保存模型。
示例代码:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 导入数据集
data = pd.read_csv('text_classification_data.csv')
# 定义数据集
X = data['text']
y = data['label']
# 准备数据
vectorizer = TfidfVectorizer()
X_features = vectorizer.fit_transform(X)
# 创建模型
classifier = LogisticRegression()
classifier.fit(X_features, y)
# 训练模型
X_train, X_test, y_train, y_test = train_test_split(X_features, y, test_size=0.2)
classifier.fit(X_train, y_train)
# 评估模型
accuracy = accuracy_score(classifier.predict(X_test), y_test)
print('模型准确率:', accuracy)
# 保存模型
classifier.save('text_classifier.pkl')
注意:
- 您可以根据需要调整数据集和模型参数。
- 您可以使用其他文本分类算法,例如 Support Vector Machines (SVM) 或 Random Forest。
- 您可以使用不同的评估指标来评估模型性能,例如准确率、召回率和 F1 分数。