PYTHON用决策树分类预测糖尿病和可视化实例

2024-08-02 04:46:18

原文链接：http://tecdat.cn/?p=23848

决策树是对例子进行分类的一种简单表示。它是一种有监督的机器学习技术，数据根据某个参数被连续分割。决策树分析可以帮助解决分类和回归问题。

决策树算法将数据集分解成更小的子集；同时，相关的决策树也在逐步发展。决策树由节点（测试某个属性的值）、边/分支（对应于测试的结果并连接到下一个节点或叶子）和叶子节点（预测结果的终端节点）组成，使其成为一个完整的结构。

在这篇文章中，我们将学习Python中决策树的实现，使用scikit learn包。

对于我们的分析，我们选择了一个非常相关和独特的数据集，该数据集适用于医学科学领域，它将有助于预测病人是否患有糖尿病，基于数据集中采集的变量。这些信息来自国家糖尿病、消化道和肾脏疾病研究所，包括预测变量，如病人的BMI、怀孕情况、胰岛素水平、年龄等。让我们直接用决策树算法来解决这个问题，进行分类。

用Python实现决策树

对于任何数据分析问题，我们首先要清理数据集，删除数据中的所有空值和缺失值。在这种情况下，我们不是在处理错误的数据，这使我们省去了这一步。

1. 为我们的决策树分析导入所需的库并拉入所需的数据

# 加载库
from sklearn.model\_selection import train\_test\_split #导入 train\_test_split 函数
from sklearn import metrics #导入scikit-learn模块以计算准确率

# 载入数据集
data = pd.read\_csv("diabetes.csv", header=None, names=col\_names)

让我们看看这个数据集的前几行是什么样子的

pima.head()

2. 在加载数据后，我们了解结构和变量，确定目标变量和特征变量（分别为因变量和自变量）。

#在特征和目标变量中拆分数据集
X = pima\[feature\] # 特征
y = pima.label # 目标变量

3. 我们把数据按70:30的比例分成训练集和测试集。

# 将数据集分成训练集和测试集
train\_test\_split(X, y, test\_size=0.3, random\_state=1) # 70%的训练和30%的测试

标准做法，你可以根据需要调整70:30至80:20。

点击标题查阅往期内容

R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

左右滑动查看更多

4. 使用scikit learn进行决策树分析

# 创建决策树分类器对象
clf = DecisionTreeClassifier()

5. 估计分类器预测结果的准确程度。准确度是通过比较实际测试集值和预测值来计算的。

# 模型准确率，分类器正确的概率是多少？
print("准确率:",metrics.accuracy\_score(y\_test, y_pred))

我们的决策树算法有67.53%的准确性。这么高的数值通常被认为是好的模型。

6. 现在我们已经创建了一棵决策树，看看它在可视化的时候是什么样子的

决策树的可视化。

Image(graph.create_png())

Python输出

你会注意到，在这个决策树图中，每个内部节点都有一个分割数据的决策规则。

衡量通过决策树分析创建的节点的不纯度

Gini指的是Gini比，衡量决策树中节点的不纯度。人们可以认为，当一个节点的所有记录都属于同一类别时，该节点是纯的。这样的节点被称为叶子节点。

在我们上面的结果中，由于结果的复杂性，完整的决策树很难解释。修剪一棵树对于结果的理解和优化它是至关重要的。这种优化可以通过以下三种方式之一进行。

标准：默认="gini"
splitter：字符串，可选（默认="best"）或分割策略。选择分割策略。可以选择 "best"来选择最佳分割，或者选择 "random"来选择最佳随机分割。
max_depth: int或None，可选（默认=None）或树的最大深度
这个参数决定了树的最大深度。这个变量的数值越高，就会导致过度拟合，数值越低，就会导致拟合不足。

在我们的案例中，我们将改变树的最大深度作为预修剪的控制变量。让我们试试max_depth=3。

# 创建决策树分类器对象
DecisionTree( max_depth=3)

在Pre-pruning上，决策树算法的准确率提高到77.05%，明显优于之前的模型。

决策树在Python中的实现

Image(graph.create_png())

结果：

Python输出

这个修剪过的模型的结果看起来很容易解释。有了这个，我们就能够对数据进行分类，并预测一个人是否患有糖尿病。但是，决策树并不是你可以用来提取这些信息的唯一技术，你还可以探索其他各种方法。

（数据科学学习手札26）随机森林分类器原理详解&Python与R实现

转自博客园一.简介作为集成学习中非常著名的方法,随机森林被誉为"代表集成学习技术水平的方法",由于其简单.容易实现.计算开销小,使得它在现实任务中得到广泛使用,因为其来源于决 ...
读书笔记-（统计学习）

统计学习方法第一章, 概论 1. 统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析的一门学科(统计机器学习):人工智能:感知.处理.反馈网络:研究对象是数据,研究方法是概率统计模 ...
人工智能科普｜初学者如何规划机器学习的路径？

书山有路勤为径,在学习进修的道路上,正确的路径比埋头勤奋要重要的多. 最近两年AI在线学习和教育呈喷涌式发展,机器学习的培训课程也是层出不穷,专业的教育和课程固然重要,但在这个过程中最关键的是如何规划 ...
决策树的高级概述

这篇文章将作为决策树的高级概述.它将涵盖决策树如何训练,与"信息增益"和"基尼指数"相关信息.我还将进行超参数调整和决策树剪枝以进行优化.本文介绍的两种决策树算 ...
ML：基于自定义数据集利用Logistic、梯度下降算法GD、LoR逻辑回归、Perceptron感知器、SVM支持向量机、LDA线性判别分析算法进行二分类预测(决策边界可视化)

ML:基于自定义数据集利用Logistic.梯度下降算法GD.LoR逻辑回归.Perceptron感知器.支持向量机(SVM_Linear.SVM_Rbf).LDA线性判别分析算法进行二分类预测(决策 ...
ML之分类预测：以六类机器学习算法(kNN、逻辑回归、SVM、决策树、随机森林、提升树、神经网络)对糖尿病数据集(8→1)实现二分类模型评估案例来理解和认知机器学习分类预测的模板流程

ML之分类预测:以六类机器学习算法(kNN.逻辑回归.SVM.决策树.随机森林.提升树.神经网络)对糖尿病数据集(8→1)实现二分类模型评估案例来理解和认知机器学习分类预测的模板流程相关文章 ML之 ...
Python中用PyTorch机器学习神经网络分类预测银行客户流失模型

原文链接:http://tecdat.cn/?p=8522 分类问题属于机器学习问题的类别,其中给定一组特征,任务是预测离散值.分类问题的一些常见示例是,预测肿瘤是否为癌症,或者学生是否可能通过考试. ...
ML之分类预测：基于sklearn库的七八种机器学习算法利用糖尿病(diabetes)数据集(8→1)实现二分类预测

ML之分类预测:基于sklearn库的七八种机器学习算法利用糖尿病(diabetes)数据集(8→1)实现二分类预测输出结果数据集展示输出结果 1.k-NN k-NN:Accuracy of K ...
Keras之DNN：利用DNN【Input(8)→(12+8)(relu)→O(sigmoid)】模型实现预测新数据(利用糖尿病数据集的八个特征进行二分类预测

Keras之DNN:利用DNN[Input(8)→(12+8)(relu)→O(sigmoid)]模型实现预测新数据(利用糖尿病数据集的八个特征进行二分类预测输出结果 [1.0, 0.0, 1.0, ...
Keras之MLP：利用MLP【Input(8)→(12)(relu)→O(sigmoid+二元交叉)】模型实现预测新数据(利用糖尿病数据集的八个特征实现二分类预测

Keras之MLP:利用MLP[Input(8)→(12)(relu)→O(sigmoid+二元交叉)]模型实现预测新数据(利用糖尿病数据集的八个特征实现二分类预测输出结果实现代码 # load ...
ML之Xgboost：利用Xgboost模型对数据集(比马印第安人糖尿病)进行二分类预测(5年内是否患糖尿病)

ML之Xgboost:利用Xgboost模型对数据集(比马印第安人糖尿病)进行二分类预测(5年内是否患糖尿病) 输出结果 X_train内容: [[ 3. 102. 44. ... 30.8 0.4 ...
ML之Xgboost：利用Xgboost模型(7f-CrVa+网格搜索调参)对数据集(比马印第安人糖尿病)进行二分类预测

ML之Xgboost:利用Xgboost模型(7f-CrVa+网格搜索调参)对数据集(比马印第安人糖尿病)进行二分类预测输出结果设计思路核心代码 grid_search = GridSearch ...
ML之xgboost：利用xgboost算法(自带,特征重要性可视化+且作为阈值训练模型)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测)

ML之xgboost:利用xgboost算法(自带,特征重要性可视化+且作为阈值训练模型)训练mushroom蘑菇数据集(22+1,6513+1611)来预测蘑菇是否毒性(二分类预测) 输出结果后期 ...

PYTHON用决策树分类预测糖尿病和可视化实例

原文链接：http://tecdat.cn/?p=23848

用Python实现决策树

Python输出

衡量通过决策树分析创建的节点的不纯度

Python输出

相关推荐