Python ROC曲线的详细阐述

在分类问题中，判断一个模型的好坏需要使用各种指标来评估，而ROC曲线是其中一个非常重要的评估指标。本文将从多个方面对Python中的ROC曲线进行详细阐述。

一、ROC曲线概述

ROC曲线全称为接收者操作特征曲线(Receiver Operating Characteristic Curve)，是反映二元分类模型在不同阈值下的真正率(TRP)和假正率(FRP)之间的关系曲线。在横坐标上绘制的是FRP，纵坐标上绘制的TRP，ROC曲线的斜率越大，表示该模型分类效果越好。


# 绘制ROC曲线方法1：
from sklearn.metrics import roc_curve, auc

fpr, tpr, thresholds  = roc_curve(y_test, y_score) # y_test 为真实值， y_score 为模型输出的预测值
roc_auc = auc(fpr, tpr)

plt.plot(fpr, tpr, lw=1, label='ROC (area = %0.2f)' % (roc_auc))
plt.legend(loc='best')
plt.show()

上述代码使用sklearn.metrics的roc_curve和auc函数计算出了真正率(TRP)和假正率(FRP)以及曲线下方的面积(AUC)，并使用matplotlib库将ROC曲线可视化。

二、ROC曲线参数

对于一条ROC曲线，除了面积(AUC)以外，还有几个参数需要了解。

1. 垂直距离(d)

垂直距离表示一组CR和FA的距离，即|CR-FA|。

2. 斜率(S)

斜率表示以各个点为切点的ROC曲线的切线斜率(K)，即S=K=TRP/FRP。

3. Youden指数(J)

Youden指数(J)是TRP和FRP之差的绝对值和的最大值，即J=max(TRP-FRP)。


# 绘制ROC曲线方法2：
fpr = dict()
tpr = dict()
roc_auc = dict()
for i in range(n_classes):
    fpr[i], tpr[i], _ = roc_curve(y_test[:, i], y_score[:, i])
    roc_auc[i] = auc(fpr[i], tpr[i])

fpr["micro"], tpr["micro"], _ = roc_curve(y_test.ravel(), y_score.ravel())
roc_auc["micro"] = auc(fpr["micro"], tpr["micro"])

plt.plot(fpr[2], tpr[2], color='darkorange', lw=1, label='ROC curve (area = %0.2f)' % roc_auc[2])
plt.plot([0, 1], [0, 1], color='navy', lw=1, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

上述代码是绘制ROC曲线的另一种方法，可以处理多类别问题，将每个类别之间的ROC曲线坐标可视化。

三、ROC曲线与阈值

阈值是二元分类问题中非常重要的概念，因为它是在判断样本类别时的决策边界。当阈值越高时，模型的假正率(FRP)会越低，但同时也会导致真正率(TRP)下降，即假阴性率(FNR)增加，因此需要根据业务需求选择合适的阈值。

ROC曲线能够帮助我们判断选用哪个阈值更好，具体方法是选择ROC曲线上最靠近左上角的点，它对应着某个最佳的阈值。因为此时模型的FRP最低，TRP最高。

四、代码示例

下面是一个完整的Python代码示例，包含了ROC曲线的计算和可视化。


from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_curve
from matplotlib import pyplot as plt
import numpy as np

# 生成数据集
X, y = make_classification(n_samples=1000, n_classes=2, random_state=42)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

# 训练模型并预测
clf = LogisticRegression(random_state=42)
clf.fit(X_train, y_train)
y_score = clf.predict_proba(X_test)[:, 1]

# 绘制ROC曲线
fpr, tpr, thresholds = roc_curve(y_test, y_score)
roc_auc = np.trapz(tpr, fpr)

plt.figure()
lw = 2
plt.plot(fpr, tpr, color='darkorange',
         lw=lw, label='ROC curve (area = %0.2f)' % roc_auc)
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

五、总结

本文从ROC曲线概述、ROC曲线参数、ROC曲线与阈值、代码示例四个方面对Python中的ROC曲线进行了详细阐述。ROC曲线是分类模型评估的重要指标之一，能够帮助我们评估模型在不同阈值下的表现，并选择合适的阈值。

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

Python ROC曲线的详细阐述

一、ROC曲线概述

二、ROC曲线参数

1. 垂直距离(d)

2. 斜率(S)

3. Youden指数(J)

三、ROC曲线与阈值

四、代码示例

五、总结

Python ROC曲线的详细阐述

ROC曲线的横坐标和纵坐标是什么

Matlabroc曲线的详细阐述

Python绘制ROC曲线

r语言ROC曲线及其应用

python绘制双对数曲线,python画自定义函数曲线

椭圆曲线算法的多方面阐述

libsvm-python库详解

对log函数曲线的多角度阐述

F1计算公式的详细阐述

matlabgridon的详细阐述

Android曲线图详细介绍

深入探究roc_curve函数

Python Padx：用Python快速打造自己的代码笔记

Python AUC简介

为知笔记私有化部署

周志华《机器学习》西瓜书

Python中的sklearn Logistic Regre

Python画曲线

java学习笔记（java初学笔记）

Windows 软件

Linux 软件

Mac 软件

安卓软件

各类文章

Python ROC曲线的详细阐述

一、ROC曲线概述

二、ROC曲线参数

1. 垂直距离(d)

2. 斜率(S)

3. Youden指数(J)

三、ROC曲线与阈值

四、代码示例

五、总结

Python ROC曲线的详细阐述

ROC曲线的横坐标和纵坐标是什么

Matlabroc曲线的详细阐述

Python绘制ROC曲线

r语言ROC曲线及其应用

python绘制双对数曲线,python画自定义函数曲线

椭圆曲线算法的多方面阐述

libsvm-python库详解

对log函数曲线的多角度阐述

F1计算公式的详细阐述

matlabgridon的详细阐述

Android曲线图详细介绍

深入探究roc_curve函数

Python Padx：用Python快速打造自己的代码笔记

Python AUC简介

为知笔记私有化部署

周志华《机器学习》西瓜书

Python中的sklearn Logistic Regre

Python画曲线

java学习笔记（java初学笔记）

人机检测，请谅解