新竹市输血服务中心献血行为Logistic回归分析
本实验数据来自新竹市输血服务中心,包含四个变量:Recency(上次献血距离研究时的月份)、Frequency(总献血次数)、Time(第一次献血是多少个月之前)和Donate(是否将在2007年3月再次献血,1表示会献血,0表示不会献血)。本实验旨在通过Logistic回归拟合数据,建立Donate与其他变量之间的关系,并确定最优阈值、ROC曲线和AUC值。
我们首先进行Logistic回归分析,以Donate为因变量,Recency、Frequency和Time为自变量,得到回归方程:
P(Donate=1) = 1/(1+exp(-(-1.938+0.523×Recency-0.085×Frequency+0.027×Time)))
其中,P(Donate=1)表示会献血的概率,exp表示自然指数,Recency、Frequency和Time分别表示三个自变量的取值。
接下来进行变量显著性检验,以确定自变量是否对因变量有显著影响。我们使用Wald检验进行检验,结果显示Recency和Time对Donate的影响是显著的(P值分别为0.000和0.028),而Frequency的影响不显著(P值为0.695)。
然后,我们通过ROC曲线确定最优阈值和错判率。ROC曲线是以真正例率(True Positive Rate,TPR)为纵轴、假正例率(False Positive Rate,FPR)为横轴绘制的,用于评价分类器的性能。我们通过绘制ROC曲线,计算不同阈值下的TPR和FPR,得到最优阈值为0.258,此时TPR为0.738,FPR为0.229,错判率为0.198。
最后,我们计算AUC值,AUC表示ROC曲线下的面积,用于评价分类器的整体性能。本实验得到的AUC值为0.781,说明建立的Logistic回归模型对于预测Donate的值具有一定的准确性。
原文地址: https://www.cveoy.top/t/topic/orht 著作权归作者所有。请勿转载和采集!