二分类任务的性能评估指标之 FPR、TPR、Recall 和 AUC
在机器学习的二分类任务中,常用的评估指标有 FPR(假阳性率)、TPR(真正率,也叫 Recall)以及 AUC(曲线下面积)。本文将简要介绍这些指标的定义,并展示如何使用 Python 计算这些指标,并绘制 ROC 曲线。
在机器学习的二分类任务中,常用的评估指标有 FPR(假阳性率)、TPR(真正率,也叫 Recall)以及 AUC(曲线下面积)。本文将简要介绍这些指标的定义,并展示如何使用 Python 计算这些指标,并绘制 ROC 曲线。
本文使用 8 种经典的分类器,基于逆概率错误进行 Conformal Learning。
本文使用了 nonconformist 包,它在使用 Conformal Learning 进行分类预测时的核心步骤是:
InverseProbabilityErrFunc,它等于 1-predict_probability[true_y]。例如,某个样本的真实标签是 1,而模型预测出该样本属于标签 1 的概率是 0.9,则 ErrFunc 的值是 1-0.9=0.1。
本项目的完整展示文件在这里。
LightGBM 是一种基于决策树的梯度提升机(GBM)算法,它是一种快速、准确的机器学习算法,可以用于分类和回归问题。
本文介绍了 LightGBM 的使用方法和代码示例,并记录了自定义损失函数、打印训练过程、迭代次数参数等问题的解决方法。
假设 1-4 可推出:普通最小二乘估计是最小方差线性无偏估计(BLUE)。
假设 1-3 与假设 5 可推出:普通最小二乘估计具有一致性。
假设 6 并不影响普通最小二乘估计是最小方差线性无偏估计,它是为了便于在有限样本下对回归系数进行统计检验。
本文计算了普通最小二乘估计的方差,并证明了高斯 - 马尔可夫定理。
普通最小二乘估计的方差:
高斯 - 马尔可夫定理(Gauss-Markov Theorem)
在线性回归模型中,如果线性模型满足高斯马尔可夫假定,则回归系数的最佳线性无偏估计(BLUE, Best Linear Unbiased Estimator)就是普通最小二乘法估计。
本文证明了普通最小二乘估计的无偏性和一致性。
无偏性:
一致性

本文推导了线性回归的普通最小二乘估计量的矩阵形式,并在一元线性回归的情境下给出了求和形式的表达式。 $$ Y=X \widehat{\beta}+e $$
在一元线性回归的情境下:
本文基于音乐平台 Spotify 中的 30 万余条音乐数据与 10 万余条歌手数据,分析并构造了音乐流派、音乐语言等特征,与歌手热度、音乐发行时间等特征共同建模预测音乐流行度,使用 XGBoost 内置的特征重要性计算函数和 SHAP 值评估各特征的重要性及其对预测结果的影响方向与大小,并构建了基于内容余弦相似度的音乐推荐系统。

本文使用梯度下降法、随机梯度下降法、坐标下降法和基于贝叶斯后验的 MCMC 采样法实现带有 L1 惩罚项的逻辑回归,并在银行客户流失数据集上进行实证检验。