Conformal Learning 求解回归问题和多标签分类问题
Conformal Learning 是一种非参数统计方法,利用“样本属于某个标签时的离群程度”来进行回归和分类。本文分别使用“老忠实泉的爆发和等待时间数据”进行回归预测,使用“玻璃分类数据”进行多标签分类预测。
参考文献:A Tutorial on Conformal Prediction
回归问题
-
对于训练集的某一个样本 \(i\),找到离样本 \(i\) 最近的样本。
-
若最近的样本只有一个,记为样本 \(j\),则计算样本 \(i\) 和 样本 \(j\) 的标签之间的差值的绝对值;
-
若最近的样本有多个,则先计算这多个样本的标签的中位数,再将样本 \(i\) 的标签值与该中位数做差后取绝对值。
-
-
此“绝对值”就衡量了样本 \(i\) 的离群程度。
-
对于一个新样本 \(n\),同样找到离样本 \(n\) 最近的样本,用“离样本 \(n\) 最近的一个或多个样本的标签的中位数”作为新样本的标签预测值。
-
根据信心水平 \(level\)(例如 \(90\%\)),选定一个离群程度,使得该离群程度在所有训练样本的离群程度中的大小排名分位数是 \(1-level\)(例如 \(10\%\),即100个数中第10大的数)。
-
在该预测值的基础上加减上一步选定的离群程度,就得到新样本标签值的预测区间。
分类问题
- 对于一个新样本,为其赋予所有可能的标签后,将其纳入训练样本中,形成一个 Bag。
- 对于 Bag 中的每一个样本:
- 对于与该样本的标签相同的其他样本,计算它们与该样本的距离,从中选择最小的,作为分子。
- 对于与该样本的标签不同的其他样本,计算它们与该样本的距离,从中选择最小的,作为分母。
- 将前两步的分子除以分母,即可衡量“为该样本赋予该标签时的离群程度”。该值越大,说明分子越大、分母越小。
- 分子越大,说明虽然标签相同但距离很远,可以推测这个样本很可能并不属于这个标签。
- 分母越大,说明虽然标签不同但距离很近,可以推测这个样本很可能属于其他标签。
- 对于每一个可能的标签,根据信心水平 \(level\)(例如 \(90\%\)),判断:当新样本确实属于这个标签时,Bag 中有多少比例样本的离群程度比新样本的离群程度更高。如果这个比例超过了 \(1-level\)(例如 \(10\%\)),则将这个标签加入到预测标签集中。
- 输出预测标签集,它可能有一个或多个预测值,也可能是空集。