2022年12月16日 统计 阅读时间 6 分钟 随机抽样之 MCMC 算法 MCMC 算法是一种随机抽样算法。借助建议分布,可以在各个样本状态之间进行转移,最终得到目标分布的样本。本文使用了逐分量 MCMC、随机游走和独立性抽样构造 Ising 分布和二元正态分布的随机样本。 继续阅读
2022年12月15日 Python, 机器学习, 量化研究 阅读时间 11 分钟 K 折、随机和时间序列交叉验证的 Python 实现 相比 K 折、随机交叉验证方法,时序交叉验证方法不会用到未来信息预测历史结果,在测试集上的表现更稳健。时序交叉验证在时序数据上可以缓解过拟合问题,且训练耗时更少。 继续阅读
2022年12月11日 机器学习 阅读时间 1 分钟 AdaBoost、GBDT 和 XGBoost 的联系与区别 各类 Boost 方法是基于树模型的集成模型,理解它们的联系与区别有助于理解各个算法的优劣。 继续阅读
2022年12月11日 机器学习 阅读时间 2 分钟 自定义交叉验证的样本划分方法 交叉验证是缓解模型过拟合的手段之一。本文以 XGBoost 算法为例,介绍了如何自定义交叉验证中划分训练集和验证集的方法。 继续阅读
2022年12月10日 机器学习 阅读时间 1 分钟 XGBoost 推导 XGBoost 中的结构分数以及理解它对于构建 XGBoost 模型的作用。转载一篇写得非常棒的介绍 XGBoost 的文章,真正的通俗易懂。 继续阅读
2022年12月7日 统计 阅读时间 1 分钟 方差分解公式 应用重期望公式,证明方差分解公式。 $$ \operatorname{Var}(X)=\operatorname{Var}(\mathrm{E}[X \mid Y])+\mathrm{E}[\operatorname{Var}(X \mid Y)] $$ 继续阅读