普通最小二乘估计的无偏性和一致性
本文证明了普通最小二乘估计的无偏性和一致性。
无偏性:
一致性
本文证明了普通最小二乘估计的无偏性和一致性。
无偏性:
一致性
本文推导了线性回归的普通最小二乘估计量的矩阵形式,并在一元线性回归的情境下给出了求和形式的表达式。 $$ Y=X \widehat{\beta}+e $$
在一元线性回归的情境下:
对单列数据进行滚动计算,可以使用常规的.rolling()
。
如果需要对多列数据进行滚动计算,可以考虑下面两种方法:
numpy_ext
,使用其中的rollling_apply()
方法。.rolling()
中加入参数method='table'
。本文以方正金工发表的一篇研报中提出的计算“更优波动率”为例,实现了对多列数据进行滚动计算,并对上述两种方法总结如下:
numpy_ext.rollling_apply()
需要引入外部包numpy_ext
,该方法接受需要进行滚动计算的多个 Series,并返回计算出的一个数组。.rolling(method='table')
是 Pandas 内置的函数(需要升级到较新的版本),指定method='table'
后,就可以对数据框中的多列进行滚动计算,并返回一个数据框。若返回的多列结果相同,我们只需要取出其中一列即可。.rolling(method='table')
使用了engine='numba'
,计算速度更快。Conda 可以十分方便地创建虚拟环境,便于在不同的项目中使用不同的 Python 版本、外部包等。今天在创建新的虚拟 Conda 环境后,在 VS Code 中没有找到刚刚创建的 Python 解释器。
解决方案是:
Select Interpreter
选项,这里应该可以看到最新创建的 Conda 环境;Clear Cache and Reload Window
选项,重新加载窗口;本文转载了阮一峰的《中文技术文档的写作规范》。
本站之前发布的文章有许多并没有遵循这一规范(例如中英文之间应有空格)。在今后的工作和写作中,我会尽量书写规范的文档,提高文章的易读性。
pandas 中的axis
参数代表对数据进行处理时遵循的方向。在单行、单列操作(如drop
)时,axis=0
和axis=1
分别代表删除行和删除列。在聚合操作(如求mean
)时,axis=0
和axis=1
分别代表求列均值和行均值。
总结
axis=0
:如果是单行操作,就指的是某一行;
如果是聚合操作,指的是跨行 cross rows。
axis=1
:如果是单列操作,就指的是某一列;
如果是聚合操作,指的是跨列 cross columns。
本文基于音乐平台 Spotify 中的 30 万余条音乐数据与 10 万余条歌手数据,分析并构造了音乐流派、音乐语言等特征,与歌手热度、音乐发行时间等特征共同建模预测音乐流行度,使用 XGBoost 内置的特征重要性计算函数和 SHAP 值评估各特征的重要性及其对预测结果的影响方向与大小,并构建了基于内容余弦相似度的音乐推荐系统。
在无做空限制的情形下推导均值方差模型的有效前沿曲线,本质上是求解一个带有等式约束的最优化问题。
本文使用梯度下降法、随机梯度下降法、坐标下降法和基于贝叶斯后验的 MCMC 采样法实现带有 L1 惩罚项的逻辑回归,并在银行客户流失数据集上进行实证检验。