所有文章¶

2024 年 12 月 18 日
PyTorch, 量化研究
阅读时间 2 分钟

借助 `torchmetrics` 的 `CompositionalMetric` 将越大越好的指标作为损失函数

在量化研究中，我们可以使用诸如 IC 一类的指标来衡量信号的质量。若将 IC 作为损失函数，我们自然是希望其值越大越好。但是，模型的优化过程总是朝着损失函数越小的方向进行的，因此我们需要将 IC 取反后作为损失值，使得模型朝着 IC 越大的方向优化。

本文介绍了一个便捷的方法，借助 torchmetrics 的 CompositionalMetric 将越大越好的指标作为损失函数。

Python

pred = torch.tensor([1, 2, 3, 4]).to(torch.float32)
target = torch.tensor([2, 3, 5, 10]).to(torch.float32)
print("原始相关系数：", np.corrcoef(target, pred)[0, 1])
loss_fn = 0 - PearsonCorrCoef()
print("损失函数：", loss_fn(pred, target))

Text Only

原始相关系数： 0.9431191251430151
损失函数： tensor(-0.9431)

2024 年 10 月 16 日
机器学习
阅读时间 2 分钟

二分类任务的性能评估指标之 FPR、TPR、Recall 和 AUC

在机器学习的二分类任务中，常用的评估指标有 FPR（假阳性率）、TPR（真正率，也叫 Recall）以及 AUC（曲线下面积）。本文将简要介绍这些指标的定义，并展示如何使用 Python 计算这些指标，并绘制 ROC 曲线。

2024 年 8 月 20 日
Python
阅读时间 2 分钟

使用 `papermill` 运行 Jupyter Notebook

当执行两个具有前后依赖关系的 Jupyter Notebook 时，我们需要等待第一个 Notebook 运行完成，再开始运行第二个 Notebook。

一个笨拙的方法是，先预估好第一个 Notebook 运行需要的时间（例如 1 小时），然后在第二个 Notebook 的第一个 Cell 添加：

Python

import time

time.sleep(1 * 60 * 60)

这将使第二个 Notebook 运行 1 小时后，再运行后续的 Cell。

上述方法需要事先预估第一个 Notebook 运行需要的时间，预估时间过短会导致第二个 Notebook 提前运行，预估时间过长又会导致第二个 Notebook 浪费很多时间在 time.sleep() 上。

本文介绍了如何使用 papermill 运行 Jupyter Notebook，实现控制先后运行两个 Notebook 的功能。

screen-capture

2024 年 8 月 16 日
Python, 数据库
阅读时间 1 分钟

在 `pypika` 中使用 `Criterion.all()` 作为筛选条件占位符及其注意事项

pypika 能够通过编程方式动态生成 SQL 查询。本文介绍了 Criterion.all() 作为筛选条件占位符及其注意事项。

2024 年 7 月 10 日
Python, 数据库
阅读时间 2 分钟

在 `pypika` 中自定义 SQL 函数

pypika 是一个在 Python 中构建 SQL 语句的工具。这篇文章提供了一个很棒的入门教程，介绍了许多 pypika 的基本用法。

本文以 ClickHouse 中的 quantileExact 函数为例，介绍如何在 pypika 中自定义函数，尤其是自定义字符串拼接方式的实现方法。

2024 年 6 月 30 日
生活
阅读时间 2 分钟

告别学生时代

2024 年 6 月 12 日
Python
阅读时间 2 分钟

使用 `np.polynomial.Polynomial` 进行一元线性回归的一个注意事项

在使用 np.polynomial.Polynomial 进行一元线性回归时，未能得到预期的结果。经检查发现， Polynomial.fit() 会将数据缩放和平移到 window 参数上后，再进行回归估计。如果需要得到未缩放和平移的估计量，可以用 .convert().coef。

2024 年 5 月 31 日
量化研究, 统计
阅读时间 3 分钟

因子半衰期

对于一个时间序列，我们可以构建一个逐渐衰减的时间序列模型来估计其半衰期。本文介绍了两个模型，用于估计一个时间序列的半衰期。

在量化研究中，了解各个因子的衰减情况，可以更有效地动态分配因子权重，以适应市场变化。

2024 年 4 月 10 日
Python
阅读时间 5 分钟

Python 内存剖析与优化

本文以一个矩阵相乘的场景为例，介绍了 memory_profiler 和 memray 这两个剖析 Python 内存使用情况的工具。

2024 年 4 月 7 日
生活
阅读时间 2 分钟

春日时光

58010B9E-B461-45BC-BA31-1D86E88FD92C_1_105_c — 采茶人