跳转至

所有文章

ConcatDataset 和 StackDataset

在 PyTorch 中,ConcatDatasetStackDataset 是两种不同的数据集组合方式。本文介绍了它们的作用及其适用场景。

Python
## 使用 ConcatDataset 连接数据集
concat_dataset = ConcatDataset([dataset1, dataset2])
## 遍历 ConcatDataset
for sample in concat_dataset:
    print(sample)
Text Only
1
2
3
4
5
6
Python
## 使用 StackDataset 组合数据集
stack_dataset = StackDataset(dataset1, dataset2)

## 遍历 StackDataset
for sample in stack_dataset:
    print(sample)
Text Only
(1, 4)
(2, 5)
(3, 6)

借助 torchmetricsCompositionalMetric 将越大越好的指标作为损失函数

在量化研究中,我们可以使用诸如 IC 一类的指标来衡量信号的质量。若将 IC 作为损失函数,我们自然是希望其值越大越好。但是,模型的优化过程总是朝着损失函数越小的方向进行的,因此我们需要将 IC 取反后作为损失值,使得模型朝着 IC 越大的方向优化。

本文介绍了一个便捷的方法,借助 torchmetricsCompositionalMetric 将越大越好的指标作为损失函数。

Python
pred = torch.tensor([1, 2, 3, 4]).to(torch.float32)
target = torch.tensor([2, 3, 5, 10]).to(torch.float32)
print("原始相关系数:", np.corrcoef(target, pred)[0, 1])
loss_fn = 0 - PearsonCorrCoef()
print("损失函数:", loss_fn(pred, target))
Text Only
原始相关系数: 0.9431191251430151
损失函数: tensor(-0.9431)

使用 papermill 运行 Jupyter Notebook

当执行两个具有前后依赖关系的 Jupyter Notebook 时,我们需要等待第一个 Notebook 运行完成,再开始运行第二个 Notebook。

一个笨拙的方法是,先预估好第一个 Notebook 运行需要的时间(例如 1 小时),然后在第二个 Notebook 的第一个 Cell 添加:

Python
import time

time.sleep(1 * 60 * 60)

这将使第二个 Notebook 运行 1 小时后,再运行后续的 Cell。

上述方法需要事先预估第一个 Notebook 运行需要的时间,预估时间过短会导致第二个 Notebook 提前运行,预估时间过长又会导致第二个 Notebook 浪费很多时间在 time.sleep() 上。

本文介绍了如何使用 papermill 运行 Jupyter Notebook,实现控制先后运行两个 Notebook 的功能。

screen-capture

pypika 中自定义 SQL 函数

pypika 是一个在 Python 中构建 SQL 语句的工具。这篇文章提供了一个很棒的入门教程,介绍了许多 pypika 的基本用法。

本文以 ClickHouse 中的 quantileExact 函数为例,介绍如何在 pypika 中自定义函数,尤其是自定义字符串拼接方式的实现方法。

image-20240711001853859

因子半衰期

对于一个时间序列,我们可以构建一个逐渐衰减的时间序列模型来估计其半衰期。本文介绍了两个模型,用于估计一个时间序列的半衰期。

在量化研究中,了解各个因子的衰减情况,可以更有效地动态分配因子权重,以适应市场变化。

image-20240612194448624