所有文章
使用 pathvalidate
处理不合法的文件或路径名字符串
在编程时经常需要处理文件和目录的命名,然而直接将字符串用作文件名或路径名时,可能会遇到一个常见问题:字符串中含有特殊字符或保留字,这可能导致在尝试保存文件时出现异常,如无法创建文件、路径解析错误等问题。例如,Windows 系统不允许文件名包含字符如 \
、/
、:
、*
、?
、"
、<
、>
和 |
。
本文介绍了 pathvalidate
库,它提供了一系列实用的函数,用于验证和清理文件名和路径名中的非法字符。这样我们就不必重复造轮子来处理这些特殊字符了。
对含有空值的数据使用 np.corrcoef
计算 Pearson 和 Spearman 相关系数
本文实验探究了 np.corrcoef
在对含有空值的数据计算 Pearson 相关系数和 Spearman 相关系数时的结果。
np.corrcoef
在计算相关系数时,如果数据中存在一个空值,那么空值所在列与其他列的相关系数也会为空值。- 如果需要忽略空值后计算相关系数,可以使用
np.ma.corrcoef
,它的参数allow_masked
默认为True
。当传入一个MaskedArray
对象时,np.ma.corrcoef
会忽略掉其中的空值。 - 在对含有空值的数据使用
argsort().argsort()
对数据进行排序后,空值会被当做最小值,它也会获得一个排序值,空值内部的排序值大小取决于该空值所在的位置。因此,计算 Spearman 相关系数时,需要先手动删除空值。
迁移 Conda 虚拟环境
在一个设备上搭建了 Conda 虚拟环境后,如果需要在另一个设备上使用相同的环境,可以制作 environment.yml
文件,方便快速地迁移,而不需要再次手动安装包。
本文记录了将 macOS 的 Conda 虚拟环境迁移到 Linux 的过程。
在 Python 中使用大语言模型进行文本分类
大语言模型可以做很多事情:给它一个提示词,它就能给出聪明的回复。但是,我们有时需要得到结构化的、具有严格类型要求的回答。例如我们需要判断一句话的情感得分,那么我们只需要得到一个数值,而不需要任何其他的元素。即使我们每次都在提示词中写上“请返回一个数值,例如 1.0。不要包含任何其他元素,只要一个数值,求你了”,模型仍然可能会返回各种奇怪的文本,这些文本在后续代码中极有可能出错。
marvin
是一个非常实用的 Python 包,它使用简单的代码和类型提示就能获取特定数据类型的返回。它的官网介绍说:
This lets you focus on what you've always focused on: writing clean, versioned, reusable code and data models, and not scrutinizing whether you begged your LLM hard enough to output JSON or needed to offer it a bigger tip for the right answer.
本文借助 marvin
用 gpt-3.5-turbo
对文本进行二分类,判断一段文本是否由大语言模型生成,而不是人类生成。
断开 SSH 连接后继续执行任务
我们经常需要通过 SSH 连接到远程 Linux 服务器来执行各种任务。但有时,我们希望即使在断开 SSH 连接后,这些任务也能继续运行。
本文介绍了如何将任务放入后台并使用 disown
命令使其在当前 Shell 终端窗口关闭后依然不会结束。
Python 中的 isinstance
和 type
的区别
在 Python 中,isinstance
和 type
都是用于检查对象类型的函数,但它们的使用场景和结果有所不同。本文介绍了 Python 中的 isinstance
和 type
的区别。
JupyterLite:在浏览器中运行 Python
JupyterLite 是一个轻量级的 Jupyter 笔记本环境,旨在为用户提供快速、便捷的交互式计算体验。与传统的 Jupyter 环境不同,JupyterLite 可以在不需要安装任何软件的情况下直接在浏览器中运行。
有时我们希望快速测试一些简单的代码(例如得到 ChatGPT 给出的代码后),就可以用 JupyterLite 在浏览器中快速运行代码。
本文记录了如何部署 JupyterLite 站点,以及参与开源项目贡献的心得。