ADF 检验中滞后阶数（lag length）

SHI XIAOLONG

12 Jan 2026 — 4 min read

一、为什么 ADF 一定要选滞后阶数？

先给直觉，再给形式。

1️⃣ 直觉解释（非常重要）

ADF 检验的核心假设是：

“如果序列是平稳的，它不会被过去的冲击长期影响”

但现实中：

金融时间序列几乎一定存在 短期自相关
如果不控制这种自相关，ADF 的 t 统计量会失真

👉 滞后阶数的作用：
用过去的差分项来 “吸收” 残留自相关，让误差项尽可能接近白噪声。

2️⃣ 数学形式（你一定见过）

ADF 回归形式：

[
\Delta y_t = \alpha + \beta t + \gamma y_{t-1}

\sum_{i=1}^{p} \delta_i \Delta y_{t-i}
\varepsilon_t
]
( p ) = 滞后阶数（我们要选的）
核心检验的是：
[
H_0: \gamma = 0 \quad (\text{单位根})
]

如果 p 选错：

p 太小 → 残差相关 → 假拒绝 / 假不拒绝
p 太大 → 自由度下降 → 检验力严重下降

二、方案一：AIC 自动选择（`autolag='AIC'`）

adf_result = adfuller(spread.values, autolag='AIC')

1️⃣ AIC 在做什么？

AIC 的目标函数：

[
\text{AIC} = -2 \ln(L) + 2k
]

( L )：似然函数
( k )：模型参数个数（与滞后阶数成正比）

👉 思想：

在“拟合好”和“模型复杂度”之间 偏向拟合

2️⃣ AIC 的行为特征

特性	说明
偏好	较多滞后项
对自相关	非常谨慎
自由度	消耗较多
检验力	稍弱

👉 一句话总结：

AIC 更怕“漏掉自相关”，宁愿多加 lag

3️⃣ 在价差 / 协整残差中的含义

当你做的是：

spread = log_alt - (alpha + beta * log_base)

这个 spread：

本质是 估计误差的线性组合
自相关结构 不确定、常常复杂

👉 AIC 的优势：

能更稳健地“清洗”自相关
降低 假平稳（Type I error） 风险

4️⃣ 适用场景（强烈推荐）

✅ 高频数据（5min / 15min / 1h）
✅ 样本量 ≥ 300
✅ 用于 实盘前的稳健性检验
✅ 你更在意“别误判为平稳”

📌 量化交易中默认首选

三、方案二：BIC 自动选择（`autolag='BIC'`）

adf_result = adfuller(spread.values, autolag='BIC')

1️⃣ BIC 在做什么？

BIC 的目标函数：

[
\text{BIC} = -2 \ln(L) + k \ln(n)
]

与 AIC 的关键区别：

惩罚项是 ( \ln(n) )，而不是常数 2
样本越大，惩罚越狠

👉 思想：

强烈偏向“简单模型”

2️⃣ BIC 的行为特征

特性	说明
偏好	更少滞后项
自由度	节省
检验力	更强
风险	残差可能仍有相关

👉 一句话总结：

BIC 更怕“模型太复杂”，宁愿 lag 少一点

3️⃣ 在价差 / 残差中的影响

BIC 往往会：

给你 更小的 lag
得到 更激进的拒绝单位根结果

这意味着：

你更容易判定 spread 是平稳的

⚠️ 风险：

如果自相关没清理干净
ADF 统计量 偏向拒绝 H₀

4️⃣ 适用场景

✅ 样本量较小（< 200）
✅ 日频 / 周频数据
✅ 学术报告、论文
✅ 你更在意“检验力”

📌 论文写作常用，但实盘要谨慎

四、方案三：手动指定 maxlag（`maxlag=5`）

adf_result = adfuller(spread.values, maxlag=5)

1️⃣ 这实际上做了什么？

statsmodels 会 在 0~maxlag 内搜索
默认还是用信息准则（除非你自己控制）

⚠️ 常见误解：

maxlag=5 ≠ 滞后一定是 5

它是：

搜索空间的上限

2️⃣ 为什么要手动？

因为有时候你 比 AIC / BIC 更懂数据

例如：

明确知道市场微结构带来 1–3 阶相关
高频数据中：
- lag 太大毫无经济意义
想让所有资产 滞后结构一致

3️⃣ maxlag 的经验规则

常见经验法则：

数据频率	推荐 maxlag
日频	5–10
小时级	10–20
5 分钟	20–50
tick	不建议用 ADF

📌 金融协整中非常常见：

maxlag = int(np.sqrt(len(spread)))

4️⃣ 优缺点总结

✅ 优点：

可控
可复现
便于批量资产对比

❌ 缺点：

主观
对新数据不鲁棒

五、三种方案的核心对比（重点）

维度	AIC	BIC	maxlag
滞后偏好	多	少	人为
自相关处理	强	弱	取决
检验力	中	强	不确定
假平稳风险	低	高	取决
实盘稳健性	⭐⭐⭐⭐	⭐⭐	⭐⭐⭐
学术常用	⭐⭐	⭐⭐⭐⭐	⭐⭐

六、给你的“量化级建议”

✅ 协整残差 / 价差检验的黄金流程

# 主检验（稳健）
adf_aic = adfuller(spread, autolag='AIC')

# 对照检验（激进）
adf_bic = adfuller(spread, autolag='BIC')

判定逻辑：

只有当 AIC 和 BIC 都拒绝单位根
👉 才认为 spread 真正平稳

跑步的技巧（滚动落地）

“滚动落地（rolling contact / rolling foot strike）”不是一种教条式的“脚法”，而是一种让冲击沿着整只脚、整条后链逐级传递的落地机制。它的核心不是“你先用哪儿着地”，而是：你的脚落地之后，冲击是不是像轮子一样滚过去，而不是像锤子一样砸下去。这就是滚动落地的本质。一、什么叫“滚动落地”？你可以把它理解成两种完全不同的落地方式： 1. 砸地（撞击式）脚像锤子一样拍到地上： * 要么后跟先砸 * 要么前掌先戳 * 冲击集中在一个点 * 一个结构瞬间吃掉大部分载荷结果就是： * 后跟砸 → 膝盖难受 * 前掌戳 → 前脚掌磨烂 * 都不是长跑友好模式这叫撞击式着地（impact strike）。 2. 滚地（滚动式）脚像轮胎一样“滚”过地面： * 不是某一点硬砸 * 而是外侧中足先轻触 * 再向前滚到前掌 * 最后从大脚趾蹬离

AMI的优越性

世界模型（World Models）的具体例子如下，我按类型分类，便于理解。每类都附带实际实现、演示效果和应用场景。 1. Yann LeCun / Meta 的 JEPA 系列（最直接对应“世界模型”概念）这些是 LeCun 主张的非生成式抽象预测世界模型代表。 * I-JEPA（Image JEPA，2023）输入一张图像，模型把不同区域（context 和 target）编码成抽象表示，然后预测 target 的表示（不在像素级别重建）。例子：给定一张遮挡了部分物体的图片，模型能预测“被遮挡物体的大致位置和属性”，构建对物体持久性和空间关系的理解。这是一个“原始世界模型”，能学习物理常识（如物体不会凭空消失）。 * V-JEPA / V-JEPA 2（Video JEPA，

什么是：“世界模型（World Models）”

世界模型（World Models）是人工智能领域的一个核心概念，尤其在 Yann LeCun 等研究者推动的下一代 AI 架构中占据中心位置。它指的是 AI 系统在内部构建的对现实世界的抽象模拟或内部表示，让机器能够像人类或动物一样“理解”物理世界、预测未来、规划行动。简单比喻想象你闭上眼睛也能“看到”房间里的物体会如何移动、碰撞或掉落——这就是你大脑里的世界模型。AI 的世界模型就是类似的“数字孪生”（digital twin）或“内部模拟器”：它不是简单记住数据，而是学习世界的动态、因果关系和物理直觉（如重力、物体持久性、遮挡、因果等）。为什么需要世界模型？当前主流的大型语言模型（LLM）擅长处理文本（统计模式预测），但存在根本局限： * 缺乏对物理世界的真正理解 → 容易“幻觉”、无法可靠规划。 * 样本效率低 → 人类/

K线周期可配置化设计方案

K线周期可配置化设计方案 1. 背景与目标当前 Beta 套利策略的 K 线周期硬编码为 "1h"，分散在多个文件中。需要： 1. 将 K 线周期从 1h 改为 2h 2. 提取为环境变量 BETA_ARB_KLINE_INTERVAL，使其可在 .env 中配置 2. 影响范围分析 2.1 需要修改的文件（共 6 个）文件硬编码位置修改内容 src/trading/config.py BetaArbConfig dataclass 新增 kline_interval 字段，