时间序列分析中的自相关结构
在时间序列分析中,自相关结构(Autocorrelation Structure) 指的是数据与其自身过去值之间相互关联的规律性组织方式。
简单来说,如果“自相关”是描述今天和昨天有多像,那么“自相关结构”就是描述这种“相像”是如何随着时间回溯而演变的整体模式。
1. 直观理解:记忆的形状
自相关结构就像是一个系统的“记忆模式”。不同的系统,记忆的持久度和方式不同:
- 线性消散结构(AR 模型): 记忆像回声一样逐渐减弱。今天的价格受昨天影响最大,受前天影响小一些,依此类推。
- 季节性结构(Seasonal): 记忆具有周期性。比如今天(周五)的交通状况可能跟昨天关系不大,但跟上周五极其相似。
- 白噪声结构(White Noise): 系统没有记忆。每一个数据点都是完全独立的,不存在任何结构。
2. 核心度量工具
要“看到”自相关结构,通常使用以下两个函数:
- ACF (自相关函数): 测量 $t$ 时刻与 $t-k$ 时刻之间的总相关性。它包含了所有中间时刻传导过来的影响。
- PACF (偏自相关函数): 剔除了中间时刻的影响,只测量 $t$ 与 $t-k$ 之间的直接相关性。
| 结构类型 | ACF 特征 | PACF 特征 | 物理含义 |
| 自回归 (AR) | 拖尾(指数级衰减) | 在 $p$ 阶后截断 | 当前值主要由过去 $p$ 个值直接决定。 |
| 移动平均 (MA) | 在 $q$ 阶后截断 | 拖尾(衰减) | 当前值受过去 $q$ 个随机冲击的影响。 |
| 趋势性 | 衰减极慢,长年保持高位 | 第一阶非常高 | 数据有明显的上升或下降长趋势。 |
3. 为什么在 4H 报告中强调它?
在提到“4H 数据自相关结构变简单”时,报告的潜台词是:
- 高频数据的自相关结构很“乱”: 5 分钟线下,受订单流、微观博弈影响,ACF 可能在很多阶(比如 Lag 1, 2, 7, 15...)都有显著的尖峰。为了处理这种复杂的结构,ADF 检验必须包含非常多的滞后项(Lag),这会吃掉大量自由度。
- 低频(4H)的自相关结构很“纯”: 经过时间聚合,微观噪声抵消了。剩下的通常只是简单的 AR(1) 或 AR(2) 结构。
- 数学结果: $n$(样本量)虽然变小了,但模型需要的 $p$(滞后阶数)也变小了。
- 有效自由度 $df \approx n - p$: 只要 $p$ 降得够快,即使 $n=100$,剩下的有效信息依然足以支撑统计结论。
总结
自相关结构就是时间序列的“指纹”。 * 如果指纹很模糊(高频噪声多),你需要很多样本才能看清。
- 如果指纹很清晰(低频逻辑强),只要几十个点,你就能断定这个序列的演变规律。