方差稳定变换

在应用统计学中，方差稳定变换（VST）是一种数据变换，它可以简化图像探索性数据分析，或者应用于基于回归或方差分析的分析方法。 ^[1]方差稳定化变换是统计学中解决回归模型方差非齐性问题的核心方法，通过对因变量施加特定函数变换，使变换后数据的方差保持相对稳定。该方法与Box-Cox变换、对数变换共同构成数据校正方法体系，主要应用于存在均值-方差函数关系的场景。其理论推导直接关联加权最小二乘法的构建原理，在模型诊断后的校正环节发挥关键作用。

概述

方差稳定变换的目的是找到一个简单的函数ƒ ，将其应用于数据中的x值，创建新的函数 $y = ƒ (x)$ ，从而使得值y的变异性与其平均值无关。

例如，假设值x是来自不同的泊松分布：即每个分布具有不同的平均值μ 。那么，由于泊松分布的方差等于平均值，因此方差随平均值而变化。但是，如果使用方差稳定变换

y={\sqrt {x}}\,

，那么观测值的样本方差将基本保持不变，参见安斯康姆变换。

虽然方差稳定变换在一些参数分布中已为人熟知，例如泊松分布和二项分布，但某些类型的数据分析更倾向于经验主义：例如，通过在幂变换中找合适的固定变换。或者，如果数据分析表明方差和均值之间存在函数关系，则可以由此推导出方差稳定变换。 ^[2]因此，如果对于均值μ ，

\operatorname {var} (X)=h(\mu ),\,

方差稳定变换的合适基础是

y\propto \int ^{x}{\frac {1}{\sqrt {h(\mu )}}}\,d\mu ,

其中，为了方便起见，可以选择任意积分常数和任意比例因子。

例子：相对方差

设 $X$ 为正随机变量，且对于常数 s，方差为 $h (μ) = s 2 μ 2$ ，则标准差与均值成正比，这被称为固定相对误差。在这种情况下，方差稳定变换为

y=\int ^{x}{\frac {d\mu }{\sqrt {s^{2}\mu ^{2}}}}={\frac {1}{s}}\ln(x)\propto \log(x)\,.

这时，方差稳定变换是对数变换。

例子：绝对方差加相对方差

如果方差为 $h (μ) = σ 2 + s 2 μ 2$ ，则当 $| μ |$ 足够小时，方差由 $σ 2$ 支配；当 $| μ |$ 足够大时，方差受相对方差 $s 2 μ 2$ 支配。在这种情况下，方差稳定变换为

y=\int ^{x}{\frac {d\mu }{\sqrt {\sigma ^{2}+s^{2}\mu ^{2}}}}={\frac {1}{s}}\operatorname {asinh} {\frac {x}{\sigma /s}}\propto \operatorname {asinh} {\frac {x}{\lambda }}\,.

此时，方差稳定变换是缩放值 $x / λ$ 的反双曲正弦，其中 $λ = σ / s$ 。

例子：皮尔逊相关系数

Fisher 变换是皮尔逊相关系数的方差稳定变换。

与 delta 方法的关系

这里粗略地介绍了delta 方法，但足以说明它与方差稳定变换之间的关系。要查看更正式的方法，请参阅delta 方法。

$X$ 是一个随机变量， $E[X]=\mu$ 和 $\operatorname {Var} (X)=\sigma ^{2}$ 。定义 $Y=g(X)$ ，其中 $g$ 是一个函数。 $Y=g(x)$ 的一阶泰勒近似是：

$Y=g(X)\approx g(\mu )+g'(\mu )(X-\mu )$

由上述的等式，我们得到：

E[Y]\approx g(\mu )

and

\operatorname {Var} [Y]\approx \sigma ^{2}g'(\mu )^{2}

这种近似方法称为 delta 方法。

现在考虑一个随机变量 $X$ ，其中 $E[X]=\mu$ 和 $\operatorname {Var} [X]=h(\mu )$ 。注意方差和均值之间的关系，意味着线性模型中的异方差性。因此，目标是找到一个函数 $g$ ，使 $Y=g(X)$ 具有与其期望值无关的方差（至少近似地）。

施加条件 $\operatorname {Var} [Y]\approx h(\mu )g'(\mu )^{2}={\text{常数}}$ ，该等式可写成以下微分方程：

{\frac {dg}{d\mu }}={\frac {C}{\sqrt {h(\mu )}}}

通过变量分离，该常微分方程有以下解：

g(\mu )=\int {\frac {C\,d\mu }{\sqrt {h(\mu )}}}

上述表达式首次出现在莫里斯·史蒂文森·巴特利特的论文中。 ^[3]

参考

^ Everitt, B. S. The Cambridge Dictionary of Statistics 2nd. CUP. 2002. ISBN 0-521-81099-X.
^ Dodge, Y. The Oxford Dictionary of Statistical Terms. OUP. 2003. ISBN 0-19-920613-9.
^ Bartlett, M. S. The Use of Transformations. Biometrics. 1947, 3: 39–52. doi:10.2307/3001536.

[1] Everitt, B. S. The Cambridge Dictionary of Statistics 2nd. CUP. 2002. ISBN 0-521-81099-X.

[2] Dodge, Y. The Oxford Dictionary of Statistical Terms. OUP. 2003. ISBN 0-19-920613-9.

[3] Bartlett, M. S. The Use of Transformations. Biometrics. 1947, 3: 39–52. doi:10.2307/3001536.

[1]

[2]

[3]