协方差矩阵的逆矩阵,通常称为精度矩阵(precision matrix),它与部分相关矩阵(partial correlation matrix)成正比。 它给出部分独立性关系。换句话说,如果两个特征在其他特征上有条件地独立, 则精度矩阵中的对应系数将为零。这就是为什么估计一个稀疏精度矩阵是有道理的: 通过从数据中学习独立关系,协方差矩阵的估计能更好处理。这被称为协方差选择。
在小样本的情况,即 n_samples
是数量级 n_features
或更小, 稀疏的逆协方差估计往往比收敛的协方差估计更好。 然而,在相反的情况下,或者对于非常相关的数据,它们可能在数值上不稳定。 此外,与收敛估算不同,稀疏估计器能够恢复非对角线结构 (off-diagonal structure)。
GraphLasso
估计器使用 L1 惩罚执行关于精度矩阵的稀疏性: alpha
参数越高,精度矩阵的稀疏性越大。 相应的 GraphLassoCV
对象使用交叉验证来自动设置 alpha
参数。
结构恢复
从数据中的相关性恢复图形结构是一个具有挑战性的事情。如果您对这种恢复感兴趣,请记住:
GraphLasso
前先标准化观察值数学公式如下:
![\hat{K} = \mathrm{argmin}_K \big(
\mathrm{tr} S K - \mathrm{log} \mathrm{det} K
+ \alpha \|K\|_1
\big)](img/43996aff9311511e6e2f81912a249c7e.jpg)
其中: 是要估计的精度矩阵(precision matrix), 是样本的协方差矩阵。 是非对角系数 (off-diagonal coefficients)的绝对值之和。 用于解决这个问题的算法是来自 Friedman 2008 Biostatistics 论文的 GLasso 算法。 它与 R 语言 glasso
包中的算法相同。
例子:
合成数据示例,显示结构的一些恢复,并与其他协方差估计器进行比较。
参考文献: