2026-04-29 05:42:15 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文介绍了流形假设的核心思想，即高维数据实际上存在于低维流形结构中。文章通过自然图像和文本等实例解释了数据为何会落在低维流形上，并阐述了等距映射、局部线性嵌入、t-SNE和UMAP等流形学习算法的原理。同时，本文还列举了流形假设在人脸识别、自然语言处理和生成模型等领域的实际应用，并讨论了该假设的局限性，如噪声影响和多重流形问题。 综合评分： 85 文章分类： 机器学习,数据科学,算法,数学,其他

cover_image

流形假设：高维数据为何生活在低维流形上

原创

代码小铺代码小铺

代码小铺

2026年4月28日 11:53 湖北

在小说阅读器读本章

去阅读

引言

想象你走进一个巨大的图书馆，里面有上百万本书。从表面看，每本书都是一个独立的个体，但如果仔细观察，你会发现这些书其实可以按照几个简单的维度来组织： genre（类型）、作者、出版年份……原本看似杂乱无章的海量数据，实际上隐藏在一个低维的结构中。

这就是流形假设（Manifold Hypothesis）的核心思想：虽然我们的数据可能生活在高维空间中（比如一张 1000×1000 像素的图片有 100 万个维度），但它们实际上只占据了这个高维空间中的一个低维子空间。

什么是流形？

在数学中，流形（Manifold）是一个局部看起来像欧几里得空间的空间。听起来很抽象？让我们用一个经典的例子来说明：

想象地球的表面。从全局来看，地球是一个三维空间中的二维球面。但对于站在地面上的蚂蚁来说，它脚下的地面看起来是平坦的——就像一个二维平面。这就是流形的本质：局部平坦，全局弯曲。

用数学语言描述，一个 d 维流形嵌入在 D 维空间中（d \ll D），意味着数据点虽然用 D 个坐标表示，但实际上只需要 d 个自由度就能描述。

为什么数据会落在低维流形上？

让我们思考几个例子：

自然图像：一张 256×256 的灰度图片有 65,536 个像素，每个像素可以取 0-255 的值。理论上，可能的图片数量是 ——这是一个天文数字。但现实中”有意义的”图片（比如人脸、风景、物体）只占这个空间的极小一部分。一张人脸图片的变化主要由几个因素决定：姿势、表情、光照、身份……这些因素的总数远远小于像素数。

文本数据：一个包含 50,000 个词的词汇表，每个文档可以表示为 50,000 维的向量。但实际有意义的文档只占据了这个空间的一个很小的子集——语法、语义、主题等约束将文档限制在了一个低维流形上。

数学表述

流形假设可以形式化地表述为：给定高维数据点，存在一个低维流形，其内在维度为 d \ll D，使得所有数据点都近似落在 \mathcal{M} 上。

更具体地，我们可以假设存在一个光滑的嵌入映射，使得对于每个数据点，存在一个低维表示满足：

这里的就是数据点在流形上的内在坐标（intrinsic coordinates）。

流形学习算法

基于流形假设，研究者开发了一系列流形学习（Manifold Learning）算法，用于发现数据的低维结构：

1. 等距映射（Isomap）

Isomap 的核心思想是保持数据点之间的测地线距离（geodesic distance），而不是欧几里得距离。测地线距离是沿着流形表面测量的距离，就像飞机飞行时遵循地球曲率一样。

算法步骤：

1. 构建近邻图，连接每个点与其 k 个最近邻
2. 计算图中所有点对之间的最短路径距离
3. 使用多维缩放（MDS）找到保持这些距离的低维嵌入

2. 局部线性嵌入（LLE）

LLE 假设每个数据点可以由其邻居线性重构：

其中权重满足。LLE 的目标是在低维空间中找到表示，使得重构关系保持不变：

3. t-SNE 和 UMAP

这些现代方法在可视化高维数据方面表现出色。t-SNE 通过概率分布匹配来保持局部结构，而 UMAP 基于流形的拓扑结构进行嵌入。

实际应用

人脸识别

在人脸识别中，每张人脸图片可能有数万像素，但人脸的变化主要由几个因素控制：身份、姿势、表情、光照。研究发现，人脸流形的内在维度大约在 10-100 之间。这意味着我们可以用远少于像素数的参数来表示和识别人脸。

自然语言处理

词嵌入（如 Word2Vec、GloVe）本质上是在学习词语的低维流形表示。一个 50,000 词的词汇表可以被映射到 300 维空间中，同时保持语义关系：”国王 – 男人 + 女人 ≈ 女王”这样的类比关系在低维空间中得以保持。

生成模型

现代生成模型（如 VAE、GAN）的核心假设就是数据生活在低维流形上。VAE 显式地学习从低维潜在空间到高维数据空间的映射：

其中是低维潜在变量，d \ll D。

流形假设的局限性

虽然流形假设在许多场景中成立，但它也有局限：

1. 噪声和异常值：真实数据往往包含噪声，可能偏离理想流形
2. 多重流形：数据可能由多个不同的流形组成（如不同类别的数据）
3. 维度估计困难：确定流形的真实内在维度是一个开放问题
4. 全局 vs 局部：某些算法只保持局部结构，可能丢失全局信息

总结

流形假设为我们理解高维数据提供了一个优雅的框架：

• 核心思想：高维数据实际上生活在低维流形上
• 数学基础：局部欧几里得空间的光滑嵌入
• 实践意义：降维、可视化、生成建模
• 算法工具：Isomap、LLE、t-SNE、UMAP、VAE

下次当你面对海量高维数据时，不妨想想：这些数据背后，是否隐藏着一个简洁优美的低维结构？流形假设告诉我们，答案很可能是肯定的。

本文是”代码小铺”数学与机器学习系列的第 9 篇文章。关注我们，一起探索技术背后的数学之美！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：代码小铺代码小铺代码小铺《流形假设：高维数据为何生活在低维流形上》