文章总结: 本文介绍了流形假设的核心思想,即高维数据实际上存在于低维流形结构中。文章通过自然图像和文本等实例解释了数据为何会落在低维流形上,并阐述了等距映射、局部线性嵌入、t-SNE和UMAP等流形学习算法的原理。同时,本文还列举了流形假设在人脸识别、自然语言处理和生成模型等领域的实际应用,并讨论了该假设的局限性,如噪声影响和多重流形问题。 综合评分: 85 文章分类: 机器学习,数据科学,算法,数学,其他
流形假设:高维数据为何生活在低维流形上
原创
代码小铺 代码小铺
代码小铺
2026年4月28日 11:53 湖北
在小说阅读器读本章
去阅读
引言
想象你走进一个巨大的图书馆,里面有上百万本书。从表面看,每本书都是一个独立的个体,但如果仔细观察,你会发现这些书其实可以按照几个简单的维度来组织: genre(类型)、作者、出版年份……原本看似杂乱无章的海量数据,实际上隐藏在一个低维的结构中。
这就是流形假设(Manifold Hypothesis)的核心思想:虽然我们的数据可能生活在高维空间中(比如一张 1000×1000 像素的图片有 100 万个维度),但它们实际上只占据了这个高维空间中的一个低维子空间。
什么是流形?
在数学中,流形(Manifold)是一个局部看起来像欧几里得空间的空间。听起来很抽象?让我们用一个经典的例子来说明:
想象地球的表面。从全局来看,地球是一个三维空间中的二维球面。但对于站在地面上的蚂蚁来说,它脚下的地面看起来是平坦的——就像一个二维平面。这就是流形的本质:局部平坦,全局弯曲。
用数学语言描述,一个 d 维流形嵌入在 D 维空间中(d \ll D),意味着数据点虽然用 D 个坐标表示,但实际上只需要 d 个自由度就能描述。
为什么数据会落在低维流形上?
让我们思考几个例子:
自然图像:一张 256×256 的灰度图片有 65,536 个像素,每个像素可以取 0-255 的值。理论上,可能的图片数量是 ——这是一个天文数字。但现实中”有意义的”图片(比如人脸、风景、物体)只占这个空间的极小一部分。一张人脸图片的变化主要由几个因素决定:姿势、表情、光照、身份……这些因素的总数远远小于像素数。
文本数据:一个包含 50,000 个词的词汇表,每个文档可以表示为 50,000 维的向量。但实际有意义的文档只占据了这个空间的一个很小的子集——语法、语义、主题等约束将文档限制在了一个低维流形上。
数学表述
流形假设可以形式化地表述为:给定高维数据点 ,存在一个低维流形
,其内在维度为 d \ll D,使得所有数据点都近似落在 \mathcal{M} 上。
更具体地,我们可以假设存在一个光滑的嵌入映射 ,使得对于每个数据点
,存在一个低维表示
满足:
这里的 就是数据点在流形上的内在坐标(intrinsic coordinates)。
流形学习算法
基于流形假设,研究者开发了一系列流形学习(Manifold Learning)算法,用于发现数据的低维结构:
1. 等距映射(Isomap)
Isomap 的核心思想是保持数据点之间的测地线距离(geodesic distance),而不是欧几里得距离。测地线距离是沿着流形表面测量的距离,就像飞机飞行时遵循地球曲率一样。
算法步骤:
- 1. 构建近邻图,连接每个点与其 k 个最近邻
- 2. 计算图中所有点对之间的最短路径距离
- 3. 使用多维缩放(MDS)找到保持这些距离的低维嵌入
2. 局部线性嵌入(LLE)
LLE 假设每个数据点可以由其邻居线性重构:
其中权重 满足
。LLE 的目标是在低维空间中找到表示
,使得重构关系保持不变:
3. t-SNE 和 UMAP
这些现代方法在可视化高维数据方面表现出色。t-SNE 通过概率分布匹配来保持局部结构,而 UMAP 基于流形的拓扑结构进行嵌入。
实际应用
人脸识别
在人脸识别中,每张人脸图片可能有数万像素,但人脸的变化主要由几个因素控制:身份、姿势、表情、光照。研究发现,人脸流形的内在维度大约在 10-100 之间。这意味着我们可以用远少于像素数的参数来表示和识别人脸。
自然语言处理
词嵌入(如 Word2Vec、GloVe)本质上是在学习词语的低维流形表示。一个 50,000 词的词汇表可以被映射到 300 维空间中,同时保持语义关系:”国王 – 男人 + 女人 ≈ 女王”这样的类比关系在低维空间中得以保持。
生成模型
现代生成模型(如 VAE、GAN)的核心假设就是数据生活在低维流形上。VAE 显式地学习从低维潜在空间到高维数据空间的映射:
其中 是低维潜在变量,d \ll D。
流形假设的局限性
虽然流形假设在许多场景中成立,但它也有局限:
- 1. 噪声和异常值:真实数据往往包含噪声,可能偏离理想流形
- 2. 多重流形:数据可能由多个不同的流形组成(如不同类别的数据)
- 3. 维度估计困难:确定流形的真实内在维度是一个开放问题
- 4. 全局 vs 局部:某些算法只保持局部结构,可能丢失全局信息
总结
流形假设为我们理解高维数据提供了一个优雅的框架:
- • 核心思想:高维数据实际上生活在低维流形上
- • 数学基础:局部欧几里得空间的光滑嵌入
- • 实践意义:降维、可视化、生成建模
- • 算法工具:Isomap、LLE、t-SNE、UMAP、VAE
下次当你面对海量高维数据时,不妨想想:这些数据背后,是否隐藏着一个简洁优美的低维结构?流形假设告诉我们,答案很可能是肯定的。
本文是”代码小铺”数学与机器学习系列的第 9 篇文章。关注我们,一起探索技术背后的数学之美!
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:代码小铺 代码小铺 代码小铺《流形假设:高维数据为何生活在低维流形上》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论