文章总结: 文章探讨了可信数据空间中数据胶囊的概念与演变,重点介绍其实现语义级细粒度使用控制的能力。数据胶囊通过封装元信息、血缘、权属及策略,利用透明代理与机密计算技术,在不修改应用的前提下确保跨域数据流转的安全与可控。未来该技术将向标准化与工程化演进,为构建可信数据流通体系提供关键支撑。 综合评分: 80 文章分类: 数据安全,解决方案,安全建设,技术标准,云安全
可信数据空间(六)数据胶囊
原创
创新研究院 创新研究院
绿盟科技研究通讯
2026年1月23日 15:37 湖南
一 数字胶囊的概念
要素化的数据能在更大范围实现流通与复用,前提是对数据进行合理的标准化抽象。当前业界已提出数据件[1]、数据元件、数据对象等形式,一方面对数据的结构、语义、质量、分类分级等进行统一治理,为目录管理、自动发现和编排提供基础;另一方面,在架构上将数据与具体应用相解耦,使同一份数据能够被不同业务场景以不同方式复用,实现“数据要素×业务场景”的放大效应。
与业界现有抽象关注于“数据看得见、找得到、结构统一”不同,本文所讨论的数据胶囊(Data Capsule)侧重于强调“数据按约束、按规则可控使用”,关注点从“标准化治理与定位”延伸至“可执行的使用控制”。
数据胶囊的概念最早可追溯至2011年HotOS会议[2]。学术界敏锐地捕捉到,传统数据保护方案通常无法在现实世界广泛部署,因为它们往往要求用户彻底更换操作系统、重写软件或使用特定编程语言。这种昂贵的迁移成本让大多数企业和个人望而却步。
在此情况下,数据胶囊被作为一种“演进式安全数据封装”被提出,其希望能做到:
- 极致兼容性:无需修改现有的应用程序和数据格式,实现无缝集成。
- 拒绝围墙花园:打破特定框架限制,允许在多样化的动态系统中流转。
- 保护衍生品:通过信息流追踪,即使从胶囊中复制出的数据片段,也会自动被贴上相同的保护标签。
在原始的学术设想中,如图1所示,数据胶囊=敏感数据对象+使用控制策略+溯源信息。其安全机制主要包括:
图1:数据胶囊的初始方案
- 加密捆绑:数据与其“使用手册”和“流转历史”通过加密手段紧紧捆绑在一起,基于密码学技术确保存储和传输过程的机密性与完整性。
- 安全隔离:当在不受信任的应用(如普通的办公软件)中打开胶囊时,系统会将其运行在安全执行环境(SEE)中;该环境通过系统隔离器(试图通过拦截应用的系统调用实现)确保该执行环境安全。
- 动态监控:像是一个对应用的贴身监控器,如果应用试图违规将数据外泄(如偷偷发送到网络或保存到非加密盘),SEE 会根据胶囊自带的策略立刻拒绝该操作。
遗憾的是,在原始文献发表的时间节点,高效的信息流跟踪、小TCB环境下有效的系统隔离、隐私语义的集成与扩展性都还没有成熟的工具。
如本系列前文中所述,在可信数据空间的技术体系中,控制重心正从传统的“访问主体—资源对象”前移至“面向数据本身的数字合约与细粒度使用控制”。在此语境下,数据胶囊不再仅仅是一个学术名词,它承载了两个维度的关键转变:
- 视角重构:从“系统级安全论证”转向“数据级内生安全”:现有的安全描述多从全生命周期或 XaaS(一切皆服务)的宏观视角出发。这种模式的弊端在于安全链路过长,通常只能论证“整套系统”或“整体方案”的安全性,难以针对某一段特定的流通数据形成闭环的安全论述。此外,宏观视角往往难以精准切入到流通策略等上层语义。而数据胶囊实现了安全能力的“解耦与下沉”,让我们能以具体的数据单元为中心,构建更精细、更具说服力的安全逻辑。
- 能力补齐:弥补语义层流通控制的缺失:目前,关于数据流通时究竟应“绑定什么策略”以及“如何落地执行”,行业内尚未形成共识。这背后的症结在于策略深度关联业务语义,短期内很难出台大一统的标准。数据胶囊的概念事实上是在“直面语义复杂性”——它提供了一个标准化的封装框架,允许不同行业根据自身语义灵活定义控制逻辑。这种设计不仅解决了当下的管控难题,更通过良好的向后兼容性,为未来策略标准的演进预留了空间。
基于上述两个核心作用,我们便不难理解为何数据胶囊在可信数据空间时代再次被发掘。那么,可信数据空间中的数据胶囊由哪些部分组成,又该如何实现呢?
二 数据胶囊的组成与实现
2.1
数据胶囊的构造
需要事先声明的是,当前数据胶囊仍是探索中的概念,本节仅为一家之言,读者请审慎采纳。如图2所示,笔者认为可信数据空间中的数据胶囊通常应包含如下部分:
图2:可信数据空间中数据胶囊的典型组成
- 元信息:胶囊的“身份证”和“目录卡”,由连接器系统为用户生成或维护,包括全局唯一标识、名称、数据类型、结构描述、摘要信息以及来源信息等,并通过对内容和元信息的联合签名保证两者的一致性与防篡改性。
- 数据内容:是被保护和流通的实际载荷,可以由数据持有者上传,也可以在业务处理过程中生成。围绕数据内容,可信数据空间需要在静态存储、动态访问和跨域传输过程中,通过各类安全能力保证数据域内与跨域的安全。
- 数据血缘:胶囊的“履历表”。记录数据从产生、加工到使用的全过程。在多方参与的数据空间中,血缘信息能清晰刻画谁贡献了原始数据、谁进行了加工、衍生品与原件的依赖关系,为数据质量评估、责任追溯及后续的权益计量与定价提供可信依据。
- 数据权属证明:权利的“数字契约”。针对数据持有者对“离域后权利是否可主张”的疑虑,平台需通过数字签名、硬件根信任、远程证明及区块链等手段,明确记录权属状态。当发生权属迁移或托管变更时,操作记录需与证明机制打通,形成事前、事中、事后均可验证的完整证据链。
- 策略:胶囊的“灵魂”。它将各参与方对数据的使用范围、条件及风控要求,统一转化为一套可机读、可执行的描述。为兼顾全面性与易用性,不妨从允许的行为(白名单)和该行为实施时的约束(黑名单)双视角结合构建策略组。
2.2
数据胶囊的实现思路
数据胶囊描绘了一个美好的构想,但胶囊本身只是“编程语言”,真正使其生效的系统才是“解释器”。而在实践中,如图3所示,为降低数据胶囊的落地门槛,我们注意到数据胶囊通常还要满足如下特性或约束:
- 数据透明性:封装需与数据内容语义无关,以支持多变的非结构化与结构化数据;
- 应用透明性:封装需与使用数据的软件应用无关,避免昂贵的应用重写或适配成本;
- 计算可行性:数据胶囊的封装不能带来显著的性能下降或资源占用膨胀。
图3:透明代理式的数据胶囊
如何做到既“透明”又“可控”?幸运的是,十多年后,机密计算与云计算时代中,我们有了很多新的工具来让这一切成为可能。看似矛盾的需求,通过“环境可控+组件叠加”的思路得以解决,例如说:
- 连接器业务系统:作为“大脑”,负责收集环境信息与解析胶囊策略,决定数据的授权逻辑与环境创建细节;
- 网关:作为“关卡”,观测/修改L3/L4 层流量乃至部分 L7 层协议信息,拦截违规的网络传输,变更流量以满足胶囊语义中的规则;
- 调度环境:作为“管家”,决定程序实际可访问的数据内容、网络权限、网络位置及算力配额;
- 文件系统:作为“仓库管理员”,直接对接物理存储池,是加密存储与落盘访问控制的关键防线;
- 操作系统:可编程内核技术的发展为观测进程行为、拦截非法调用提供无与伦比的细粒度控制能力;
- 虚拟化层:机密虚拟化、全盘加密等技术的发展,提供内存级的强隔离保护与机密启动,防止高权限的设备管理者窥探数据;
因此,图3中的数据胶囊代理并非单一的sidecar组件,而是遍布在可信连接器系统中的多层能力叠加,其事实上以合理的性能代价完成了原始文献中认证管理器、胶囊管理器、安全执行环境的全部能力。
2.3
数据胶囊的演进方向
除了数据胶囊描述能力的标准化与高效实现之外,笔者以为在数据胶囊的落地过程中还有两个问题值得关注:
- 数据胶囊封装的时机:现有可信数据空间标准更多是对交互流程和应具备的功能能力提出要求,并不限定实际实现方式,这意味着数据胶囊的形成往往不是在某个固定技术步骤“一次性完成”,而是随着业务流程的推进逐步完善:数据在采集阶段就写入部分元信息,在加工阶段补充血缘记录,在授权和签约阶段固化策略,在上架交易和流通前完成权属证明和策略校验。标准体系和系统架构需要允许这种“渐进式封装”模式,使数据胶囊能够自然嵌入既有流程,而不是成为流程之外的附加物。
- 异构安全基座下的数据胶囊流转:实践中,各类连接器和节点的安全能力差异很大,从具备机密计算、可信执行环境的高安全环境,到仅运行在通用云主机或边缘节点的轻量环境不一而足,但都需要共享同一套数据胶囊描述与策略语义。数据胶囊无需逐点核验目标环境,而是通过策略明确对执行环境的最低安全要求和信任前提,由各节点根据自身能力自动决定“接受、降级执行或直接拒绝”。为此,可信数据空间只需提供统一的环境能力标识与声明机制,使不同安全基座在理解同一胶囊策略的前提下,各自做出清晰的一致性响应。此外,如何通过密码学技术低开销的弥补环境本身的安全缺陷也是一个值得探索问题。
总体而言,数据胶囊仍处于概念演进与多路线探索阶段,尚未形成行业统一标准和广泛落地共识。但随着各类数据要素市场、行业数据空间和跨境数据流通机制的持续建设,数据胶囊的内涵和实现路径将不断丰富,并有望在以下方向上逐步成熟:
- 标准化:形成统一的胶囊结构规范、策略语义及互操作协议;
- 工程化:推出开箱即用的 SDK 工具链(创建、验证、执行、审计);
- 生态化:在金融、医疗等高敏感行业率先建立合规实践案例;
- 智能化:结合 AI 技术实现策略自动生成与冲突检测,降低使用门槛。
三 总结
本文对“数据胶囊”这一概念的学术起源进行了溯源,并重点阐述了其在可信数据空间语境下的演进形态、核心组成及落地逻辑。在可信数据空间中,面对参与主体多元、跨域交互频繁的复杂特征,数据胶囊通过对数据的安全一体化封装,为异构环境下的数据安全流转提供了一套标准化的“流通协议”,是值得关注的数据安全技术方向之一。
受限于篇幅,本文仅对数据胶囊的“解释器”实现方法做了简单的勾勒,如何在保障高效计算的同时,抵御来自数据外循环的安全威胁,实现对胶囊的透明承载与生效保障,下一节中我们将深入介绍绿盟密态可信云方案。
参考文献
[1]: 孙凝晖, 郭嘉丰. 数据件:一种数据要素标准化抽象[J]. 中国计算机学会通讯, 2024, 20(10): 1-10
[2]: Maniatis P, Akhawe D, Fall K, et al. Do you know where your data are? secure data capsules for deployable data protection[C]//13th Workshop on Hot Topics in Operating Systems (HotOS XIII). 2011.
内容编辑:创新研究院 顾奇
责任编辑:创新研究院 陈佛忠
本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。
关于我们
绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。
绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。
我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。
长按上方二维码,即可关注我
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:绿盟科技研究通讯 创新研究院 创新研究院《可信数据空间(六)数据胶囊》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论