文章总结: 本文整理了网络安全行业中大数据安全领域应知应会的100条术语,涵盖了从基础概念如XML、算法、数据仓库,到先进技术如神经网络、深度学习、特征工程等。这些术语包括数据存储单位、处理框架、分析模型、云计算类型、机器学习概念等,为网络安全从业者提供了全面的大数据安全知识体系参考。文章还解释了GDPR等法规和《安全港协议》等国际数据传输协议,帮助读者理解数据合规要求。 综合评分: 75 文章分类: 数据安全,网络安全,应用安全,云计算,AI安全
网络安全行业,大数据安全应知应会的100条术语
JUN哥
君说安全
2025年12月14日 13:22 贵州
分享网络安全知识,提升网络安全认知!
让你看到达摩克利斯之剑的另一面!
“大数据安全应知应会的100条术语”****
大家好,我是Jun哥。
当前大数据时代,搞网络安全行业,必须要搞懂的100条术语,这些基本概念一定要熟悉。
一百条大数据相关的术语
(1)可扩展标记语言(eXtensible Markup Language,XML):一种对文档中的数据进行编码的格式。这种格式由某些标准规范定义,具有机器可读性和人类可读性。
(2)算法:为得到结果而采取的一系列行动。
(3)分析模型:一个或多个数学公式,共同近似估算一个有趣的现象。
(4)Apache软件基金会:一个由分散的开源开发者社区组成的非营利组织。它维护在大数据生态系统中使用的许多软件。
(5)批量作业:一种定期间隔(如每天)而非连续执行的计算机任务,例如数据传输或计算。
(6)批处理:按照定期调度间隔运行的计算机作业。
(7)Beam(Apache):一种开源编程模型,设计用于处理批处理和流模式下的数据移动。
(8)大数据生态系统:用于存储、传输和处理大数据的技术
(9)黑箱模型:一种分析模型,其内部工作不能被轻易地解释和理解。
(10)商业智能(BI):专门用于报告和分析的数据传输、存储和交付的技术领域。
(11)资本支出:一种很长一段时间才能获得收益的投资,比如耐用品或者将被长期使用的软件的开发。参见运营成本。
(12)云计算:一种硬件或软件的使用。硬件或软件并非由最终用户拥有,而是根据某种订阅模式按需提供。
(13)聚类:一种分析技术。在这种技术中数据被分成组(簇),在某种程度上试图将相似的元素分在一组。
(14)并发性:在评估软件的适用性时,并发性是指能够同时使用软件的用户数量
(15)交叉验证:一种通过反复分割测试数据,对部分数据进行训练,然后对剩余数据进行有效性测试来验证分析模型的方法。
(16)暗数据:由正常计算机网络产生但通常不做分析的数据术语。
(17)数据湖:设计用于存储原始数据的任何大数据存储系统,其最终用途在收集时可能不为人知。
(18)数据科学:将任意数量的分析技术应用于任意数量的数据源的实践。这个术语指的是带来商业价值的非标准方法的创造性使用。
(19)数据仓库:构造便于分析和报告而不是运行操作的数据库,深度学习:利用具有许多隐含层的人工神经网络(通常有几十或几百层)。
(20) ElasticSearch:一个广泛使用的企业搜索平台,在功能上类似于Apache Solr。
(21)集成:用来描述一组分析模型的集合术语。这些模型产生单独的输出,然后以一种平等的方式进行合并以产生单个输出。
(22)ETL:抽取、转换、加载。将数据从源系统移动到数据仓库的步骤。
(23)专家系统:一种模仿人类专家决策能力的人工智能,通常通过学习与推断事实和规则来实现。
(24)快数据:以高速出现,必须被实时接收、分析和响应的数据特征工程。
(25)Flink:一个流数据的开源处理框架。
(26)Forrester:一家美国市场研究和咨询公司。
(27)Forrester Wave:Forrester 对特定技术领域的供应商进行的定期评估。
(28)Gartner:一家专门从事信息技术研究和咨询的美国公司。
(29)Gartner 技术成熟度曲线:由Gartner 开发的一种品牌的、图形化的表示方法,用于表示各种技术的成熟和采用。
(30)Gartner Magic Quadrants:由 Gartner 提供的分析,比较不同技术产品的供应商。通常每年更新一次。
《通用数据保护条例》(GDPR):欧盟有关隐私、资料保护及公平使用资料的全面规定,于2018年5月生效。
(31)吉字节(GB):2^30字节 (2的30次方),1GB=1024兆字节(MB)
(32)太字节(TB):1TB = 1024GB
(33)拍字节(PB): 1PB =1024TB
(34)艾字节(EB):1EB=1024PB
(35)泽它字节(ZB,又称皆字节):1ZB=1024EB
(36)尧字节(YB)表示:1YB=1024ZB
(37)拟合优度检验:一种统计检验,用以评估模型与测试数据的拟合程度。
(38)图形处理单元(GPU):专为计算机图形或图像处理而设计的电子电路。
(39)Hadoop(Apache):用于分布式存储和数据处理的基本开源软件框架。它使用 HDFS进行存储,使用MapReduce 进行处理。
(40)Hadoop分布式文件系统(HDES):Hadoop使用的分布式、可展的文件系统。
(41)Hive(Apache):Hadoop上用于数据仓库的一种开源软件。基础设施即服务(aaS):基于订阅模式为消费者提供计算机基础设施如存储空间和网络服务。
(42)物联网(I0T):一个指当今使用的数十亿设备的术语,这些设备具有嵌入式传感器和处理器以及网络连接。
(43)JavaScript:一种经常在网页浏览器中使用的高级编程语言。
(44)JSON:JavaScript对象表示法。一种常见的、可读的数据存储格式。
(45)Kafka(Apache):一个高度可伸缩的开源消息排队平台,由LinkedIn 开发,于2011年发布到开源平台。
(46)关键绩效指标(KPI):一种可量化的绩效衡量方法,通常在组织内部用于设定目标和衡量进展。
(47)Lambda体系架构:一种平衡快速和精确数据存储需求的数据处理体系结构。
(48)延迟:数据在点与点之间传输所需的时间。
(49)链接攻击:通过将私有数据链接到PI来消除其匿名性的非法行为。
(50)机器学习(ML):人工智能通过不间断地习得测试数据来实现自我功能提升的过程。
(51)MapReduce:Hadoop中用于在计算机集群中扩展数据处理的编程模型
(52)大规模并行处理(MPP)数据库:跨越多个服务器或节点传播数据的数据库。这些服务器或节点通过网络进行通信,但不共享内存或处理器。
(53)微转换:事件有目标指向但是本身并没有显著的价值。
(54)最低可行产品(MVP):一种拥有最少功能、满足早期客户需求并为未来开发提供反馈的功能产品,
(55)模型训练:调整模型参数以改进模型与可用数据的拟合的迭代过程。
(56)蒙特卡洛模拟:重复地将随机数输入到预先假定的分布中来模拟控制并研究结果的过程。
(57)神经网络(Neural Network, NN):由大量 “人工神经元” 按特定结构连接而成的计算模型,核心是通过 “数据驱动” 学习输入与输出的映射关系,而非人工编写规则。
(58)人工智能(AI):能对环境做出智能反应的机器的总称。
(59)人工神经网络(ANN):通过训练基本节点网络来学习任务的分析模型,这些基本节点有时在复杂的体系结构中是联系在一起的。
(60)人工神经元(Artificial Neuron):神经网络的基本计算单元,也称为 “感知器(Perceptron)”,是对生物神经元的简化模拟。
(61)权重(Weight, W):连接两个神经元的 “参数”,表示前一层神经元的输出对后一层神经元的 “影响程度”。
(62)偏置(Bias, b):为人工神经元添加的 “常数项”,用于调整激活函数的 “偏移位置”,避免模型仅依赖输入信号。
(63)激活函数(Activation Function):对人工神经元的 “输入总和” 进行非线性变换的函数,是神经网络能学习复杂非线性关系的关键(若无激活函数,NN 本质是线性模型,无法处理图像、文本等复杂任务)
(64)输入层(Input Layer):神经网络的 “数据入口”,直接接收原始数据(无需计算),神经元数量等于原始数据的 “特征维度”。
(65)隐藏层(Hidden Layer):位于输入层和输出层之间的 “计算层”,负责对输入数据进行特征提取与转换(如从图像中提取 “边缘→纹理→形状”)
(66)输出层(Output Layer):神经网络的 “结果出口”,输出模型的预测结果,神经元数量由 “任务类型” 决定。
(67)前向传播(Forward Propagation):数据从 “输入层” 流入,经过隐藏层的计算(权重 × 输入 + 偏置→激活函数),最终到达 “输出层” 并产生 “预测结果” 的过程。
(68) 反向传播(Backpropagation, BP):根据 “损失函数的结果”,从 “输出层” 反向计算到 “输入层”,求解每个权重和偏置对 “损失” 的 “贡献度”(即梯度)的过程。
(69)梯度下降(Gradient Descent, GD):基于反向传播计算的 “梯度”,逐步调整权重和偏置,以 “最小化损失函数” 的优化算法(核心思想:沿着梯度的 “反方向” 走,能最快找到损失的最小值)。
(70)损失函数(Loss Function):衡量模型 “预测结果” 与 “真实结果” 之间 “误差大小” 的函数,也称为 “代价函数(Cost Function)”(注:损失函数针对单个样本,代价函数针对全量样本的平均损失)。
(71)优化器(Optimizer):对 “梯度下降” 的改进算法,用于更高效地更新参数(解决梯度下降 “收敛慢、易陷入局部最优” 的问题)。
(72)学习效率(Learning Rate, lr):梯度下降中,每次参数更新的 “步长”(即权重调整的幅度:新权重 = 旧权重 – 学习率 × 梯度)。
(73)过拟合(Overfitting):模型在 “训练集” 上表现极好(损失小、准确率高),但在 “未见过的测试集” 上表现差的现象(即模型 “死记硬背” 训练数据,无法适应新数据)。
(74)欠拟合(Underfitting):模型在 “训练集” 和 “测试集” 上表现都差的现象(即模型 “没学会” 输入与输出的关系)。
(75)训练数据:用于拟合分析模型参数的数据。
(76)noSOL数据库:允许以非表格形式存储和处理数据的数据库运营成本:操作开销,一种持续的经营成本。
(77)个人身份信息(PI):个人的独一无二的信息,例如护照号码等人物角色:拥有特定的属性、目标、行为的用户群体。
(78)主成分分析:一种减少模型中变量数量的数学方法。
(79)私有云:由单个组织维护和使用的技术云。
(80)公共云:由第三方维护并根据某种订购模型提供的技术云。
(81)混合云,既包含公有云,也包含私有云的云
(82)随机存取存储器:可以在不访问之前字节的情况下访问的计算机内存。
(83)RASCI模型:一个定义项目职责的模型框架,分为责任、授权、支持、咨询和通知人。
(84)投资回报率(ROI):衡量投资收益的一种方法,通常有多种计算方式
(85)《安全港协议》:欧盟委员会(EuropeanCommission)在 2000年批准的协议,允许符合数据治理标准的美国公司将数据从欧盟传输到美国。
2015年10月6日,欧洲法院宣布欧盟《安全港协议》无效。2016年7月,欧盟委员会批准了欧盟-美国隐私保护(EU-USPrivacy Shield)。
(86)Salesforce(salesforce.com):一款受欢迎的、基于云端计算的软件,主要用于管理客户数据并协助销售工作。
(87)自助服务分析:最终用户利用数据与工具生成自己的基本分析数据透视表和图表。
(88)半结构化数据:添加了一些结构化字段的非结构化数据,例如向自由文本数据添加时间和位置字段。
(89)软件即服务(SaaS):集中托管的软件,它是在一个订阅的基础上使用的。
(90)平台即服务(PaaS):构建和维护运行在计算机硬件上、支持软件应用程序的中间件。
(91)软件框架:软件提供通用的、可扩展的、基础的功能,且这些功能被更专业的软件利用。
(92)Solr(Apache):一个开源的、独立的全文搜索平台,企业常用来管理文本搜索。
(93)Spark(Apache):伯克利实验室(Berkeley Labs)开发的一个在RAM内存上运行分布式计算的计算框架,已经在许多应用程序中取代了 Hadoop 的 MapReduce。
(94)标准查询语言(SQL):关系型数据库的用于插入和恢复的标准语句。
(95)技术堆栈:一组相互作用形成完整技术解决方案的软件组件
(96)张量处理单元(TPU):谷歌开发的机器学习专用处理器训练:参见模型训练。
(97)非结构化数据:不被划分为预定义数据字段的数据,例如自由文本或视频等。
(98)分组测试:即AB测试,测试哪一种产品版本在实践中最有效的一种方法。
测试周期结束后,对结果进行分析,查看相对于一个或多个指标,哪个版本执行得最好。
(99)版本控制系统:一种软件工具,用于控制和接受对代码和其他文件的更改信息。
(100)特征工程:不是在原始记录中创建数据字段,而是在分析模型中创建具有解释性价值的数据字段。
举个例子,从一个仅包含购买事件的数据库中计算字段“自上次购买以来的时间”
全文完,喜欢请三连,这对我很重要!
-End-
免责声明:本文相关素材均来自互联网,仅为传递信息之用。如有侵权,请联系作者删除。****
★关注,点赞,转发,设为星标★
与你一起分享网络安全职场故事
查看原文:《网络安全行业,大数据安全应知应会的100条术语》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论