提升安全数据管理能力的10个技巧

攻防

1年前

安全遥测数据是确保网络安全程序健康运行的核心所在。无论是满足法规强制的日志记录合规要求、为安全运营中心（SOC）的日常操作提供必要的数据支撑、协助威胁猎手追踪未知威胁，还是提升事件应对效率，安全遥测数据都至关重要。

因此，安全数据管理和安全数据架构正迅速成为CISO必须逐步建立并掌握的关键能力。在这一过程中，他们需要在策略和战术层面上进行深思熟虑的规划和执行。以下是几项最佳实践，旨在指导安全领导者如何在努力优化安全数据管理、最大化安全数据的价值以及尽量减少投资成本时予以考虑。

规范化与关联性分析

面临着众多的数据来源 —— 包括来自各种系统的日志数据、安全监控的遥测数据以及众多内部和外部来源的威胁情报，安全数据管理最困难的部分之一就是如何将这些数据进行有效的规范化处理，以实现跨所有数据源的一致性查询和分析。

安全运维团队当前存在的一个关键问题是，他们可能低估了融合多样化安全数据源的复杂性，并且未能优先处理数据的有效规范化以及相关分析，这可能会导致操作效率低下并产生安全漏洞。

在SOC决定采用某种数据驱动工具之前，必须慎重考虑这些工具是否能与现有的系统和数据流顺畅集成。由于规范化和数据质量问题导致的集成和分析挑战，数据的摄入和迁移成本可能会大幅度增加。

对于正在评估或部署数据中心工具的SOC来说，最重要的最佳实践是确保工具的可扩展性以及与现有系统的兼容性，同时还要确保它能提供实用的洞察结果而非仅仅是数据收集。

日志数据的标准字段方案

通过积极的规范化处理，安全团队可以更加有效地利用多种工具，充分挖掘可用于安全分析的数据资源。

安全运维团队应当为组织内所有日志数据制定明确且统一的字段标准方案，这包括设定每条日志记录必须包含的标准字段集合，如时间戳、源IP地址、目的IP地址、用户及执行的操作等。确保各种日志来源之间的字段保持一致，以促进数据的相关性分析与整合。

通过这种标准化操作，即使是对最复杂的日志来源也能建立一个易于理解的模型，便于围绕新的数据源开展检测和关联分析。然而，这需要资源的投入，因为需要专人持续监控这一过程，确保数据严格按照规范进行处理。如果没有进行适当的验证，组织可能会遇到难以发现的盲点。

在数据流之上创建内容的能力

仅依赖安全产品提供的预构建AI检测规则可能不足以充分应对组织特定的威胁环境和独特风险。尽管安全产品中的AI算法具有一定的价值，但它们往往无法覆盖所有情形。因此，SOC团队需要制定一套策略，针对组织的环境、行业以及具体风险，来建立定制化的检测规则。这些定制化的规则能够更精准地发现和应对特定上下文中可能存在的威胁，从而提升威胁检测和响应的有效性。

追踪训练数据的来源以确保可信AI支持的相关性

如今，安全数据相关性和检测能力已经取得了长足的进步，并且这一趋势只会随着人工智能和大型语言模型（LLM）的智能应用而加速发展。

在安全运营中，从看似杂乱无章的数据中提取与安全相关的信号是最适合自动化的领域之一。然而，AI和LLM在分析安全数据以获取有意义信号方面的可靠性将取决于大量的数据来源和数据管理问题。

近来，一些没有语言模型经验的公司开始将LLM整合到产品中，以分析和推理安全事件。然而，他们对这些模型的运作方式、训练数据以及在回答某些问题时可能产生误导性结果的原因缺乏了解，即使这些问题本身不应该导致这样的答案。

针对成本来评估数据来源

将质量差的数据输入到SIEM（security information and event management,安全信息和事件管理）或其他安全工具中往往会增加成本，同时还会分散安全分析人员的精力，使其无法得出有意义的判断。安全运营应当谨慎选择所依赖的分析资源，并对这些资源进行评估，以挑选出那些具有明确目标和成本考虑的来源。

清晰地定义目标和需求，并了解更多或更好质量的数据如何对于提高决策质量有着巨大的帮助，这将对组织产生积极的影响。数据集成需要具有事先感知到的目的和价值，以帮助优先考虑那些对组织业务具有重要价值的数据。在整合所有重要的内部数据来源和工具的同时，还需要对成本、安全价值以及组织的核心价值观进行平衡。这是一个复杂的方程式，需要在满足安全需求的同时，确保成本控制和业务价值的最大化。

警惕垃圾数据

在评估用于检测和关联安全事件的数据来源时，组织应致力于排除数据流中的噪音。大部分企业都会极力阻止垃圾数据接近自己的环境，这些数据既不是高保真度的，也不指向有意义的结果，例如未经过高度受限制环境验证的网络检测和未经调整的Windows日志（除了身份验证）。

这些警报不是高保真的，不会为组织提供有效的安全结果，所以需要将其忽略。安全团队需要经过深思熟虑，确定数据摄取的内容，筛选重要信息，并将不同来源的警报进行关联，最终将数据打包，以更好地理解安全事件。

安全运营团队与数据科学专家跨部门交流

选择合适的数据源进行有效分析，并制定利用这些数据源的检测策略，需要将安全和数据科学的知识进行结合使用。无论是通过招聘具备数据科学知识的安全分析师、对现有分析师进行数据科学概念的培训、聘请数据科学专家与安全专家协同工作，还是三者的某种组合，安全运营团队都将越来越需要将他们的技能与数据科学专长相结合。

在类似于 MSP 或大型企业这样的健壮组织中，引入数据科学家正逐渐成为一种最佳实践。

数据科学和安全工作之间存在着一种相辅相成的关系，正确的结合能够促进安全数据架构的高效设计以及安全数据管理的有效执行。负责构建检测的人，无论是针对单一工具还是多种工具，他们都应清楚地知道构建这些检测需要哪些数据。他们会在数据集中寻找这些数据，并与重视数据管道成本优化的数据科学团队进行沟通。数据科学团队可以进提供安全团队所需要的数据部分，而无需引入所有其他的日志记录和遥测信息，或者可以直接在一个无需导入数据的系统中进行查询。

数据解耦以提高灵活性

多年来，安全策略制定者一直在追求安全数据整合的理想目标。长期以来，SIEM 的目标是提供一个“一站式”视图，用于查看与安全相关的数据，并提供一个用于数据关联和检测的统一平台。然而，在企业架构中，数据摄取和数据输出的成本，以及规范化和解析问题，都在某种程度上模糊了这一目标。一些专家认为，至少在短期和中期内，安全领域需要对安全数据整合理念进行重新评估和反思。

组织想做的是将自己的分析、数据和检测组件，甚至是事件响应进行解耦，这样就可以根据需要来进行混合和匹配，添加或移除它们。

数据湖带来更经济的可观察性

作为解耦的一部分，越来越多的安全组织正在将安全数据湖纳入其分析架构中。这些非结构化的安全数据池为快速且低成本地摄取新的数据源提供了一个灵活的场所，这些数据源仍然可以直接查询，并可以在其基础上构建或整合出新的安全分析能力。

安全数据湖为安全团队提供了更多的灵活性以及更快的价值实现，因为他们不需要调整其后端数据架构。许多传统的 SIEM 需要专职员工来管理数据基础设施，并且随着新数据源的增加，这将需要大量的维护和投入。组织需要注意的是不要过于纠结于实施的细节。

目前，一些组织正试图自行搭建自己的安全数据湖，这变成了一个科学项目，让他们安全团队的注意力从发现威胁转移到更多的系统管理工作上。这显然是一个不明智的做法。

在数据流之上创建内容的能力

在安全数据生态中，遥测和日志数据都扮演着重要角色，但是 SOC 分析师们更加重视的是建立在这些数据之上的检测内容。团队应该寻求那些能够直接提供检测规则和安全分析内容的数据驱动型安全工具。然而，预设的规则可能不足以满足组织识别其特有风险的需求。因此，组织需要将安全数据管理能力与在数据管道上创建高质量内容的能力结合起来。

重要的是要认识到，尽管安全产品中的 AI 检测规则很有价值，但它们通常无法涵盖所有场景。SOC 团队应该实施一种策略，创建针对组织环境、行业和特定风险量身定制的检测规则，这些定制规则可以通过解决可能不被通用 AI 规则覆盖的特定上下文威胁，来提高威胁检测和响应的精确度。

为新数据源做好准备

随着安全市场的迅速发展，需要监控和记录的新数字系统的开发步伐也在快速推进，安全团队需要为他们的安全分析能力做好长远的准备。这就是为什么安全领导者应该基于当前的需求和对未来不确定需求的灵活性来审视他们的分析和数据管理工具，而不是频繁更换。

我们不知道未来五年里哪些关键数据源会变得重要，所以重要的是我们有足够的能力，有高效的平台和服务，能够摄取那些未知的新安全控制，而不必每两年就更换。

数世点评

安全数据是网络安全程序健康运行的生命线，更是构建强大防御体系的关键要素，它贯穿于风险识别、威胁分析、防护措施制定与执行，以及事后应急响应与恢复等各个环节。

而随着网络安全环境的日新月异，安全架构和数据管理策略也需要设计得足够灵活。组织应避免过度依赖特定的技术或平台，而是构建一个模块化且可扩展的架构。此外，也应重视安全数据的互操作性和标准化，确保新的数据源和安全控制可以无缝地整合到现有的系统中。

— 【 THE END 】—