数学和数据科学：入侵检测的新型秘密武器

攻防

4年前

　　查看日志文件寻找安全事件踪迹的日子一去不复返了。别会错意，这不是说日志文件不重要了。日志文件依然十分有用，是证实安全事件及其原因的关键，也是取证和缓解工作流的必备要素。但身处每时每刻都有大量数据生成的时代，手动筛查大量日志来发现问题太过浪费时间。而且，交付现代服务所需数字供应链的复杂互联性和不透明性，又进一步加剧了这个问题。

　　对大多数人而言，被高中和大学数学课程（比如微积分）凌虐的时候难免发出疑问：“现实生活中我啥时候才会用上这玩意儿啊？”但对于踏入信息安全世界的人而言，这个问题的答案就是“现在”。

　　从现在开始，各行各业都应该从金融服务业借鉴数学和数据科学知识来评估数据泄露的概率了。尤其是，安全团队可以利用时间序列数据构建描述用户行为的数学模型，然后查找异常并确定出问题的概率。

　　想要改善事件检测，企业可以运用以下数学与数据科学的要素和基本概念：

导数

　　“导数”这个词听起来很炫，但其实指的是相对于时间的变化率。在安全检测方面，单位时间（每小时、每天等）内身份验证失败次数的突然增加，就是一个值得关注的导数。例如，如果身份验证失败次数从每天5到10次猛增到每天100次以上，那就说明有人在尝试入侵（最好情况）或者已经入侵成功了（最坏情况）。这种时候，你应该观察的是函数的导数，而不是数量。

数学模型

　　安全领域另一个有用概念是建立资产行为的数学模型。例如，将软件即服务产品或平台当作一项资产。我们怎么确定出基线标准供后续识别异常使用呢？如果将GitHub用作代码存储库，则可以通过观察一些关键操作指标随时间变化的情况来建模GitHub，例如“克隆”、“合并”、“删除”、“添加用户”和“生成访问令牌”等。

基数

　　这些例子还包括基数的概念——集合中的元素个数。可能是来自已知设备的登录，我们在其中寻找特定关键操作的数量变化，表示潜在入侵指标。但要导出这一信息，我们首先得“学习”。举个最基本的例子，假设CEO每天用来登录的设备有三台，手机、平板电脑和笔记本电脑。如果这一数量增加到四或五台，那就可能是CEO开始用新设备工作了（有待证实）。但如果这一数量突然大幅增加，遭遇入侵的概率就很高了。

　　很多企业和安全团队都在按老方法做事件检测，大范围收集日志并搜索模式或正则表达式，但这明显并不足以应对当前的威胁态势。当然，日志仍然是数字取证不可或缺的一环。但若要限制暴露窗口和缩短检测时间，好加快启动修复活动，就得结合时序数据与数学和数据科学原则，这一点尤为重要。

参考阅读

威胁检测与响应的关键：情报枢纽