【深度学习】深度学习安防的探索与实践

文章目录 1 概述 2 安防领域的深度学习应用 3 当深度学习遇到系统和网络安全 3.1 前馈神经网络概述 3.2 基于深度学习的日志数据异常检测 3.3 MAD-GAN 基于生成对抗网络的时间序列数据多变量异常检测 4 使用深度学习检测TOR流量

1 概述

随着深度学习技术的发展，其使得计算机朝着真正的人工智能迈进了一大步，使用海量数据来自动识别图像和文本，并实时进行人机间的“对话”将不再是天方夜谭。虽然目前还有很多理论和建模等方面的问题等待探索和解决，但是深度学习已经显示出了它在技术上的巨大潜能。本文将简要介绍深度学习理论的起源与发展，重点阐述深度学习在安防领域的具体应用现状和存在的困难，并且介绍安防产品如何基于深度学习得到性能上的提升。

2 安防领域的深度学习应用

随着智能交通、智能家居的兴起，安防领域也将成为人工智能和机器学习关注的热点，从而成为受到深度学习第二波冲击的重要领域。

深度学习作为机器学习研究中的一个领域，其动机在于建立、模拟人脑进行分析学习的神经网络，它模仿人脑的机制来解释数据，例如图像、声音和文本等。目前，深度学习的应用领域中大约有70%都在图像识别方面，结合安防领域的现状，这就意味着，深度学习在这一领域必然会有颠覆性的发展。随着大数据与高清摄像机应用的普及，安防大数据时代已经到来，海量高清及以上分辨率视频数据给安防产品技术带来了大数据，这也就成为深度学习在安防领域必将快速发展的肥沃土壤。

机器学习(MachineLearning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。传统的机器学习方法有adboost、神经网络、支持向量机、随机森林、提升决策树等，虽然目前在安防领域已经获得了一定的成功，但它们在目标的定位率和识别率的提升上已经陷入了一定的瓶颈：很多具体应用中的识别率无法得到提升;在大规模多场景应用中，虚警问题也给安防领域带来了很大的困扰，即使是增加训练样本依然不能缓解这一问题。

以安防领域中最成功的车牌识别算法为例，虽然目前很多厂商都宣称自己的车牌识别率已经达到了99%，但这也只是在标准卡口的视频条件下再加上一些预设条件来达到的。在针对很多简易卡口和卡口图片进行车牌定位识别时，较好的车牌识别也很难达到90%。不过随着采用深度学习的应用，这一情况将会得到很大的改善。

3 当深度学习遇到系统和网络安全

3.1 前馈神经网络概述

可以使用神经元层来构建神经网络。网络需要实现的目标不同，其架构也是不同的。常见的网络架构是前馈神经网络（Feed ForWard Neural Network，FFN）。神经元在无环的情况下线性排列，形成FFN。因为信息在网络内部向前传播，它被称为前馈。信息首先经过输入神经元层，然后经过隐藏神经元层和输出神经元层。与任何监督学习模型一样，FFN需要使用标记的数据进行训练。训练的形式是通过减少输出值和真值之间的误差来优化参数。要优化的一个重要参数是每个神经元赋予其每个输入信号的权重。对于单个神经元来说，使用权重可以很容易地计算出误差。

然而，在多层中调整一组神经元时，基于输出层算出的误差来优化多层中神经元的权重是具有挑战性的。反向传播算法有助于解决这个问题。反向传播是一项旧技术，属于计算机代数的分支。这里，自动微分法用来计算梯度。网络中计算权重的时候需要用到梯度。

在FFN中，基于每个连接神经元的激活获得结果。误差逐层传播。基于输出与最终结果的正确性，计算误差。接着，将此误差反向传播，以修正内部神经元的误差。对于每个数据实例来说，参数是经过多次迭代优化出来的。

3.2 基于深度学习的日志数据异常检测

软件系统的故障诊断目的是在系统行为异常阶段，检测系统表征的异常信息，预测未来可能发生的故障，分析引发故障的根因。根因、异常和故障三个阶段之间具有时序和因果关系，已经出现的故障根因导致了系统现在的异常行为，进而在未来可能引发系统故障. 日志处理与特征提取主要有日志模板挖掘技术和日志特征提取技术两种，用以从降低日志文本的异构复杂性、从海量日志中提取有价值的信息。日志模板挖掘关注于日志中的常量部分，日志特征提取则关注于日志中的变量部分或其他特征。日志模板挖掘技术可以划分为基于静态代码分析、基于频繁项集挖掘和基于聚类的日志模板挖掘技术；日志特征提取技术可以划分为基于自然语言处理的日志特征提取技术、基于规则的结构化日志信息提取技术和基于统计模型的日志特征提取技术，如下图所示：

3.3 MAD-GAN 基于生成对抗网络的时间序列数据多变量异常检测

为了处理时间序列数据，如下图所示本文使用LSTM-RNN神经网络构造GAN的发生器G和鉴别器D。遵循典型的GAN框架，生成器G以来自随机潜在空间的序列作为其输入生成伪时间序列，并将生成的序列样本传递给鉴别器D，鉴别器D要将将生成的虚假数据序列与实际正常训练数据序列区分开来。

4 使用深度学习检测TOR流量

网络攻击的主要目的是窃取企业用户数据、销售数据、知识产权文件、源代码和软件秘钥。攻击者使用加密流量将被盗数据混夹在常规流量中，传输到远程服务器上。

大多数经常攻击的攻击者使用匿名网络，使得安全保护人员难以跟踪流量。此外，被盗数据通常是加密的，这使得基于规则的网络入侵工具和防火墙失效。最近，匿名网络以勒索软件/恶意软件的变体形式用于C&C。例如，洋葱勒索使用TOR网络和其C&C服务器进行通信。

匿名网络/流量可以通过多种方式完成，它们大体可分为：基于网络（TOR,I2P,Freenet）基于自定义系统（子图操作系统，Freepto）

其中，TOR是比较流行的选择之一。TOR是一款免费软件，能够通过称为洋葱路由协议的专用路由协议在互联网上进行匿名通信。该协议依赖于重定向全球范围内多个免费托管中继的互联网流量。在中继期间，就像洋葱皮的层一样，每个HTTP包使用接收器的公钥加密。

在每个接收点，使用私钥对数据包进行解密。解密后，下一个目标中继地址就会披露出来。这个过程会持续下去，直到找到TOR网络的出口节点为止。在这里数据包解密结束，一个简单的HTTP数据包会被转发到原始目标服务器。 启动TOR最初的目的是保护用户隐私。但是，攻击者却用它代替其他不法方式，来威逼善良的人。截至2016年，约有20%的TOR流量涉及非法活动。在企业网络中，通过不允许安装TOR客户端或者拦截保护或入口节点的IP地址来屏蔽TOR流量。

我们从Habibi等人的“利用时间特征来发现TOR流量的特点”论文中得到启发，并遵循基于时间的方法提取网络流，用于本文TOR流量的检测。但是，我们的架构使用了大量可以获得的其他元信息，来对流量进行分类。这本质上是由于我们已经选择使用深度学习架构来解决这个问题。请注意，源IP/端口、目标IP/端口和协议字段已经从实例中删除，因为它们会导致模型过拟合。我们使用具有N隐藏层的深度前馈神经网络来处理其他所有特征。每个企业面临的匿名流量检测的挑战是存在细微差别的。攻击者使用TOR信道以匿名模式偷窃数据。当前流量检测供应商的方法依赖于拦截TOR网络的已知入口节点。这不是一个可拓展的方法，而且很容易绕过。一种通用的方法是使用基于深度学习的技术。