人工智能在网络流量分析中的研究与应用-网盾网络安全培训学校

人工智能在网络流量分析中的研究与应用

摘要：

网络流量分析是安全威胁检测的一个重要研究方向。当前流量分析主要采取事件特征信息与特征库匹配的方式，然而该方式存在特征库组织简单和更新不及时的缺点。此外，持续攻击技术更新快，容易规避现有规则，从而导致检测的漏报和误报率较高。为此提出并设计了一种网络流量安全智能分析系统。该系统能够自动学习网络流量的特征，智能地识别出异常并进行深度分析，从而可以准确快速定位问题并提高安全防护能力。

内容目录：

1　AI 在安全领域的应用

2　AI 在安全领域应用的现状

3　AI 在网络流量智能分析中的应用

3.1　系统功能架构

3.2 系统软件架构

3.3　系统关键技术

3.3.1　基于自学习的网络威胁特征轮廓扫描技术

3.3.2　隐蔽恶意流量检测技术

3.3.3　基于隐马尔科夫的行为序列建模技术

3.3.4　异常登陆行为检测技术

3.3.5　恶意链接检测技术

3.3.6　基于大数据的分布式关联分析技术

4　系统的实现、演示和验证

4.1　演示验证环境

4.2　系统分析模型

4.3 关键指标验证

5 应用场景

6 结　语

伴随着互联网技术与应用的快速发展，网络流量迎来爆炸式增长。安全方面，网络边界模糊给流量监测带来了一定的挑战，同时恶意流量的增加提高了安全防护的难度。近年来，以机器学习为核心的人工智能（Artificial Intelligence，AI）技术在计算机视觉、语音识别、自然语言处理等方面取得了较好的应用效果，展现了机器学习在分类、预测及辅助决策方面的能力优势，也为解决网络空间安全问题带来了新的途径。目前，机器学习技术在恶意样本检测、域名生成算法（Domain Generation Algorithms，DGA）域名检测、域名系统（Domain Name System，DNS）隧道检测、恶意加密流量检测、威胁情报挖掘等领域都有一定的应用。根据高德纳咨询公司（Gartner）的定义，网络流量分析技术是以网络流量为基础，应用 AI、大数据处理等先进技术，基于流量行为数据进行实时分析并展示异常事件的客观事实的技术。

本文主要对网络流量安全智能分析系统中的AI 关键技术应用及系统的实现和验证进行全面的阐述。本文通过研究实时流量的采集、存储、分析过程，构建安全数据分析模型，将智能化的分析方法应用到网络流量采集与分析中，提高网络威胁与违规行为的精准识别研判能力，从而能够及时发现并追踪溯源潜伏周期更长、攻击手段更加隐蔽的威胁，为应急响应与预警处置提供有力的数据支撑。

１AI 在安全领域的应用

AI 在安全领域的应用是当前国内外企业技术创新和应用创新的重点。中国工程院院士方滨兴指出了新技术和安全之间存在的两种关系：第一种是新技术服务于安全即新技术赋能安全，既可以服务于防御，也可以服务于攻击；第二种是新技术引入新的安全问题，即新技术和安全是伴生关系。AI 作为新技术，既可以赋能网络安全，提升网络防护能力，也可以被恶意利用，增强攻击性和破坏影响力。同时，AI 技术自身存在脆弱性，如果被攻击者利用，可能会引发新的安全风险。

近年来，AI 的发展得益于 3 个主要驱动力：（1）特征降维、人工神经网络、概率图形模型、强化学习和元学习等方面的新理论和新技术层出不穷，在学术和工业领域都取得明显突破；（2）计算能力的进步使许多计算资源消耗型机器学习算法可以大规模普及；（3）在大数据时代，数据资源的极大丰富可以让机器学习模型泛化能力更强，尤其是深度学习技术使学者们能够基于更多数据来构建合理的 AI模型，让机器发挥更大的潜力，也让各种任务取得更好的结果。

AI 的安全应用是指以 AI 相关技术为支撑的安全应用，具体分为安全防御和安全攻击两个方面的应用。安全防御是指基于 AI 的安全检测、安全防护等应用，比如入侵检测、入侵防御；安全攻击是指基于 AI 的入侵隐藏、行为欺骗等应用，比如社会工程攻击。

２AI 在安全领域应用的现状

随着网络安全技术向动态防御和主动防御演进，AI 以其对网络安全威胁的快速识别和反应以及自主学习的巨大潜力，成为推动网络安全技术创新的重要引擎。当前，AI 已从初期的恶意软件监测广泛应用到入侵检测、态势分析、云防御、反欺诈、物联网安全、移动终端安全、安全运维等诸多领域。例如，在入侵检测方面，以色列 Hexadite公司利用 AI 来自动分析威胁，迅速识别和解决网络攻击，帮助企业内部安全团队管理和优先处理潜在威胁；我国山石网科公司研发的智能防火墙，可基于行为分析技术，帮助客户发现未知网络威胁，且能够在遭受攻击的全过程中提供防护和检测。在终端安全方面，美国 CrowdStrike 公司开发了基于大数据分析的终端主动防御平台，可以识别移动终端的未知恶意软件，监控企业的数据，侦测零日威胁，并形成一套快速响应措施，提高黑客开展攻击的风险和代价。在安全运维方面，美国的 Jask 公司采用 AI 算法对日志和事件等数据进行优先级排序并逐一分析，以协助安全分析师发现网络中有攻击性的威胁，提高安全运营中心的运营效率。从应用深度看，AI 在网络安全的应用程度仍处于前期积累阶段，除可提升部分网络安全防护产品性能外，基于 AI 技术的网络安全防护体系的创新仍在研究和试验阶段。目前，国外安全企业起步较早，如英国DarkTrace 公司基于剑桥大学的机器学习和 AI 算法仿生人类免疫系统，致力于实现网络自动自主防御潜在威胁，能够帮助企业快速识别并应对人为制造的网络攻击，同时还能预防基于机器学习的网络攻击。相比之下，国内基于 AI 技术的网络安全防护整体解决方案尚处于研究阶段，仍需继续探索如何利用 AI 技术实现整体网络安全防护体系和架构的创新优化。

３AI 在网络流量智能分析中的应用

网络流量作为记录和反映网络及其用户活动的重要载体，几乎可以跟所有与网络相关的活动联系在一起。对于网络威胁而言，网络流量特征正是黑客入侵及其他威胁行为发生时会随之产生的重要特征。对于网络攻击而言，不论攻击成功与否，攻击行为的载体只可能是网络流量；因此，对海量的网络流量数据进行收集和处理后，经由系统智能分析模型的分析，可以自动感知网络明文流量中的异常行为、异常流量并及时报警，达到识别非法应用协议、网络攻击行为的目的，提升用户应对应用系统异常行为的效率。

3.1　系统功能架构

通过对积累的异常行为和网络攻击的数据特征进行深入研究，将研究结果用于网络流量深度检测，可以突破目前的瓶颈，增强对未知威胁的识别能力和上报能力。按照流程，网络安全流量智能分析系统需将采集到的数据进行处理后入库，然后从数据库中提取要分析的数据，使用智能分析模块进行分析，最终提供异常行为监测、威胁监测，以及数据共享配置管理。系统功能架构如图 1 所示。

图 1　功能架构

数据采集模块收取探针发送的流量数据，实现网络全流量采集功能；数据处理模块对收取的流量数据进行预处理，包括标准化和格式化，保证数据的完整性和可用性。智能分析模块负责提供智能分析的基本方法，即作为系统内置的智能分析工具箱，提供包括但不限于关联分析、检索分析、机器学习、行为分析、AI 分析、可视化建模分析等分析方法。异常行为监测模块对各种异常行为的特征进行深入研究，融合构建出异常行为数据模型，实现对网络内违规行为的识别，可以识别的网络的违规行为包括但不限于失窃密检测、失陷账号分析、离群分析、虚拟专用网络（Virtual Private Network，VPN）登陆地域账号分析、合规分析、异常账号登录分析、特权滥用分析、资产外联分析等。

威胁监测模块对收取到的全流量数据基于数据特征进行智能分析，识别当前网络中存在的威胁。针对复杂的安全场景，首先可基于单条数据特征、周期、频率等简单分析逻辑进行分析建模，发现潜在威胁；其次，通过基于时间序列的多条数据关联分析建模，对数据和数据之间的因果依赖、发生顺序、上下文进行分析以发现潜在威胁。可以识别的威胁包括但不限于外联流量攻击、异常流量、暴力破解，僵尸主机、结构化查询语言（Structured Query Language，SQL）注入攻击等。此外，支持自学习的流量分析模型，能够动态优化或修正模型的参数、阈值，能够识别流量型攻击和应用型攻击等。数据共享配置管理模块接收管理系统下发的策略，进行软件配置、状态检测和信息收集上报，并为了满足多个系统之间的数据交互与共享，制定数据共享规范，对数据外发的接口、参数、协议进行标准化，从而实现多系统流量数据共享。

3.2 系统软件架构

按照体系架构的设计，软件实现上划分为数据采集、数据汇入、存储计算、数据智能分析、安全应用 5 个部分。软件架构如图 2 所示。

图 2 系统软件架构

数据采集层通过探针实时接收全流量数据，并实时进行流量智能识别。收集到的数据，通过数据接入接口，进入数据汇入层。在数据汇入层实现数据的预处理、数据入库，并进行相应的数据治理，比如提供数据源的管理和监控。

存储计算层，提供分布式的存储与计算环境，以及资源调度机制。

数据智能分析层可以提供检索分析、智能安全分析和调查分析。其中的智能安全分析，可以在智能模型的基础上，提供关联分析、深度分析、行为分析、机器学习等分析类型。同时可以对模型进行统一的任务管理、调控和智能修正等操作。

安全应用层使用基础的智能分析工具，提供专项监测，如异常行为监测、威胁监测、安全监测，并提供数据共享的配置管理。

3.3　系统关键技术

网络流量安全智能分析中，主要结合并应用的AI 关键技术如下文所述。

3.3.1　基于自学习的网络威胁特征轮廓扫描技术

流量自学习扫描是为了扫描出正常状态下的网络基线，在流量学习中最重要的是学习配置结构。学习配置结构是描述学习方式及学习结果应用方式，主要包含配置学习周期时长、学习次数（包括无限次）、扫描策略生成方式、扫描策略自动生成条件等。

3.3.2　隐蔽恶意流量检测技术

很多恶意攻击者对安全规则、内控措施非常了解，他们很清楚哪种操作实施到哪种程度会触发报警。因此，恶意人员会通过降低非法操作行为的次数和规模，潜藏在正常流量中以避免被传统安全系统检测到，达到隐蔽攻击的目的，而传统的检测方式难以检测此类隐蔽威胁。隐蔽恶意流量检测技术通过利用长周期分流量行为进行构建，将行为特征进行横向与纵向对比，检测长期低频等隐蔽恶意流量行为。

3.3.3　基于隐马尔科夫的行为序列建模技术

基于隐马尔科夫的行为序列建模技术首先提取网络流量数据中的行为特征作为当前被检测用户的行为特征；其次提取训练序列的行为特征，建立正常序列库，并训练序列的马尔科夫链状态集，计算该马尔科夫链状态的转移概率矩阵，以此来描述用户的正常行为；最后将被检测用户的行为特征与历史行为特征进行对比，判断当前行为是否为异常行为：如果两者的偏离超过一定阈值，则认为是异常的；如果两者的偏离在正常范围内，则认为正常。

3.3.4　异常登陆行为检测技术

针对账号的异地登陆、频繁登陆进行检测，通过对安全域过滤、维度过滤、条件过滤等算子的研究，对异常登陆行为进行识别。

3.3.5　恶意链接检测技术

常见的网络攻击中，恶意链接经常扮演着重要角色，并被广泛应用到各种类型的攻击中，如钓鱼、垃圾邮件、SQL 注入以及恶意软件。传统的识别方法是基于黑名单检测和规则检测，但黑名单具有漏判严重、时效性低的缺点，而规则检测容易被攻击者绕过。恶意链接检测技术基于机器学习算法，通过分析恶意链接的特点提取关键特征进行训练，可以弥补黑名单和规则检测的不足。

3.3.6　基于大数据的分布式关联分析技术

将异常流量、异常行为、潜在威胁等分析结果作为输入数据的同时，接入各种其他类型的数据，如安全日志、流量数据、资产数据、漏洞数据、威胁情报数据等，并使用基于大数据的分布式关联分析技术、图计算技术等，实现追踪溯源，以及实现高级持续性攻击、定向攻击等场景分析。

４系统的实现、演示和验证

4.1　演示验证环境

为了验证网络流量安全智能分析系统的数据采集、存储、深度分析、智能识别威胁和实时监测异常流量的能力，需对网络流量安全智能分析系统进行功能验证与安全场景的演示验证。网络流量安全智能分析系统在实际验证过程中，部署于单位网络出口处。网络流量安全智能分析系统在演示验证环节，使用系统最小部署模式，如图 3 所示。

图 3 网络流量安全智能分析系统演示验证部署

4.2　系统分析模型

通过针对网络特点进行安全场景的构建和对数据分析模型的研究，并综合运用通用的智能分析方法和威胁识别技术，如表 1 所示，构建了网络流量安全智能分析系统中常用的网络安全场景下的数据分析模型、实现思路和运用的智能算子的对应关系。

表 1 数据模型、实现思路和运用的智能算子对应表

4.3 关键指标验证

在试验环境下，结合对网络流量安全智能分析系统的要求，可以对以下 4 个方面的关键指标进行验证：（1）能够根据网络业务对网络流量情况进行智能分析，自动生成流量行为模型，根据该模型及时发现网络中的异常流量行为。在相对独立和封闭的一些专用网络中，无法借助互联网上的多种手段进行网络内的异常发现，只有借助流量数据进行分析，因此对流量的智能分析非常重要。因此，通过智能化的方法从流量数据中分析出日常的规律，将其作为基线，当有不符合该基线的流量出现时，说明有疑似异常的行为出现。（2）机器学习算法支持的属性至少包括应用协议类型，源目的地址，数据包数，数据包字节发现分布，网络流向，时间维度，数据类型等 7 种维度属性。发生异常行为时，体现在流量数据特征上的可能有多种维度，比如使用了非法的协议、产生了过大的流量、错误的时间序列等。因此，需要智能分析行为基线的机器学习方法，且至少能够支持流量数据的 7 个基本维度属性。（3）支持自学习的流量分析模型，能够动态优化或修正模型的参数和阈值，能够识别流量型攻击和应用型攻击。在实际的业务运转过程中，不同阶段、不同时期、不同区域、不同业务系统，对正常流量的标准可能会不同。因此，需要流量分析模型具备动态调整参数和基线的功能。（4）网络行为数据的特征建模方式不少于 5种。网络中的异常行为都有其特征，识别异常行为的模型也是依据数据特征进行匹配和计算。根据业务的需要，能够识别出的异常行为不少于 5 种，至少包括非法账户、非法权限等类型。（5）能够识别至少 4 种网络流量攻击。网络中的攻击行为也会在网络流量数据中体现其相应的特征，需要能识别不少于 4 种常见的攻击行为。

５应用场景

本系统的研究成果可应用于以下场景：（1）面向大规模网络的全维流量智能分析。可进行分布式的、多网络节点的全维流量采集，由系统生成分析模型，自动感知网络明文流量中的异常行为、异常流量并及时报警，识别非法应用协议、网络攻击行为，提升用户应对应用系统异常行为的处理效率。（2）面向网络空间作战的未知威胁深度检测。利用该系统可提升未知威胁的发现能力，并且可以灵活扩展威胁识别算法，从而提高检测的准确性，并能够告警上报未知的恶意代码和异常行为。（3）面向高级持续性威胁的网络攻击溯源分析。系统使用智能化的数据模型从全流量数据中分析出攻击者的路径和所处的攻击阶段，对持续性威胁进行追踪和溯源分析。（4）全局网络安全预警。系统可对网内各个关键节点中的潜在恶意行为、攻击行为综合监测，对监测结果及时响应和上报，通过协同防御手段进行安全预警，实现全局防护。

６结　语

本文将智能化分析方法应用到网络流量采集与分析中，可以提高复杂网络的实时监测能力，提高网络威胁与违规行为精准识别研判能力，能应对潜伏周期更长、攻击手段更加隐蔽的威胁。本文设计的网络流量安全智能分析系统能够及时发现安全威胁并追踪溯源，可以为应急响应与预警处置提供有力的数据支撑。本文方案的应用目标是达到网络流量分析的智能化，通过建立网络流量安全智能分析模型，自动感知网络明文流量中的异常行为、异常流量并及时报警，识别非法应用协议、网络攻击行为。

行业新闻

人工智能在网络流量分析中的研究与应用