行业新闻

数据中心流量整合及应用的研究与实践

数据中心流量整合及应用的研究与实践

随着金融科技的进步和金融业务的发展,网络规模和网络流量都有飞速的增长,网络运维和网络安全保障的复杂度与难度也日益提高。尤其在网络流量管理和应用方面,如何实现全网流量的平台化输入输出管理、如何实现流量的灵活分配和处理、如何采用较新技术实现流量的业务性能可视化和安全态势可视化,都是非常值得研究和实践的内容。本文结合工作实际,对以上内容进行分析研究,并介绍相关实践。

网络流量采集的难点及方法

网络流量是业务性能及安全态势分析的最重要“源数据”,大型银行数据中心的网络架构往往包含多个网络逻辑分区,业务访问路径可能会跨多个网络分区,同时网络分区内部二层路径多,在实现网络流量采集与应用的过程中往往会遇到如下挑战。

一是全量采集难实现。由于分析工具端口与性能的限制,通常无法实现多中心、全区域网络流量采集,并因此无法实现端到端的全路径流量采集。二是流量输出不精准。受限于交换机端口镜像功能,难以对采集的流量进行预处理(过滤、去重、截断等),导致分析工具性能和端口消耗巨大。三是多视角并行分析难实现。多个分析系统存在流量使用冲突情况,难以实现基于网络流量的网络、应用、安全、审计等多视角实时分析。

因此,实现数据中心网络流量的全量采集和集中管理非常必要。通过建立网络流量管理平台,将传统架构网络、SDN网络、虚拟机、容器云等多种不同类型的网络流量进行有机整合,实现多数据中心流量汇聚和统一调度,为后端的流量应用工具提供有效的源数据支持。

在常规网络环境下,可通过端口镜像技术、熔融拉锥或平面光波导无源分光技术、链路Bypass串接技术等来实现网络流量采集。在云环境(如VMware虚拟机平台、OpenStack虚拟机平台或Docker容器环境)下,通过在云内部署软采探针,利用DPDK流量监听技术实现vSwitch流量采集,再结合流量预处理软件,完成宿主机内部流量的采集和预处理,经过处理的采集报文通过GRE、VxLAN等隧道封装发送至外部流量采集平台。

以上的采集方式均属于旁路采集,采集设备或采集软件不参与通讯过程,只是通过技术手段获取一份实时通讯报文。除此之外,还有另外一种链路串接流量采集模式,在串接模式下,流量采集设备串入网络中,一方面可以进行流量监听采集,另一方面可以对网络异常通讯进行主动干预,配合诸如WAF、IPS等网络安全工具的使用,进一步增强了网络维护的手段。通过这类串接采集设备,可以将原有串接在网络上的多个安全工具实现“物理并联+逻辑串联”功能,提高网络的整体可靠性,避免了传统串联安全工具带来的网络瓶颈。

对于同城灾备、两地三中心等多数据中心场景,可通过裸光纤、DWDM专线或带内隧道传输等多种方式实现网络流量采集全覆盖与统一调度。

图 网络流量管理及应用架构

网络流量处理要点

在提供进一步使用之前,需要对网络流量进行汇聚、复制与差异化处理。通过这些处理,可向各流量应用系统(如可视化分析和安全监控类系统)提供满足其需求的网络流量。流量处理的要点如下。一是实现标签生成与写入。通过自定义VLAN标签、纳秒级时间戳等方式,给采集到的原始报文增加额外的附加信息,后端分析工具进行流量应用过程中,可以利用这些附加信息,扩展分析深度和分析颗粒度。二是实现精细化流量过滤。原始报文中含有各种参数信息,如:五元组、MAC地址、VLAN ID、VxLAN VNI、应用协议、报文长度等,利用这些参数对报文进行筛选过滤,剔除无效流量,提高流量应用的总体效率。三是实现报文精细整形。根据流量应用的个性化需求,对经过过滤处理的原始流量进行“精加工”,如:去重剔除重复报文、切片删除冗余字段、去掉报文头部标签或外部隧道等。四是实现敏感信息脱敏。网络流量应用过程中,需要充分考虑到敏感数据的安全保护问题,生产网流量中携带的关键交易信息和用户信息可能需要脱敏之后再送往分析工具,流量处理可利用掩码和截短方式对报文中的关键信息进行扰码或直接删除。五是实现流量按需分配。在实际应用中,流量分配还应考虑实现流量复制、分片报文处理、按需分配、同源同宿负载均衡等技术,保证各流量应用工具可以获取到最为有效的“关键源数据”。

网络流量的多视角应用

在实现网络流量的采集和处理之后,可将其输出到不同目的的分析系统中,主流的三类应用为:网络性能监控、业务性能监控、网络安全监控。具体如下。

基于流量的网络性能监控应用。此类应用分析网络数据包交互过程,基于网络协议规范,对流量进行精细化分析,生成每个会话、每个主机、每个应用、每条网络链路的多维度上百种网络性能指标,从而实现网络层面的全局监控。通过对网络数据包的存储和检索,还可进行更细致的数据挖掘,对网络故障做出根因分析。

基于流量的业务性能监控应用。此类应用分析业务交易全过程。通过对交易全过程数据流的分析,对交易成功率、交易时延、交易类别等业务运行状态提供快速准确的监控报警能力,特别是在业务促销、大业务量突发等场景下具备实时监控能力;通过对业务数据流与交易的深度追踪,可对异常业务进行深度分析,查找深层次原因;通过业务交易流量的统计,可建立业务性能基线,准确反映一个时间段内业务和应用的变化趋势,并对未来的业务和应用发展态势做出预测。

基于流量的网络安全监控应用。此类应用关注于网络安全监控,通过对网络流量进行特征分析、行为分析、IP分析等多种方式,甄别出网络攻击和异常行为并报警。该类应用结合威胁情报、流量分析与日志分析,可实现高级威胁的侦测,发现网络中潜在的异常威胁和安全隐患。此外,能够利用网络流量存储,基于HTTP会话解析和文件还原,直观还原攻击现场,实现攻击溯源。

开发银行网络流量管理实践

国家开发银行网络流量汇聚平台及相关流量应用系统,已经成为开发银行金融生产网安全平稳运行的重要支撑平台。

为捕获完整的业务流量,开发银行专门建设了独立于生产网络的数据分析网,由流量采集层、流量管理层与流量输出层组成:流量采集层负责采集全网流量;流量管理层负责汇聚全网流量和部分预处理功能;流量输出层负责流量的预处理与流量的输出。对于云环境的网络流量,通过软探针方式进行采集,软探针采集的流量一并发送至流量管理层进行统一管理与处理。对于跨数据中心的网络流量,通过采用DWDM设备进行跨中心传输与流量汇聚,从而实现生产流量全量采集与统一管理。

网络流量经过采集、汇聚后,通过复制与差异处理,分发给后台多个分析系统,包括NPM(网络性能分析系统)、APM(业务性能分析系统)、SOC(安全运营系统)、IDS(入侵检测系统)、NTA(网络威胁监测)等多个系统。NPM以数据包解码、统计、分析为主,实现对网络数据流量关键性能指标进行实时监控分析,对应用访问质量监控分析,对网络异常状况分析;APM侧重分析业务各节点的响应率、各节点响应时间等信息,实现业务端到端的服务质量分析。SOC、IDS、NTA等多类网络安全工具侧重分析网络流量中的异常数据,尤其是安全扫描类报文、渗透测试类报文、恶意代码类报文、隐蔽通信类报文等,通过对这些报文智能识别,结合威胁情报信息,发现安全异常并进行报警和进一步处置。

通过网络流量的整合与应用,开发银行建成基于网络流量的NPM、APM、SOC等平台,实现了全网络区域和重要业务的性能监控,实现了内外网的全面安全监测,在助学贷款、网络攻防演练等多个重点任务中发挥了重要作用。

关闭