Price TAG：半自动的电子商务威胁TTP提取-网盾网络安全培训学校

Price TAG：半自动的电子商务威胁TTP提取

简介

电子商务中的网络安全威胁体现在欺诈行为、声誉操纵等方面，这些攻击行为会对用户数据的完整性造成破坏，例如销售量膨胀，商品排名升级，或操纵搜索引擎的结果以在短时间内获得流量。如常见的刷销量行为，就是通过虚假订单伪造出高销售量来提高人气，从而促销某种目标商品，也被称作”拍A发B“。由于电子商务威胁不同于拒绝服务、入侵攻击等传统网络安全威胁，之前的研究工作对于识别这类威胁行为并不适用。因此，作者设计了TAG(TTP Semi-Automatic Generator)的新方法，提取电子商务领域的TTP。

电子商务TTP的示例

方法

上图是TAG的总体结构图，主要包含四个部分：语料库收集器、文本预处理器、主题词标识器、TTP实体识别器。

语料库收集：利用阿里的”先知“平台，从900多个网站中收集威胁文章，并与阿里合作，人工定义了34种电子商务TTP，如下表所示。利用这些TTP作为种子，以关键词匹配的方式收集电子商务威胁相关的页面。
文本预处理：首先，关键词匹配后的文章有可能存在重复，通过计算两篇文章的SimHash值的汉明距离比较它们的相似性，如果汉明距离大于2bits，则删除其中一篇。对于电子商务威胁的中文分词，jieba和LTP等工具都不能正确分词，因此作者设计了一种基于n-gram的邻居词频率统计方法来辅助分词。若相邻词的频率相等，则两个都丢弃，采用更长的n-gram继续统计；否则保留频率较高的那一个，如下图所示。
主题词标识：在这一场景中，文章的主题词一般与上述定义的34种TTP有相似的语义和结构，因此分别计算词汇的语义相似度和结构相似度，加权后取其中的最大值；其中语义相似度由词向量的余弦相似度得到，结构相似度由编辑距离得到。
TTP实体识别：由于语料库中收集到的文章还包含了广告等其他内容，TTP在其中的分布比较稀疏，因此首先删除了文章中的不相关信息。预处理后，剩余的内容从语法结构入手，定义了6种规则来提取TTP实体。