一、选题背景和意义:
网络攻击形式复杂多变,攻击类型的检测和预测一直是一项具有挑战性的任务。传统的基于静态特征和规则引擎的威胁发现方式取得了一定的成果,但面对越来越专业的恶意攻击,传统的边界隔离理念也遇到了瓶颈。随着对知识图谱的研究在许多领域都日趋成熟,目前,一些学者将知识图谱的概念与网络安全相结合,构建网络知识图谱具有十分重要的意义。充分利用来自各种知识库和网站的网络安全相关信息,基于图的形式将这些安全相关知识运用整合在一起,将有助于检测入侵威胁情报。
基于图形式的数据库建立后,我们就可以根据图中拓扑结构(topological structure)以及节点特性(node attribute)利用机器学习的方法发现不同攻击间相似的特征以及攻击留下的痕迹,进行聚类(graph clustering)从而实现对攻击流量进行检测和分类以及挖掘攻击者。建立网络安全知识图谱主要有三个步骤。首先,对结构化数据以及非结构化数据提取分析信息;其次,根据获得的信息构建本体(ontology);第三,生成网络安全知识图谱。
二、课题关键问题及难点:
数据来源为360 DataCon 安全数据大赛赛题数据,其内容包括流量日志(包括ip,时间,域名,url,cookie,域名,post数据等),域名信息(ip域名绑定情况,whois信息,行业分类等),dns信息,威胁情报数据(包括ip地理位置,网络类型,涉嫌恶意行为等)。
以neo4j代表的一系列图数据库与图计算算法已逐步成熟,在关联分析和聚类等方向具有一定优势。而传统的威胁情报计算更多采用非图计算的方式。因此设计和实现基于图计算的威胁情报计算系统富有挑战性和研究意义。
该课题主要需要解决以下四大问题:
(1)把原始数据导入neo4j数据库,因数据量大需要进行处理、清洗,并整合成符合neo4j导入规则的形式;另外在导入neo4j数据库之前需要判断每个攻击日志的攻击类型;
(2)提取数据特征,难点在于如何处理高维数据以及充分利用图的拓扑结构以及节点特性;
(3)利用图卷积网络(Graph Convolutional Network, GCN)训练提取后的特征,从而实现对攻击流量进行检测和分类包含SQL注入、PHP注入、跨站脚本(XSS)攻击、漏洞扫描、绕过限制上传文件,以及挖掘攻击者;
以上是毕业论文文献综述,课题毕业论文、任务书、外文翻译、程序设计、图纸设计等资料可联系客服协助查找。