Dataset of CyberSecurity

Abstract

在开始一个研究的时候,数据集总是那么重要;比如说我正在尝试完成一个攻击预测的相关研究,于是就有了这篇文章。
必须说明的是,一个数据集往往并不只用于一个研究,比如DARPA数据集,在入侵检测领域已经成为了标准数据集,而在攻击预测领域,也常常被用来作为基准数据集。但在这里,我们更关注于攻击预测领域的应用。
(很戏剧化的是,我已经在考虑要不要研究入侵检测了)
最新的情况是,这部分主要是包含入侵检测的数据集;并且我把名字改为了CyberSecurity——也就是说,我不再局限于一种任务的数据集,而是更广泛的网络安全领域的数据集。

Content

DARPA 初始

‘‘DARPA (Defense Advanced Research Projects Agency) is a research and development agency of the United States Department of Defense. It is responsible for funding and managing research and development projects in various areas of science and technology, including cybersecurity.’’

DARPA 数据集是 1998 年美国国防部高级研究计划局(Defense Advanced Research Projects Agency,DARPA)在麻省理工学院进行的一个入侵检测评估项目生成的,它包含 1998、1999、2000 这 3个数据集,包括 5 种主要的攻击类型:Denial of Service(DoS)、User to Root(U2R)、Remote to Local(R2L)、Probes 和 Data。

DARPA 1998数据集

收集了9周的 TCPDUMP网络连接和系统审计数据,7周的训练数据,2周的测试数据,包含了Probe、DoS、R2L、U2R四大类攻击。
DARPA 1998 包括审计日志数据和网络流量数据两个部分,审计日志数据使用 Sun 公司的 Basic Security Monitoring (BSM) 收集,网络流量数据使用 tcpdump 收集。数据集中每一行代表一个会话,每一个会话对应两台计算机之间单独的 TCP/IP 连接,一个 TCP 会话过程包括建立三次握手到关闭连接时最后收到的 FIN 和 ACK 数据包。每一个会话通过 5 元组唯一标识,此 5 元组即开始时间、源 IP、目的 IP、源端口、目的端口。数据集在模拟的入侵环境中收集:路由器内部网上有两个工作站,外部有一个工作站。

DARPA 1999数据集

DARPA 1999覆盖了Probe、DoS、R2L、U2R和Data等5大类58种典型攻击方式,是目前最为全面的攻击测试数据集,作为研究领域共同认可及广泛使用的基准数据集,DARPA 1999评测数据给出了5周的模拟数据。其中前两周是提供给参于评测者的训练数据:第1,3周为不包含任何攻击的正常数据;第2周中插入了属于18种攻击类型的43次攻击实例,第4,5周用于测试。

DARPA 2000数据集

DARPA 2000在DARPA 1999基础上攻击数据中加入了DDoS (Distributed Deny of Service)攻击,并增加了内部攻击、内部监听数据,以及Windows NT流量和攻击。

来源

林肯实验室在网络空间安全的相关研究可以在这里找到。DARPA所有相关的数据集则是从这里找到的;实际上后面这个网站已经不怎么使用了——可能是因为实在是太久了。

DARPA TC

全称transparent computing,是 DARPA 的一项工作,旨在开发技术和实验原型系统,以提供高级持续性威胁 (APT) 的取证和实时检测,以及主动执行所需策略。
数据托管在谷歌云盘上,很大也不好下载,说实话愁怎么弄下来。但是没关系,我们还是能查看文件树,简单作个了解;首先说明的是这个系列有两个数据集,分别是E3和E5;除此之外还有OpTC,但是我目前还没有搞清楚他们之间的联系。
E n意为Engagement n,表示第n次交战。TC项目分为多个ta(Technical Areas),每个ta有一个或多个参与者:

TA1:标记和跟踪。TA1执行者正在开发用于标记和跟踪计算平台上组件之间交互的方法,以便允许事件相互链接(例如,父进程和子进程,进程对文件的访问,等等)TA1执行者代表了不同的技术方法、关注的平台和保真度级别。TA1执行者必须平衡系统开销和跟踪细节(以及由此产生的元数据量)。除了上下文信息(如论文)和基本事实外,本新闻稿中包含的数据文件均由TA1表演者生成。TA1执行者通过项目名称“cadets”、“clearscope”、“fivedirection”、“theia”和“trace”来识别。
TA2:检测和策略执行。TA2参与者正在开发构建因果图所需的技术和系统,这些因果图将ta1生成的事件联系起来,然后对它们进行推理,以实时和法医地检测APT活动。本版本不包含与TA2表演者有关的数据或信息。
TA3:体系结构。TA3执行者正在开发整个TC体系结构,以使TA1和TA2技术能够作为一个系统一起工作,并满足所有执行者所需的数据交换和存储需求。本版本不包含与TA3表演者有关的数据或信息。
TA4:场景开发。TA4执行者正在制定具体的技术支持行动方案,以便在交战演习中使用,以涵盖APT活动的范围和类型。此数据发布不包含与TA4执行器相关的数据或信息。
TA5.1:对抗挑战团队(ACT)。TA5.1执行者正在开发工具和技术,利用实际的apt来实例化交战演习中的实际攻击和行为,以允许对TC系统和组件的性能进行评估。此数据发布包含ACT在第3次交战期间采取的行动的详细描述,以及应该(但并不总是)出现在数据中的具体妥协指标。

E3的简介如上,E5没有提及TA4、TA1的执行者不同,其他与E3无异。
目前没有发现有任何明确的网络组织结构。

DARPA TC E3

2018 年 4 月,TC 计划进行了五次计划中的参与演习中的第三次。在本练习中,计划在单独的主机平台上设置每个 TA1 执行者的一个实例化。该练习将从一段良性数据生成期开始,其中在每个主机上运行一组脚本化活动,并且所有执行者都知道这些活动正在执行。在良性数据生成后,TA5.1 团队获得了测试靶场的控制权,并开始了一系列活动,以反映新的和现有的 APT 在整个测试靶场的活动。在此期间,良性后台流量持续运行,恶意活动仅在工作日上午 9 点至下午 5 点左右进行,以允许 TA2 表演者为其界面配备人员,并以合理的人力水平提供实时检测警报。
数据:https://drive.google.com/drive/folders/1QlbUFWAGq3Hpl8wVdzOdIoZLFxkII4EK

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
/data - 每个部分代表了一种采集系统捕获到的审计日志  
//cadets
///ta1-cadets-e3-official-1.bin.tar.gz
///ta1-cadets-e3-official-1.json.tar.gz
///ta1-cadets-e3-official-2.bin.tar.gz
///ta1-cadets-e3-official-2.json.tar.gz
///ta1-cadets-e3-official.bin.tar.gz
///ta1-cadets-e3-official.json.tar.gz
//clearscope
///ta1-clearscope-e3-official-(1, 2, ).bin.tar.gz
///......
//fivedirections
///ta1-fivedirections-e3-official-(2, 3, ).bin.tar.gz
//theia
///ta1-theia-e3-official-(1r, 3, 5m, 6r).bin.tar.gz
//trace
///ta1-trace-e3-official-(1, ).bin.tar.gz
/ground truth - TA5.1的攻击报告,详细描述了每次攻击的时间目标过程
//TC Ground Truth Report E3 Update.pdf
/schema - 一个溯源图构建工具CDM(已停止更新)
//cdm.pdf
//CDM18-dot-model.pdf
//CDM18.avdl
//TCCDMDatum.avsc
/tools
//ta3-java-consumer.tar.gz
/operational_event_log.md

cadets和其他几个采集系统采集到的数据有较大的大小差异(3G-40G不等),具体里面到底是什么样子的?我下载了cadets的资料,一起来看一下:
首先以ta1-cadets-e3-official-1.json.tar.gz为例,解压后得到:

1
2
3
4
///ta1-cadets-e3-official-1.json.tar.gz
////ta1-cadets-e3-official-1.json
////ta1-cadets-e3-official-1.json.1
////ta1-cadets-e3-official-1.json.2

解压后的数据从500M到11G,变化非常大。
查看ta1-cadets-e3-official-1.json前五行的资料:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
[{'datum': 
{'com.bbn.tc.schema.avro.cdm18.Host':
{'uuid': '83C8ED1F-5045-DBCD-B39F-918F0DF4F851',
'hostName': 'ta1-cadets',
'hostIdentifiers': [],
'osDetails': 'FreeBSD 12.0-CURRENT FreeBSD 12.0-CURRENT #1 1863588dca9(HEAD)-dirty: Wed Feb 28 17:23:37 UTC 2018 root@ta1-cadets:/usr/obj/data/update/build-meta/freebsd/amd64.amd64/sys/CADETS amd64',
'hostType': 'HOST_DESKTOP',
'interfaces':
[{'name': 'vtnet0',
'macAddress': '52:54:00:f0:0d:23',
'ipAddresses': ['fe80::5054:ff:fef0:d23%vtnet0', '10.0.6.23']
},
{'name': 'vtnet1',
'macAddress': '52:54:00:f0:08:23',
'ipAddresses': ['fe80::5054:ff:fef0:823%vtnet1', '128.55.12.73']
}]
}
},
'CDMVersion': '18',
'source': 'SOURCE_FREEBSD_DTRACE_CADETS'
},
{'datum':
{'com.bbn.tc.schema.avro.cdm18.FileObject':
{'uuid': '42DD2C9E-36C2-11E8-BF66-D9AA8AFF4A69',
'baseObject':
{'hostId': '83C8ED1F-5045-DBCD-B39F-918F0DF4F851',
'permission': None,
'epoch': None,
'properties': {'map': {}}
},
'type': 'FILE_OBJECT_FILE',
'fileDescriptor': None,
'localPrincipal': None,
'size': None,
'peInfo': None,
'hashes': None
}
},
'CDMVersion': '18',
'source': 'SOURCE_FREEBSD_DTRACE_CADETS'
},
{'datum':
{'com.bbn.tc.schema.avro.cdm18.Principal':
{'uuid': '7DCA248E-1BBA-59F5-9227-B25D5F253594',
'type': 'PRINCIPAL_LOCAL',
'hostId': '83C8ED1F-5045-DBCD-B39F-918F0DF4F851',
'userId': '0',
'username': {'string': 'root'},
'groupIds': [],
'properties': {'map': {}}
}
},
'CDMVersion': '18',
'source': 'SOURCE_FREEBSD_DTRACE_CADETS'
},
{'datum':
{'com.bbn.tc.schema.avro.cdm18.Subject':
{'uuid': '72FB0406-3678-11E8-BF66-D9AA8AFF4A69',
'type': 'SUBJECT_PROCESS',
'cid': 787,
'parentSubject': None,
'hostId': '83C8ED1F-5045-DBCD-B39F-918F0DF4F851',
'localPrincipal': '7DCA248E-1BBA-59F5-9227-B25D5F253594', 'startTimestampNanos': 0,
'unitId': None,
'iteration': None,
'count': None,
'cmdLine': None,
'privilegeLevel': None,
'importedLibraries': None,
'exportedLibraries': None,
'properties':
{'map': {'host': '83c8ed1f-5045-dbcd-b39f-918f0df4f851'}
}
}
},
'CDMVersion': '18',
'source': 'SOURCE_FREEBSD_DTRACE_CADETS'
},
{'datum':
{'com.bbn.tc.schema.avro.cdm18.Event':
{'uuid': '3EDAE524-F140-566E-8E72-94FE35EDC809',
'sequence': {'long': 0},
'type': 'EVENT_CLOSE',
'threadId': {'int': 100117},
'hostId': '83C8ED1F-5045-DBCD-B39F-918F0DF4F851',
'subject': {'com.bbn.tc.schema.avro.cdm18.UUID': '72FB0406-3678-11E8-BF66-D9AA8AFF4A69'},
'predicateObject': {'com.bbn.tc.schema.avro.cdm18.UUID': '42DD2C9E-36C2-11E8-BF66-D9AA8AFF4A69'},
'predicateObjectPath': None,
'predicateObject2': None,
'predicateObject2Path': None,
'timestampNanos': 1522706861813350340,
'name': {'string': 'aue_close'},
'parameters': {'array': []},
'location': None,
'size': None,
'programPoint': None,
'properties': {'map': {'host': '83c8ed1f-5045-dbcd-b39f-918f0df4f851', 'return_value': '0', 'fd': '17', 'exec': 'python2.7', 'ppid': '1'}}
}
},
'CDMVersion': '18',
'source': 'SOURCE_FREEBSD_DTRACE_CADETS'
}]

第一层的keys只有datum, CDMVersion, source;各种大类中子类的数量,取决于CDM的版本。ShadeWatcher使用的是e3的数据,采用的是CDM18,而e5默认使用的是CDM20。com.bbn.tc.schema.avro.cdm18.后面的内容为具体的大类,比方说Host, FileObject, Principal等等,简单统计了其中的分布如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
.json
{'com.bbn.tc.schema.avro.cdm18.Host': 1,
'com.bbn.tc.schema.avro.cdm18.FileObject': 352468,
'com.bbn.tc.schema.avro.cdm18.Principal': 20,
'com.bbn.tc.schema.avro.cdm18.Subject': 26040,
'com.bbn.tc.schema.avro.cdm18.Event': 4600591,
'com.bbn.tc.schema.avro.cdm18.SrcSinkObject': 9636,
'com.bbn.tc.schema.avro.cdm18.UnnamedPipeObject': 4818,
'com.bbn.tc.schema.avro.cdm18.NetFlowObject': 6426}
```
读取记录为5000000it [01:23, 59715.24it/s],很明显的能看出一个分文件的大小,Host、Principal等似乎都属于一个“背景”,而非进行中的事件,难道其对应的是一个数据?在0102文件中的统计数据又是什么样子的呢?可以预见的是基本结构一致,但统计情况是什么样子的?
```json
.json.1
{'com.bbn.tc.schema.avro.cdm18.Event': 4652587,
'com.bbn.tc.schema.avro.cdm18.FileObject': 288806,
'com.bbn.tc.schema.avro.cdm18.Subject': 28288,
'com.bbn.tc.schema.avro.cdm18.SrcSinkObject': 13036,
'com.bbn.tc.schema.avro.cdm18.UnnamedPipeObject': 6518,
'com.bbn.tc.schema.avro.cdm18.NetFlowObject': 10764,
'com.bbn.tc.schema.avro.cdm18.Principal': 1}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
.json.2
{'com.bbn.tc.schema.avro.cdm18.Event': 3662418,
'com.bbn.tc.schema.avro.cdm18.FileObject': 204523,
'com.bbn.tc.schema.avro.cdm18.Subject': 19859,
'com.bbn.tc.schema.avro.cdm18.SrcSinkObject': 10390,
'com.bbn.tc.schema.avro.cdm18.UnnamedPipeObject': 5195,
'com.bbn.tc.schema.avro.cdm18.NetFlowObject': 9328}
```
种类大致为:*Host, Event, Principal, Object(FileObject, SrcSinkObject, UnnamedPipeObject, NetFlowObject), Subject*,分别表示*主机、事件、用户、客体、主体*;其中,Host, Principal的数量明显少于其他type,而Host只有一个,应该是在这个host上收集的日志记录。
下面查看每个大类里面有哪些子类(com.bbn.tc.schema.avro.cdm18.下面的key里,除了Host, UnnamedPipeObject, NetFlowObject之外,都有一个type),仍然以.json举例:
```json
{'com.bbn.tc.schema.avro.cdm18.FileObject': {'FILE_OBJECT_FILE': 101461,
'FILE_OBJECT_UNIX_SOCKET': 250764,
'FILE_OBJECT_DIR': 243},
'com.bbn.tc.schema.avro.cdm18.Principal': {'PRINCIPAL_LOCAL': 20},
'com.bbn.tc.schema.avro.cdm18.Subject': {'SUBJECT_PROCESS': 26040},
'com.bbn.tc.schema.avro.cdm18.Event': {'EVENT_CLOSE': 744816,
'EVENT_CREATE_OBJECT': 126540,
'EVENT_FCNTL': 526346,
'EVENT_CONNECT': 7341,
'EVENT_ACCEPT': 3365,
'EVENT_WRITE': 90037,
'EVENT_READ': 1408949,
'EVENT_OPEN': 462631,
'EVENT_EXIT': 25578,
'EVENT_FORK': 25878,
'EVENT_EXECUTE': 25129,
'EVENT_MMAP': 488860,
'EVENT_MODIFY_PROCESS': 167292,
'EVENT_LSEEK': 453553,
'EVENT_CHANGE_PRINCIPAL': 17882,
'EVENT_SENDTO': 6799,
'EVENT_ADD_OBJECT_ATTRIBUTE': 2618,
'EVENT_RECVMSG': 509,
'EVENT_RECVFROM': 6889,
'EVENT_LOGIN': 979,
'EVENT_MPROTECT': 532,
'EVENT_UNLINK': 2535,
'EVENT_RENAME': 1714,
'EVENT_MODIFY_FILE_ATTRIBUTES': 2492,
'EVENT_LINK': 492,
'EVENT_SIGNAL': 110,
'EVENT_SENDMSG': 224,
'EVENT_FLOWS_TO': 128,
'EVENT_OTHER': 106,
'EVENT_TRUNCATE': 267},
'com.bbn.tc.schema.avro.cdm18.SrcSinkObject': {'SRCSINK_IPC': 9636}
}

.1和.2的情况差不多,不再一一展示;其实子类主要存在于Event分类下用于区分事件的动作,其他的分类非常有限。下面尝试说明字典之间的链接关系以构建初始溯源图:
对于Event,以上面举例的那个EVENT_CLOSE为例:

HostId: 主机ID为 83C8ED1F-5045-DBCD-B39F-918F0DF4F851,指向了操作发生的主机。
Subject: 指向一个进程的UUID 72FB0406-3678-11E8-BF66-D9AA8AFF4A69,即哪个进程执行了此操作。
PredicateObject: 指向被关闭对象的UUID 42DD2C9E-36C2-11E8-BF66-D9AA8AFF4A69,即关闭了什么对象(在这个上下文中很可能是文件或套接字)。
TimestampNanos: 时间戳 1522706861813350340 提供了事件发生的确切时间(纳秒级精度)。
Name: 事件名称为 aue_close,进一步确认这是一个关闭类型的事件。
Properties: 包含了一些额外的信息:
host: 主机的UUID。
return_value: 返回值为 ‘0’,表示操作成功。
fd: 文件描述符 ‘17’,指明是哪一个打开的文件或资源被关闭。
exec: 执行的程序名为 ‘python2.7’。
ppid: 父进程ID为 ‘1’,通常代表系统初始化进程(如init或systemd)。

补充说明,一个事件可以最多影响两个PredicateObject。
如果我要做一张图,在不关心属性的情况下,我可能会重视event,显然其中包含着明显的可链接关系:如上所示的CLOSE事件中,可以提取出:

  • Event -> Host
  • Event -> Subject (process // Subject)
  • Event -> PredicateObject (file // Object, …)
  • Event -> TimestampNanos
  • Event -> Name
  • Event -> ppid (process // Subject)

问题是图不能就这么之间组织;经过优化后的图应当是:

  • Subject -(Event, type, timestampNanos)-> PredicateObject

除此之外,在Object里面的Netflow和UnamedPipe里面,也存在着类似的关系,但在溯源图可能不那么关键:

  • Netflow: local:ip/port -(netflow)-> remote:ip/port
  • UnamedPipe: src -(unamepipe)-> sink

对于ta1-cadets-e3-official-1.json,.json文件的第一个事件开始事件为1522706861813350340,最后一个事件时间戳为1522828473820631110,.json2也就是-1最后一个文件最后的event时间戳为1523030939086109045。
根据MEGR-APT-code-main对整体事件的划分——

  • (1522718400000000000, 1523042400000000000),
  • (1523042400000000000, 1523478900000000000),
  • (1523478900000000000, 1523655358953968696),
  • (1522706861813350340, 1522990800000000000)——纯正常时间段

则1522706861813350340-1523030939086109045区间未超过第一个划分区间,但是超过了正常运行(无攻击)的时间范围,进一步说明,ta1-cadets-e3-official-1.json.tar.gz和ta1-cadets-e3-official-2.json.tar.gz文件是ta1-cadets-e3-official.json.tar.gz的后续且包含大部分的攻击行为。

DARPA TC E5

2019 年 5 月,TC 计划进行了五次计划中的参与演习中的最后一项。在本练习中,计划将 每个 TA1 执行者都将在单独的主机平台上进行设置。该练习将从一段良性数据生成期开始,其中 在每个主持人上运行脚本化活动集,并且所有执行者都知道正在执行这些活动。良性数据生成后, TA5.1 团队被赋予了测试范围的控制权,并开始了一系列活动,以反映新的和现有的 APT 在整个测试中的活动 范围。在此期间,良性后台流量持续运行,恶意活动仅在工作日上午 9 点至下午 5 点左右,以允许 TA2 表演者为他们的界面配备人员,并以合理的人力水平。
在实时参与期之后,每个 TA2 表演者都有额外的时间对其数据进行法医类检查,并提供 有关初始 APT 检测的详细信息,以及它们在实时期间可能遗漏的任何检测。
数据:https://drive.google.com/drive/folders/1okt4AYElyBohW4XiOBqmsvjwXsnUjLVf

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
/Data - 同上
//cadets
///bins.md5sum
///ta1-cadets-1-e5-official-2.bin.(1-121, ).gz
//clearscope
///bins.md5sum
///ta1-clearscope-(1, 2, 3)-e5-official-(1-?, ).bin.13.gz
//fivedirections
//marple
//starc
//theia
//trace
/Ground Truth - 同上
//TA51 Final_report_E5.docx
//TA51 Final_report_E5.pdf
/Schema - 同上
//cdm.pdf
//CDM20.avdl
//TCCDMDatum.avsc
/Tools - 可视化工具ELG(elasticsearch+logstash+grafana),docker环境。
//TC Data Visualization Tool
//ta3-java-consumer.tar.gz
/Engagement-5-Event-Log.md - 整个过程的日志,按照日期为单位,记录了每天发生的事,如收集系统的崩溃和修复
/README.md
/README.pdf

SABU

The dataset consists of the main file with the intrusion detection alerts and four auxiliary files with enriched data. The alerts were collected from the SABU alert sharing platform for one week and are stored in the IDEA format. Almost 12 million alerts were collected from 34 intrusion detection systems, honeypots, and other data sources deployed in 3 distinct organizations. The IP addresses, hostname, URLs, and other identifiers in the alerts are anonymized, but the information in the auxiliary files allow for the profiling of malicious actors. The auxiliary files contain information on over 1.7 million IP addresses contained in the alerts, the most frequent identifiers of attackers and victims of observed events. Reputation scores, geolocation, and data from PassiveDNS system are provided. The reputation scores include information on the presence of the IP addresses on publicly available blacklists or results of scans by Internet-wide scanners. The geolocation provides the approximate geographical locations of the IP addresses; a data layer for a common geographical information system is provided. The PassiveDNS data are in the form of a feature vector of domain names the IP addresses were translated to in the time of their involvement in malicious activities.

一个共同的入侵检测警报共享平台SABU,该平台由捷克国家研究和教育网络(NREN)运营。使用SABU平台从2019年3月11日至3月17日收集的一周内的入侵检测警报数据。数据来自34个入侵检测系统、蜜罐和其他数据源。

来源

数据集来源:Dataset of intrusion detection alerts from a sharing platform

内容

The list of files goes as follow:
dataset.idea.zip - compressed dataset.idea file with the alerts in IDEA format, one alert per line,
Aux_1A_Geolocation-csv - CSV file with geolocation information,
Aux_1B_GIS_data.zip - compressed archive of spatial data for use with a geographical information system ArcGIS,
Aux_2_Passive_DNS - CSV file with characteristics of DNS records for the IP addresses in the data obtained via PassiveDNS system,
Aux_3_Enrichment - compressed archive of various other enrichments of IP addresses, splitted per days, see README in the archive.

Defcon

Defcon是全球最大的互联网安全社区。Defcon提供了"夺旗" ( Capture the Flag,CtF )大赛,这是一场计算机安全攻防技能的较量。保卫自己的旗帜,同时要想方设法败坏其他球队的旗帜。标志是团队服务器上的数据文件。在博弈过程中,攻击者试图将别人服务器上的旗帜替换为自己的旗帜,而防御者则试图将自己的旗帜保留在自己的服务器上。

来源

可以在这里找到历届比赛的内容,以第17届ctf17为例,其可下载内容包含两个文件:DEF CON 17 Hacking Conference CTF - BinJitsu - Capture the Flag complete packet capture.rarDEF CON 17 Hacking Conference - CTF Binaries.zip

DAPT2020

使用 5 天内收集的网络流量创建的,其中每天可以被视为类似于真实场景中的 3 个月。此数据集是为了让研究人员能够了解各种攻击媒介之间的异常情况和关系,并找出有助于在早期阶段检测 APT 攻击的任何隐藏相关性。我们数据集中的阶段与 [1] 作者讨论的阶段一致。

来源

数据集可以直接在kaggle dapt2020下载,17G

Reference

https://blog.csdn.net/qq_36165570/article/details/104575813
https://www.cnblogs.com/bonelee/p/14048702.html
https://fkie-cad.github.io/COMIDDS/content/all_datasets/ (内容非常全)
https://doggycheng.github.io/2021/06/08/网络安全与机器学习/网络安全相关数据集