科学大数据工程 I 区论文(评审中) 版本 ZH2
下载
1999–2018年安全漏洞数据集
A dataset of vulnerability during 1999–2018
 >>
: 2019 - 06 - 20
: 2019 - 07 - 08
: 2019 - 07 - 08
956 11 0
摘要&关键词
摘要:安全漏洞(Vulnerability)是信息系统在设计、实现或部署等过程中产生的缺陷。这些缺陷一旦被恶意主体所利用和进行攻击,就会对信息系统的安全造成损害,进而对用户、社会以及国家等造成重大损失。本研究通过程序自动化和人工采集结合的方法采集国内外知名漏洞平台1999–2018年间的安全漏洞数据,对采集的近20年的漏洞数据进行切片和格式化操作,保证数据可读性和一致性,从而构建完备的安全漏洞数据集。根据漏洞数据所属漏洞平台,将本数据集划分为来源不同的数据集。基于漏洞数据属性,统计各个数据集中的漏洞总条目数,统计数据集中含有CVE标识的漏洞条目数以及不同漏洞类型对应的漏洞条目数。本数据集在科学研究、安全预警和安全事件处理方面发挥着重要的作用。研究人员可以使用本数据集进行相应的安全科学研究;软件开发者通过查询本数据集,能够及时发现自身软件存在的漏洞。
关键词:安全漏洞;漏洞数据集;数据采集;漏洞平台
Abstract & Keywords
Abstract: Vulnerability is a defect in the design, implementation, or deployment of information systems. Once these defects are exploited and attacked by malicious entities, they will cause damage to the security of the information system, causing heavy losses to users, society, and the state. This study collects the data of vulnerability of popular vulnerability platforms from 1999 to 2018 through the combination of program automation and manual acquisition. The collection of nearly 20 years of data of vulnerability is sliced and formatted to ensure data readability and consistency, thus building a complete dataset of vulnerability. According to the vulnerability platform to which the vulnerability data belongs, the dataset is divided into datasets with different sources. Based on the vulnerability data attribute, the total number of entries in the dataset containing the vulnerability is counted, including the number of vulnerability entries identified by the CVE and the number of vulnerability entries corresponding to different vulnerability types. The dataset plays an essential role in scientific research, security early warning, and security incident handling. Researchers can use this dataset to conduct corresponding security research; software developers can find out the vulnerabilities of their software by querying this dataset.
Keywords: vulnerability; vulnerability dataset; data collection; vulnerability platform
数据库(集)基本信息简介
数据库(集)名称1999–2018年安全漏洞数据集
数据作者李瑞科、刘元、廖雷、吴晨思、张玉清
数据通信作者张玉清(zhangyq@ucas.ac.cn)
数据时间范围1999–2018年
地理区域世界各国
数据量114 MB
数据格式*.xlsx
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/791
基金项目中国科学院信息化专项“科学大数据工程”(XXH13505-03-207)
数据库(集)组成本数据集是对NVD、Secunia、SecurityFocus、CNVD、CNND、NSFocus漏洞平台的数据进行采集和整理而成。数据集共包括6个数据文件,分别为:NVD1.zip, Secunia2.zip、SecurityFocus3.zip、CNVD4.zip、CNND5.zip、NSFocus6.zip。其中NVD1.zip为NVD安全漏洞数据集,Secunia2.zip为Secunia安全漏洞数据集,SecurityFocus3.zip为SecurityFocus安全漏洞数据集,CNVD4.zip为CNVD安全漏洞数据集,CNNVD5.zip为CNNVD安全漏洞数据集,NSFocus6.zip为NSFocus安全漏洞数据集。
Dataset Profile
TitleA dataset of vulnerability during 1999–2018
Data corresponding authorZhang yuqing(zhangyq@ucas.ac.cn)
Data author(s)Li Ruike, Liu Yuan, Liao Lei, Wu Chensi, Zhang Yuqing
Time range1999–2018
Geographical scopeWorldwide
Data volume117 MB
Data format*.xlsx
Data service systemhttp://www.sciencedb.cn/dataSet/handle/791
Source(s) of fundingInformatization project of the Chinese Academy of Sciences: Engineering of Scientific big data (XXH13505-03-207)
Dataset/Database compositionThe dataset is collected and organized for data from NVD, Secunia, SecurityFocus, CNVD, CNND, and NSFocus vulnerability platforms. The data set includes a total of six data files, which are: NVD1.zip, Secunia2.zip, SecurityFocus3.zip, CNVD4.zip, CNND5.zip, NSFocus6.zip. NVD1.zip is the dataset of NVD vulnerability platform; Secunia2.zip is the dataset of Secunia vulnerability platform; SecurityFocus3.zip is the dataset of SecurityFocus vulnerability platform; CNVD4.zip is the dataset of CNVD vulnerability platform, CNNVD5.zip is the dataset of CNNVD vulnerability platform, NSFocus6.zip is the dataset of NSFocus vulnerability platform.
引 言
安全漏洞(Vulnerability)是信息系统在设计、实现或部署等过程中产生的缺陷。这些缺陷以不同形式存在于信息系统的各个层次和环节之中,一旦被恶意主体所利用和进行攻击,就会对信息系统的安全造成损害,从而影响构建于信息系统之上的正常服务的运行,危害信息系统的安全,导致用户隐私信息被泄露,进而对用户、社会以及国家等造成重大损失[1]
近年来,随着网络系统大规模化和复杂性的增加,安全漏洞数量大幅增加,增多了恶意网络用户攻击网络设备的机会,同时也增大了用户使用网络时的安全风险。在减轻安全漏洞带来的危害的措施中,安全漏洞数据源已成为了重要的信息基础设施和保护网络安全的重要手段[2]。安全漏洞数据源包括漏洞库、安全论坛以及博客等,这些数据源一般会以网站的形式展示,便于用户浏览。通过在漏洞数据源上发布漏洞信息,能够及时、准确地将安全预警信息提供给存在漏洞的软件开发企业、广大用户、国家各部门及研究组织,从而可以有效降低安全事件发生的可能性。
由于各类漏洞数据源隶属不同组织或机构,使得不同漏洞平台的漏洞描述存在许多差异,不同的漏洞平台漏洞数据来源不同、关注的漏洞信息字段不同以及漏洞发布机制不同等,导致其漏洞描述格式不统一,漏洞数据也不能做到完备。本数据集通过采集整合多个国内外知名漏洞平台的漏洞数据,对数据进行交叉对比整合,尽可能得到更加完备的数据集,并统一漏洞描述信息。统计各个数据集中的漏洞总条目数、含有通用漏洞纰漏(CVE[3],Common Vulnerability and Exposures)标识的漏洞条目数以及不同漏洞类型对应的漏洞条目数,绘制漏洞数据近20年趋势图,得到更详细的数据集,对漏洞数据质量进行提升,以提高漏洞数据的利用价值,减少因漏洞造成的损失。
1   数据采集和处理方法
1.1   数据源
安全漏洞数据源包括不同的漏洞库、安全论坛以及博客,这些数据源保存了各类安全漏洞的基本信息、特征和解决方案等属性,是信息安全基础设施中重要的一环。漏洞数据一般会以网站的形式展示,便于用户浏览、及时发现问题并做出相应的防范措施。为保证数据的高可靠性和高质量,本次研究的数据源主要有国内外知名漏洞库网站和漏洞论坛两部分,包括美国国家漏洞NVD[4]、丹麦漏洞库Secunia[5]、赛门铁克的漏洞库SecurityFocus[6]、国家信息安全漏洞共享平台CNVD[7]、国家信息安全漏洞库CNNVD[8]以及绿盟科技中文安全漏洞库NSFocus[9]6个安全漏洞平台(表1)。其中NVD、Secunia、SecurityFocus为英文漏洞平台,漏洞描述为英文形式;CNVD、CNNVD、NSFocus为中文漏洞平台,漏洞描述为中文形式。
表1   安全漏洞平台
所属组织漏洞库名称漏洞库简称
NISTNational Vulnerability DatabaseNVD
Flexera SoftwareSecuniaSecunia
SecutiryFocusSecutiryFocusSecFocus
国家信息技术安全研究中心和国家互联网应急中心国家信息安全漏洞共享平台CNVD
中国信息安全测评中心中国国家漏洞库CNNVD
绿盟科技绿盟科技中文安全漏洞库NSFocus
美国国家漏洞库NVD由美国国家标准与技术委员会中的计算机安全资源中心创建,由美国国土安全部的国家网络安全司提供赞助。NVD是漏洞库领域的集大成者,拥有高质量的漏洞数据资源,数据资源丰富、漏洞描述全面详细,是漏洞发布和安全预警的重要平台。本数据集中含CVE编号的漏洞信息均可从NVD平台获取,但从NVD漏洞平台采集到的漏洞数据并不完备,对于没有CVE编号的漏洞或者中文描述类型的漏洞数据会遗漏,因此还需要从其他知名漏洞平台采集漏洞信息作为补充和完善安全漏洞数据集。
1.2   数据采集与处理
1.2.1   数据采集处理整体框架
数据采集处理整体框架如图1所示,分为4个模块:漏洞数据源模块、漏洞数据采集模块、漏洞数据处理模块和漏洞数据存储模块。
框架的整体流程为:由6个漏洞平台提供1999–2018年的安全漏洞原始数据,通过数据采集引擎获取到安全漏洞的原始信息,经过漏洞处理模块,完成漏洞字段提取和格式化等操作,最终将采集到的单条漏洞数据保存在MySql数据库中形成安全漏洞数据集。


图1   数据采集处理整体框架
1.2.2   数据采集方法
安全漏洞数据采集部分,主要基于Scrapy框架[10],整体架构如图2所示。Scrapy是一个基于Python的快速、高层次的提取网站结构性数据而编写的应用框架。可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中,也可以应用在获取接口所返回的数据。Scrapy框架在安全漏洞数据采集方面优势明显,可以很快捷地针对不同的漏洞平台定制不同的漏洞匹配规则,即定制选择器进行漏洞信息的多通道异步请求、分布式采集。


图2   Scrapy整体架构[10]
1.2.3   数据处理方法
漏洞平台的漏洞数据大都为非结构化的数据格式,来源多样,不同数据平台的数据表现形式各异,导致直接下载的数据难以理解和复用。安全漏洞数据处理部分完成数据字段的切片和格式化等操作。
根据Scrapy框架采集的数据处理后得到数据字段有漏洞名称、CVE编号、发布时间、更新时间、危害等级、分类、受影响厂商、参考链接等[11,12,13 ]。如图3所示,显示了6个漏洞平台的字段数量,其中CNVD漏洞平台所含字段最多为15个、所含字段最少的为只含有9个字段的CNNVD数据平台。


图3   漏洞字段数量
1.2.4   数据存储方法
漏洞数据存储部分,保存数据集有同步操作和异步操作两种方法。数据量少的时候采用同步操作;数据量大时采用异步操作。采集数据的速度大于数据库插入的速度,当数据量大时就会出现堵塞,就需要采用异步保存。安全漏洞数据集采用异步存储模式将格式化后的漏洞信息字段插入MySql数据库中保存,整合,可视化。
2   数据样本描述
图4为1999–2018年安全漏洞数据的统计图,针对每个漏洞平台分别采集了其近20年的漏洞报告,统计漏洞数据条目,构建安全漏洞数据集。


图4   1999–2018安全漏洞数量
图5展示了所采集的NVD安全漏洞数据集的历年漏洞记录数量,漏洞的数量总体上呈现逐年增加的趋势,而且近两年来,漏洞数量剧增。2017年的漏洞记录数超过了2016年全年漏洞记录数的2倍,2018年发现的漏洞数量在 2017年的基础上又有所增加。


图5   NVD历年安全漏洞数量统计
表2展示了NVD数据集中漏洞数据按照不同漏洞类型划分的情况,将漏洞类型划分为28个详细类别和综合类别Others。漏洞条目总数据量为166072条,漏洞数量最多的三种漏洞类型为:Buffer Errors类型,17956条,比例为10.81%;Cross-Site Scripting XSS类型,15488条,比例为9.33%和Permissions, Privileges, and Access Control类型,10144条,比例为6.11%。
表2   不同漏洞类型漏洞数量
序号漏洞类型数量比例
1验证问题20971.26%
2缓冲区错误1795610.81%
3代码注入34392.07%
4命令注入11510.69%
5凭证管理16000.96%
6跨站请求伪造29931.80%
7跨站点脚本154889.33%
8加密问题39722.39%
9数据处理6120.37%
10访问控制不当57683.47%
11外部实体参考不正确5940.36%
12信息泄露92125.55%
13输入验证101186.09%
14信息不足87335.26%
15整数溢出或环绕18541.12%
16链接问题7420.45%
17空指针解除引用14140.85%
18数字错误17971.08%
19越界读取22831.37%
20越界写入10010.60%
21路径遍历40102.41%
22权限和访问控制101446.11%
23条件错误9070.55%
24资源管理错误49923.01%
25安全功能13140.79%
26SQL注入74184.47%
27资源枯竭6850.41%
28使用错误18261.10%
29其他4143524.95%
图6为NVD漏洞数据集根据类型划分取条目数量值排名前15的类型构成的饼状分布图。其中漏洞总数量为15种类型漏洞的数量和。通过统计图可以很直观地看出前5种漏洞类型漏洞数量之和占据了整个漏洞总数量一半以上。


图6   漏洞类型分布图
3   数据质量控制和评估
本数据从数据来源、数据采集和数据处理3个方面对数据质量进行控制和评价。
为保证安全漏洞数据集的质量和可信度,采集的原始数据均来自于国内外知名漏洞网站或论坛,由于其对数据进行严格检查、筛选、处理和发布,从而保证了原始数据的高质量和高可信度。
在数据采集阶段,为提高效率和避免手工采集错误,均采用程序自动采集加人工抽样验证的方法对数据进行完整性和正确性验证。采集过程中如果由于网络原因或服务器拥堵等原因导致少量漏洞数据条目未能一次性采集完成,则设置程序进行遍历采集,将未能采集到的漏洞链接暂存,以待后续再次遍历采集;若遍历完毕后仍未能采集到,则采用人工方法,手动采集。
数据处理阶段,由于不同漏洞库格式不统一,漏洞条目各异,很多存在特殊字符,导致格式化字段时,有些匹配代码并不能一次性完成所有格式化操作,导致数据差异,因此处理后再次采用人工对比检查,对数据的检查包括网络异常、程序错误导致数据段缺失等明显的问题以及数据格式、字段标准化命名、字段量纲、数据完整性等。单个数据条目的检查中,主要针对异常数据进行修正、剔除和重新采集。
4   数据价值
目前,由于各类漏洞数据源隶属不同组织和机构,其运营宗旨和运营方式均有所不同,使得不同漏洞平台存在许多差异。不同的漏洞平台漏洞数据来源不同、关注的漏洞信息字段不同以及漏洞发布机制不同等,导致其漏洞描述格式不统一,漏洞数据也不能做到完备。
漏洞数据保存了各类漏洞的基本信息、特征、解决方案等属性。本数据集通过采集整合上述国内外知名漏洞平台的漏洞数据,尽可能得到更加完备的数据集,并且统一漏洞描述格式。根据漏洞数据的各个属性,对数据集进行详细划分和数量统计,给出了描述更加清晰的漏洞条目。安全漏洞数据集在安全预警、应急响应和安全事件处理方面发挥着重要的作用。通过查看漏洞数据集中的漏洞信息,能够及时、准确地将安全预警信息提供给存在漏洞的软件开发企业、广大用户、国家各部门及研究组织,从而可以有效降低安全事件发生的可能性。
[1]
ALLODI L, MASSACCI F. Comparing vulnerability severity and exploits using case-control
studies[J]. ACM Transactions on Information and System Security (TISSEC), 2014.
[2]
张玉清, 吴舒平, 刘奇旭, 等. 国家安全漏洞库的设计与实现[J]. 通信学报, 2011, 32(6): 93-100.
[3]
通用漏洞披露CVE(Common Vulnerabilities and Exposures) [EB/OL]. [2019–06–16]. http://cve.mitre.org/ .
[4]
美国国家漏洞库NVD(National Vulnerability Database) [EB/OL]. [2019–06–16]. https://nvd.nist.gov/ .
[5]
丹麦安全公司Secunia[EB/OL]. [2019–06–16]. http://secunia.com/.
[6]
SecurityFocus[EB/OL]. [2019–06–16]. http://www.securityfocus.com/vulnerabilities.
[7]
国家信息安全漏洞共享平台[EB/OL]. [2019–06–16]. http://www.cnvd.org.cn/.
[8]
中国国家漏洞库[EB/OL]. [2019–06–16]. http://www.cnnvd.org.cn/ .
[9]
绿盟科技漏洞库[EB/OL]. [2019–06–16]. http://www.nsfocus.net/index.php .
[10]
Scrapy框架[EB/OL]. [2019–06–16]. https://www.cnblogs.com/xxtalhr/p/9170343.html.
[11]
中华人民共和国国家标准. 漏洞标识与描述规范(草案)[S]. 2010.
[12]
中华人民共和国国家标准. 安全漏洞等级划分指南(草案)[S]. 2010.
[13]
温涛. 安全漏洞危害评估研究暨标准漏洞库的设计与实现[D]. 2016.
数据引用格式
李瑞科, 刘元, 廖雷, 等. 1999–2018年安全漏洞数据集[DB/OL]. Science Data Bank, 2019. (2019-06-20). DOI: 10.11922/sciencedb.791.
稿件与作者信息
论文引用格式
李瑞科, 刘元, 廖雷, 等. 1999–2018年安全漏洞数据集[J/OL]. 中国科学数据, 2019. (2019-07-05). DOI: 10.11922/csdata.2019.0026.zh.
李瑞科
Li Ruike
主要承担工作:数据整理、元数据编写和数据论文撰写。
(1994—),男,河北省石家庄市人,硕士,研究方向为网络与系统安全。
刘元
Liu Yuan
主要承担工作:数据采集软件开发。
(1995—),男,陕西省渭南市人,硕士,研究方向为网络与系统安全。
廖雷
Liao Lei
主要承担工作:数据库管理与维护。
(1993—),男,四川省眉山市人,硕士,研究方向为网络与系统安全。
吴晨思
Wu Chensi
主要承担工作:数据质量控制。
(1990—),男,黑龙江省大庆市人,博士,研究方向为信息安全与网络评估。
张玉清
Zhang Yuqing
主要承担工作:总体方案设计和技术指导。
zhangyq@ucas.ac.cn
(1966—),男,陕西省宝鸡市人,博士,教授,研究方向为网络与信息系统安全。
出版历史
I区发布时间:2019年7月8日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata