其他数据论文 I 区论文(评审中) 版本 ZH2
下载
2000–2017年联合国各成员国的SDGs指标对相关性系数数据集
Dataset of correlation coefficients among each UN member state’s SDGs indicator pairs during 2000 – 2017
 >>
: 2021 - 01 - 15
: 2021 - 01 - 31
: 2021 - 01 - 31
170 2 0
摘要&关键词
摘要:可持续发展目标(Sustainable Development Goals,SDGs)是联合国用于指导全球可持续性发展工作的新议程。各项目标之间的关联性,尤其是3级指标数据的相关性分析和研究,对于有效推动可持续发展目标的具体实施具有重要意义。本文基于《可持续发展报告2020》中联合国全体193个成员国的2000–2017年的3级指标时间序列数据,经过数据的预处理,并依据算法的相关性覆盖程度的大小,从Pearson、Spearman、Kendall和MIC 4个算法中遴选出MIC算法和Spearman算法,计算得到193个成员国2000–2017年间的总计62项可利用指标项、1766个指标对的相关系数和相关方向。本数据集可以作为联合国评估可持续发展目标未来实现的分析数据,也可以作为各国监测指标完成情况、制定相关政策的重要参考依据。
关键词:可持续发展目标;相关性分析;时间序列;最大信息系数;指标对
Abstract & Keywords
Abstract: Sustainable Development Goals (Sustainable Development Goals, SDGs) are the new agenda of the United Nations to guide global sustainable development work. The correlation between the various goals, especially the correlation analysis and research of the third-level indicator data, is of great significance for effectively promoting the concrete implementation of the sustainable development goals. This article is based on the third-level indicator time series data of all 193 member states of the United Nations during 2000 – 2017 in the “Sustainability Report 2020”. After data preprocessing, and based on the degree of correlation coverage of the algorithm, we selected MIC and Spearman from Pearson, Spearman, Kendall and MIC to calculate and get a total of 62 available indicator items, correlation coefficients and correlation directions of 1766 indicator pairs in 193 member states during 2000 – 2017. This dataset can be used as the analysis data for the United Nations to assess the future realization of the Sustainable Development Goals, as well as an important reference for countries to monitor the completion of indicators and formulate relevant policies.
Keywords: sustainable development goals; correlation analysis; time series;  maximum information coefficient; indicator pairs
数据库(集)基本信息简介
数据库(集)名称2000–2017年联合国各成员国的SDGs指标对相关性系数数据集
数据作者高天、张丽丽、黎建辉
数据通信作者黎建辉(lijh@cnic.cn)
数据时间范围2000–2017年
数据量30.1 MB
数据格式*.csv, *.png, *.cab
数据服务系统网址http://www.dx.doi.org/10.11922/sciencedb.j00001.00217
基金项目中国科学院战略性先导科技专项(XDA19020104);中国科学院国际大科学计划培育专项(241711KYSB20200023);北京市科技专项(Z201100008320027)。
数据库(集)组成本数据集主要包括联合国193个全体成员国2000–2017年的SDGs指标对的相关系数表(.csv)和南半球遴选20个国家的数据可视化图片(.png),这些数据保存为1个cab格式文件(.cab)。
Dataset Profile
TitleDataset of correlation coefficients among UN each member state’s SDGs indicator pairs during 2000 – 2017
Data corresponding authorLi Jianhui (lijh@cnic.cn)
Data authorsGao Tian, Zhang Lili, Li Jianhui
Time range2000 – 2017
Data volume30.1 MB
Data format*.csv, *.png, *.cab
Data service system<http://www.dx.doi.org/10.11922/sciencedb.j00001.00217>
Sources of fundingStrategic Priority Research Program of the Chinese Academy of Sciences(XDA19020104); Program for fostering International Megascience of the Chinese Academy of Sciences(241711KYSB20200023); Beijing Municipal S&T Commission Program(Z201100008320027).
Dataset compositionThis dataset mainly includes the correlation coefficient table (.csv) of the SDGs indicator pairs of all 193 member states of the United Nations from 2000 to 2017, the data visualization pictures (.png) of selected 20 countries in the southern hemisphere. These data are saved as a cab format file (.cab).
引 言
联合国可持续发展目标(Sustainable Development Goals,SDGs)是联合国在《2030议程》中提出的一系列新的发展目标[1],全球发达国家和发展中国家均将其作为社会经济协调发展的重要指导,来保障人类社会的长期稳定和健康发展。由于SDGs的3级指标主要支撑2级具体目标的落实,且用于评估《2030年议程》未来的落实情况[2],学界已经广泛地展开关于SDGs目标和指标之间关联性的研究。
可持续发展目标的相关性分析需要以统计的指标数据为基础。《可持续发展报告2020》[3](以下简称报告)中提供的联合国全体193个成员国的统计数据包括了每项指标从2000–2020年的具体数值,但有些指标的数据并非完整,个别年份存在缺失。且指标的时间序列数据只能反映指标本身随年份变化的结果,而无法看出与其他指标之间的关联性。因此,基于报告中已统计的元数据,通过分析计算得出指标的关联性数据,不仅可以直观反映出SDGs整体指标框架之间的联系,还可以为各国的政策实施和完善提供方法学的支持。
本文涉及的SDGs的3级指标数据包含基于对比分析所得的最优相关分析算法——MIC算法计算得出的指标对之间的相关系数和基于Spearman算法计算得到的指标对相关方向,全面地描述了SDGs指标数据之间的关联性,为联合国各成员国未来进一步研究和实施可持续发展目标提供了可靠的数据支撑。
1   数据采集和处理方法
1.1   数据来源
基于数据的规律性和可用性,本文所使用的SDGs指标的时间序列数据来自于《可持续发展报告2020》数据[3]。其中包含联合国成员国家一共193个,时间跨度为2000–2020年共21年,指标从SDG1到SDG17共包含85项。
1.2   数据处理方法
数据处理方法一共有4阶段:数据预处理,相关性算法对比,基于最优相关性算法MIC的指标对相关系数的计算,和基于Spearman算法的指标对相关方向的计算,以及南半球20个国家的SDGs指标对系数可视化,整体流程如图1所示。


图1   SDGs指标数据处理流程
1.2.1   数据预处理
(1)代码名称统一规范化
本文首先对原始数据中不一致的指标代码进行名称统一。原始数据中共有3处指标代码不一致,统一后的结果为:“sdg2_stunting”修改为“sdg2_stuntihme”,“sdg2_wasting”修改为“sdg2_wasteihme”,“sdg5_familypl”修改为“sdg5_fplmodel”。
(2)数据组织
按照国家将指标数据分别进行存储,对每个国家的指标进行处理。
① 完整性查验与预处理
处理规则为:a. 对于21年之中超过5年以上没有数据的指标进行直接删除;b. 根据每个国家每年的数据缺失率,最终选定了2000–2017年的指标数据。
② 数据补全与存储
a. 对于有一些年份缺失数据的指标利用python的sklearn库中KNNImputer函数进行补全,其中k的参数设为3;b. 最后将每个国家预处理好的数据存储成CSV格式的文件,方便未来对于数据的计算。
1.2.2   相关性算法性能对比分析和选择
有代表性的相关性算法有以下4种,其各自的优缺点如表1所示。
表1   4种相关性算法对比
相关性方法优点缺点
Pearson[4]对线性相关比较敏感;包含了相关程度和相关方向对非线性关系不敏感;容易受异常值影响
Spearman适用广泛,对变量的总体分布和容量没有要求;有效衡量两个变量的单调性;对数据错误和极端值反应不敏感不容易检测出两个变量的实际相关关系,统计效能低于Pearson相关系数
Kendall[5]适用广泛,对变量的总体分布和容量没有要求;有效衡量两个变量的等级相关不容易检测出变量序对一致性之外的相关关系
MIC[6]可以探测到函数、非函数和超函数等关系,具有普适性只包含相关程度,不包含相关方向
SDGs指标数据存在多种函数和非函数关系,由表1可知,MIC在与其他相关性算法相比之下,可以探测到更多的相关关系。无论两个变量是线性、立方、指数、周期,还是非线性关系,MIC都可以探测出来,且可以给到较高的分数。因此本文先以MIC为探测SDGs指标对之间相关性的最优算法测度。但MIC无法检测到相关方向,因此我们选取Spearman相关系数来补充衡量指标对之间的相关方向。
1.2.3   基于MIC算法的指标对相关系数计算
本研究利用MIC算法,对193个联合国成员国的共62项可实际使用指标进行了相关系数的计算。根据每个国家的指标对,将每项指标两两配对,共有1766个指标对。分别对每个国家的指标对进行MIC的相关系数计算,每个国家的数据为一列,对193个国家的数据进行合并存储。
1.2.4   基于Spearman算法的指标对相关方向计算
由MIC的定义和性质可知,MIC系数的范围在\(\left[0, 1\right]\)之间,本质上提供了相关程度的参考,而对于相关方向,其并无法表示。Spearman算法可以衡量2个变量之间的单调性,且不受变量的分布和样本容量影响。因此本研究利用Spearman算法,对每个指标对进行相关方向的判定,输出结果1表示正相关,−1表示负相关(1和−1与Spearman的相关系数取值无关,仅为相关方向的符号),作为MIC算法的补充。每个国家的处理过程和1.2.3一样,最终结果存储到一个CSV格式的文件中。
1.2.5   南半球20个国家的SDGs指标对系数可视化
SDGs指标对相关系数可用于缺失数据补全,提供SDGs实施方向指南,发掘SDGs发展进程,有助于对SDGs问题的及时发现与政策校准,这在发展中国家意义尤为突出。由于地理位置和历史原因,南半球的国家绝大部分都是发展中国家,其更应该受到国际的关注。因此本研究根据南半球各国的指标数量,选取联合国成员国南半球国家中数据完整性前20的国家,以热力图形式按国别展示其SDGs指标对的相关关系,图片存储在数据集中。(注:图片中为显示出指标对的相关方向的颜色差异,因此将负相关的MIC系数取负,负号仅代表相关方向。)
2   数据样本描述
本数据包括2000–2017年间,共193个联合国成员国的SDGs的指标对的MIC相关系数,以及相关方向。为方便计算和应用,本研究将数据存储名为Correlation coefficient of Indicator pairs.csv的文件,横轴代表国家,纵轴代表指标对的相关系数和得分。根据预处理后所得数据集,最终一共有62项可用指标,经无重复互相配对后共有1766个指标对。为展示数据集样本,此节随机选取南半球的一个成员国“安哥拉(Angola)”的数据集以及其可视化结果,如表2和图2所示。整体数据集内指标对出现的国家数量和缺失国家部分结果如表3所示。
表2   SDGs指标对相关系数和相关方向(Angola,前15个指标对)
Indicator pairsAngola(coefficient)Angola(direction)
sdg2_undernsh-sdg2_stuntihme11
sdg2_undernsh-sdg2_wasteihme11
sdg2_undernsh-sdg2_obesity1−1
sdg2_undernsh-sdg2_trophic0.29681
sdg2_undernsh-sdg2_crlyld0.4591−1
sdg2_undernsh-sdg2_snmi0.26871
sdg2_undernsh-sdg3_matmort11
sdg2_undernsh-sdg3_neonat11
sdg2_undernsh-sdg3_u5mort11
sdg2_undernsh-sdg3_tb0.4591−1
sdg2_undernsh-sdg3_hiv0.35691
sdg2_undernsh-sdg3_lifee1−1
sdg2_undernsh-sdg3_fertility11
sdg2_undernsh-sdg3_vac0.7394−1
sdg2_undernsh-sdg5_fplmodel1−1
表3   SDGs指标对出现国家数量和缺失国家(部分)
指标对代码国家个数未出现国家
sdg9_articles-sdg13_co2pc193None
sdg9_articles-sdg15_redlist193None
sdg13_co2pc-sdg15_redlist193None
sdg3_neonat-sdg3_u5mort192Liechtenstein
sdg3_neonat-sdg9_articles192Liechtenstein
sdg3_neonat-sdg13_co2pc192Liechtenstein
sdg3_neonat-sdg15_redlist192Liechtenstein
sdg3_u5mort-sdg9_articles192Liechtenstein
sdg3_u5mort-sdg13_co2pc192Liechtenstein
sdg3_u5mort-sdg15_redlist192Liechtenstein
sdg3_neonat-sdg3_vac190Liechtenstein, Montenegro, Sudan
sdg3_u5mort-sdg3_vac190Liechtenstein, Montenegro, Sudan
sdg3_vac-sdg9_articles190Liechtenstein, Montenegro, Sudan
sdg3_vac-sdg13_co2pc190Liechtenstein, Montenegro, Sudan
sdg3_vac-sdg15_redlist190Liechtenstein, Montenegro, Sudan
sdg3_neonat-sdg7_cleanfuel189Lebanon, Libya, Liechtenstein, Turkey
sdg3_u5mort-sdg7_cleanfuel189Lebanon, Libya, Liechtenstein, Turkey
sdg7_cleanfuel-sdg9_articles189Lebanon, Libya, Liechtenstein, Turkey
sdg7_cleanfuel-sdg13_co2pc189Lebanon, Libya, Liechtenstein, Turkey
sdg7_cleanfuel-sdg15_redlist189Lebanon, Libya, Liechtenstein, Turkey


图2   SDGs指标对相关系数热力图(Angola)
3   数据质量控制和评估
本数据集的质量控制体现在两方面:一是数据预处理中对原始指标时间序列的名称统一、删减和补全;二是对选取MIC算法进行实际的验证。
3.1   数据预处理控制
对于原始数据的预处理是后期SDGs指标数据相关性分析的必须前提,名称不统一和缺失的数据会对后续的分析产生很大影响。其中名称统一详见第1.2.1节。Olga Troyanskaya和Michael Cantor等人[8]基于无噪声的时间序列、有噪声的时间序列和非时间序列3组基因微矩阵的数据集,利用KNN算法、SVD算法和行平均算法进行对比验证,证实了KNN算法在估算缺失值方面具有更好的稳定性和健壮性。因此本文选用KNN填补法对SDGs指标数据进行缺失值估算填充。
3.2   MIC算法的质量检验
由于国家数量较多,本研究依据每个大洲的GDP排名[9],选取了排名靠前的20%的国家(共43个)的指标数据对4种相关性算法进行了对比实验。对SDGs指标数据的相关性研究从根本上是要探索和发现指标之间更多的关联性,在此基础上本文提出了两种评价维度用来评价4种相关性算法的优劣。43个国家的名字如表4所示。
表4   43个国家(排名不分先后)
序号国家大洲
1中国亚洲
2日本
3印度
4韩国
5印度尼西亚
6沙特阿拉伯
7伊朗
8泰国
9阿联酋
10以色列
11德国欧洲
12英国
13法国
14意大利
15俄罗斯
16西班牙
17荷兰
18土耳其
19瑞士
20尼日利亚非洲
21南非
22埃及
23阿尔及利亚
24摩洛哥
25肯尼亚
26埃塞俄比亚
27安哥拉
28加纳
29坦桑尼亚
30刚果民主共和国
31澳大利亚大洋洲
32新西兰
33巴布新几内亚
34斐济
35所罗门群岛
36美国北美洲
37加拿大
38墨西哥
39多米尼加共和国
40危地马拉
41巴西南美洲
42阿根廷
43哥伦比亚
两种评价维度:公式(1)代表广度覆盖,公式(2)、(3)代表深度覆盖[10]
\(Bcov\left({M}_{a}\right)=\frac{\left|{S}_{a}\right|}{\left|S\right|}\) (1)
\(Dcov\left({M}_{a},{M}_{b}\right)=\frac{\left|{S}_{a}\cap {S}_{b}\right|}{\left|{S}_{b}\right|}\) (2)
\(Dcov\left({M}_{b},{M}_{a}\right)=\frac{\left|{S}_{b}\cap {S}_{a}\right|}{\left|{S}_{a}\right|}\) (3)
其中,\({S}_{a}\)代表利用\({M}_{a}\)算法对相关系数矩阵进行阈值\(\lambda (\left|\lambda \right|\in \left[0, 1\right])\)筛选后得到的指标对集合(其中不包含同一指标与本身的相关性得分),\({S}_{b}\)同理。\(S\)代表总指标对的集合。广度覆盖表示在\({M}_{a}\)方法下探测到的有效的指标对占总体指标对的比例;深度覆盖表示在\({M}_{a}\)\({M}_{b}\)方法都能探测到的有效指标对中,分别占\({M}_{a}\)方法下的指标对和\({M}_{b}\)方法下的指标对的比例。
43个国家的总指标对数量如图3所示。


图3   43个国家的总指标对数量
对于前3种传统的统计学相关性算法进行显著性检验,Pearson、Spearman、Kendall在显著性水平\(\alpha =0.05\)的条件下,分别查表[11-12]得到相关系数临界值为:\({r}_{p}=0.468\)\({r}_{s}=0.503\)\({r}_{k}=0.317\),自由度均为\(18-2=16\)。根据3种测度算法的相关系数临界值,可以计算指标对在3种算法测度下的相关系数满足\(\left|{r}_{p}\right|>0.468\)\(\left|{r}_{s}\right|>0.503\)\(\left|{r}_{k}\right|>0.317 \)(包括了正相关和负相关两种相关方向)的条件下,指标对之间拒绝零假设,存在相关关系。


图4   43个国家广度覆盖评价维度对比结果


图5   43个国家深度评价维度对比结果
MIC和其他3种相关性算法测度的广度覆盖和深度覆盖分别如图4和图5所示。从图中分布可以看出,对于两种评价维度,MIC对于其他三种测度的覆盖,明显优于其他三种测度对MIC的覆盖。这说明MIC可以探测到更广泛的相关关系,因此选取MIC算法作为SDGs指标数据相关性分析的最优算法。
4   数据价值
SDGs的目标涵盖了经济、政治、人文等多个领域,截止到2020年,SDGs共有17个总体目标,169个相关目标和230多个用来监测实施进展情况的指标。从出现国家次数排名前20的总指标对中可以看出,sdg9_articles,sdg13_co2pc和sdg15_redlist这3个指标覆盖了全部193个国家,这意味着这些指标在全部的国家和地区中统计和监测相对完善。这3个指标分别代表着科技期刊论文数量、与能源相关的二氧化碳排放量和物种生存指数红色名单,这意味着这些指标对所有国家都具有广泛的影响效应。可以更深层次地反映出,各国对于科技、能源和生物的重视应不亚于经济发展的重视。对于出现次数较少的指标对,如sdg9_netacc和sdg10_adjgini等,可能与数据缺失量较大有关。需要各国政府进一步加强对这些问题的关注,督促有关部门尽快制定和完善监测工作和统计方案,以保障从各个方面推进可持续发展议程的实质进展。
本数据集包括联合国193个成员国的2000–2017年的SDGs 62项指标对相关系数和相关方向,以及南半球数据量排名前20的国家的相关系数可视化结果。数据集存储在CAB格式的文件中,以方便未来的处理和应用,用户可根据自身实际情况下载使用。
致 谢
感谢基金项目对于本研究的支持,以及感谢Sachs J.、Schmidt-Traub等人提供的原始数据。
[1]
Assembly G. Resolution adopted by the General Assembly on 19 September 2016[R]. A/RES/71/1, 3 October 2016 (The New York Declaration), 2015.
[2]
朱婧, 孙新章, 何正. SDGs 框架下中国可持续发展评价指标研究[J]. 中国人口· 资源与环境, 2018, 28(12): 9-18.
[3]
Sachs J, Schmidt-Traub G, Kroll C, et al. The Sustainable Development Goals and COVID-19[R]. Sustainable Development Report, 2020.
[4]
Pearson K. Notes on the history of correlation[J]. Biometrika, 1920, 13(1): 25-45.
[5]
Kendall M G. A new measure of rank correlation[J]. Biometrika, 1938, 30(1-2): 81-93.
[6]
Reshef D N, Reshef Y A, Finucane H K, et al. Detecting novel associations in large data sets[J]. science, 2011, 334(6062): 1518-1524.
[7]
樊嵘, 孟大志, 徐大舜. 统计相关性分析方法研究进展[J]. 数学建模及其应用, 2014, 3(1): 1.
[8]
Troyanskaya O, Cantor M, Sherlock G, et al. Missing value estimation methods for DNA microarrays[J]. Bioinformatics, 2001, 17(6): 520-525.
[9]
World Population Review. GDP Ranked by Country 2020[EB/OL]. (2018–08–21) [2020–12–05]. https://worldpopulationreview.com/countries/countries-by-gdp.
[10]
杨甲森. 卫星遥测数据相关性知识发现方法研究[D]. 中国科学院大学 (中国科学院国家空间科学中心), 2019.
[11]
陈志芳, 李国晖. 概率论与数理统计[M]. 科学出版社, 2016.
[12]
孙山泽. 非参数统计讲义[M]. 北京大学出版社, 2000.
数据引用格式
高天, 张丽丽, 黎建辉. 2000–2017年联合国各成员国的SDGs指标对相关性系数数据集[DB/OL]. Science Data Bank, 2021. (2021-01-15). DOI: 10.11922/sciencedb.j00001.00217.
稿件与作者信息
论文引用格式
高天, 张丽丽, 黎建辉. 2000–2017年联合国各成员国的SDGs指标对相关性系数数据集[J/OL]. 中国科学数据, 2021. (2021-01-15). DOI: 10.11922/csdata.2021.0008.zh.
高天
Gao Tian
主要承担工作:数据处理、论文撰写。
(1995—),男,内蒙古呼和浩特市人,在读硕士研究生,研究方向为大数据挖掘与应用。
张丽丽
Zhang Lili
主要承担工作:数据校核、质量控制。
(1984—),女,高级工程师,研究方向为开放科学、开放数据技术政策,信息经济学。
黎建辉
Li Jianhui
主要承担工作:文章框架和方向的把握。
lijh@cnic.cn
(1973—),男,研究员,研究方向为大数据资源开放共享、大数据管理技术、大数据计算与分析技术等。
出版历史
I区发布时间:2021年1月31日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata