由于国家数量较多,本研究依据每个大洲的GDP排名
[9],选取了排名靠前的20%的国家(共43个)的指标数据对4种相关性算法进行了对比实验。对SDGs指标数据的相关性研究从根本上是要探索和发现指标之间更多的关联性,在此基础上本文提出了两种评价维度用来评价4种相关性算法的优劣。43个国家的名字如表4所示。
序号 | 国家 | 大洲 |
---|
1 | 中国 | 亚洲 |
2 | 日本 |
3 | 印度 |
4 | 韩国 |
5 | 印度尼西亚 |
6 | 沙特阿拉伯 |
7 | 伊朗 |
8 | 泰国 |
9 | 阿联酋 |
10 | 以色列 |
11 | 德国 | 欧洲 |
12 | 英国 |
13 | 法国 |
14 | 意大利 |
15 | 俄罗斯 |
16 | 西班牙 |
17 | 荷兰 |
18 | 土耳其 |
19 | 瑞士 |
20 | 尼日利亚 | 非洲 |
21 | 南非 |
22 | 埃及 |
23 | 阿尔及利亚 |
24 | 摩洛哥 |
25 | 肯尼亚 |
26 | 埃塞俄比亚 |
27 | 安哥拉 |
28 | 加纳 |
29 | 坦桑尼亚 |
30 | 刚果民主共和国 |
31 | 澳大利亚 | 大洋洲 |
32 | 新西兰 |
33 | 巴布新几内亚 |
34 | 斐济 |
35 | 所罗门群岛 |
36 | 美国 | 北美洲 |
37 | 加拿大 |
38 | 墨西哥 |
39 | 多米尼加共和国 |
40 | 危地马拉 |
41 | 巴西 | 南美洲 |
42 | 阿根廷 |
43 | 哥伦比亚 |
两种评价维度:公式(1)代表广度覆盖,公式(2)、(3)代表深度覆盖
[10]。
\(Bcov\left({M}_{a}\right)=\frac{\left|{S}_{a}\right|}{\left|S\right|}\) (1)
\(Dcov\left({M}_{a},{M}_{b}\right)=\frac{\left|{S}_{a}\cap {S}_{b}\right|}{\left|{S}_{b}\right|}\) (2)
\(Dcov\left({M}_{b},{M}_{a}\right)=\frac{\left|{S}_{b}\cap {S}_{a}\right|}{\left|{S}_{a}\right|}\) (3)
其中,\({S}_{a}\)代表利用\({M}_{a}\)算法对相关系数矩阵进行阈值\(\lambda (\left|\lambda \right|\in \left[0, 1\right])\)筛选后得到的指标对集合(其中不包含同一指标与本身的相关性得分),\({S}_{b}\)同理。\(S\)代表总指标对的集合。广度覆盖表示在\({M}_{a}\)方法下探测到的有效的指标对占总体指标对的比例;深度覆盖表示在\({M}_{a}\)和\({M}_{b}\)方法都能探测到的有效指标对中,分别占\({M}_{a}\)方法下的指标对和\({M}_{b}\)方法下的指标对的比例。