数据论文 I 区论文(评审中) 版本 ZH2
下载
1986–2019年赣南稀土矿区土地荒漠化数据集
A dataset of land desertification in the rare earth mining area in southern Jiangxi from 1986 to 2019
 >>
: 2020 - 09 - 21
: 2020 - 11 - 12
: 2020 - 11 - 12
395 4 0
摘要&关键词
摘要:岭北矿区是我国南方离子型稀土矿的主要产区,稀土开采带来的严重的土地荒漠化问题已成为离子稀土行业可持续发展的关键制约因素。本文采用了随机森林算法提取土地荒漠化分级信息,完成了1986–2019年29期岭北矿区土地荒漠化分类专题数据集。为了提高荒漠化定量反演的可靠性,以Google影像上选取的样本点验证本数据集的质量和精度,以2018年数据为例,土地荒漠化分级总体精度为93%,kappa系数为90.67%。本数据集反映了特定时期岭北稀土矿区的荒漠化程度以及稀土开采前后矿区土地荒漠化的时空变化情况,并为今后研究区荒漠化的控制、改造工作提供基础数据和技术方法支撑。
关键词:稀土矿区;荒漠化;随机森林;时空变化
Abstract & Keywords
Abstract: The Lingbei mining area is the main production area of ion-type rare earth mines in southern my country. The serious land desertification caused by rare earth mining has become a key constraint to the sustainable development of the ion rare earth industry. This paper uses random forest to extract land desertification classification information, and completes the 29th Lingbei mining area land desertification classification thematic data set from 1986 to 2019. In order to improve the reliability of quantitative inversion of desertification, the quality and accuracy of this dataset are verified by sample points selected on Google images. Taking 2018 data as an example, the overall accuracy of land desertification classification is 93%, and the kappa coefficient is 90.67%. This data set reflects the degree of desertification in the rare earth mining area of Lingbei in a specific period and the temporal and spatial changes of land desertification in the mining area before and after rare earth mining, and provides basic data and technical support for the future control and transformation of desertification in the study area.
Keywords: rare earth mining area; desertification; random forest; temporal and spatial changes
数据库(集)基本信息简介
数据库(集)名称1986–2019年赣南稀土矿区土地荒漠化数据集
数据作者李迎双、李恒凯
数据通信作者李恒凯(giskai@126.com)
数据时间范围1986–2019年
地理区域114°58′04″E–115°10′56″E,24°51′24″N–25°02′56″N
空间分辨率30 m
数据量1.69 MB
数据格式TIF
数据服务系统网址http://www.dx.doi.org/10.11922/sciencedb.00196
基金项目教育部人文社科规划基金项目(18YJAZH040);江西省自然科学基金面上项目(20181BAB206018);江西省教育厅科学技术研究重点项目(GJJ180423)。
数据集组成数据集包含1986–2019年中29个年份的岭北矿区土地荒漠分级栅格数据,每个年份一个文件夹,共29个文件夹,以年份命名。
Dataset Profile
TitleA dataset of land desertification in the rare earth mining area in southern Jiangxi from 1986 to 2019
Data corresponding authorLi Yingshuang, Li Hengkai
Data author(s)Li Hengkai (giskai@126.com)
Time range1986–2019
Geographical scope114°58′04″E–115°10′56″E, 24°51′24″N–25°02′56″N
Spatial resolution30 m
Data volume1.69 MB
Data formatTIF
Data service system<http://www.dx.doi.org/10.11922/sciencedb.00196>
Source(s) of fundingThe Humanities and Social Sciences Planning Fund Project of the Ministry of Education (18YJAZH040), China; The General Project of the Natural Science Foundation of Jiangxi Province , China (20181BAB206018); The Science and Technology Research Key Project of the Department of Education of Jiangxi Province, China (GJJ180423).
Dataset compositionThe dataset contains raster data of land desert grading in Lingbei mining area in 29 years from 1986 to 2019. There is one folder for each year, and there are 29 folders in total, named after the year.
引 言
土地荒漠化是发生在干旱、半干旱及半湿润地区的土地退化过程,是当今人类所面临的重大环境与社会问题之一,严重威胁着我国生态安全与经济社会发展[1]。稀土是我国宝贵的战略资源,是很多高精尖产业所必不可少的原料。我国离子型稀土资源占世界同类资源的90%,极具稀缺性和不可替代性,赣南离子型稀土资源就占到全国同类资源的2/3[2]。然而,矿产资源开发在促进当地经济发展的同时,也因长期大规模的开发给当地造成了非常严重的土地荒漠化问题。
稀土开采带来的矿区地表荒漠化问题,是一个长期的历史过程,与南方丘陵地区特殊的红壤背景、离子稀土独特的成矿方式以及在不同历史阶段的开采工艺有紧密联系。目前,利用遥感影像对矿区荒漠化进行动态监测已成为区域尺度荒漠化的有效监测评价方式[3-4]。随着遥感数据时空分辨率的提高、数据共享性的增加以及遥感信息处理技术的进一步发展,其在土地荒漠化监测中的应用将更加客观、科学和可靠。近年来,随机森林算法因具有极好的准确率,处理多维数据能力强,训练和预测速度快的特点,已在土地利用分类[5]、病虫害监测[6]、植被生物量计算[7]多方面得到应用,显示出较强的应用潜力。Landsat卫星系列是迄今持续时间最长的地球监测卫星项目,丰富的数据为研究更大时空范围的矿区地表荒漠化演变过程提供了重大的机遇。基于此,本研究以随机森林算法的基础,提取了1986–2019年间29期岭北稀土矿区土地荒漠化信息,并制作了土地荒漠化分类专题数据集,以期为稀土矿区荒漠化演变过程的认知和生态环境治理提供决策支持。
1   数据采集与处理方法
1.1   区域范围
赣南地区位于江西省南部,地形分布以山地、丘陵为主,属于南方丘陵地区,易发生崩塌、滑坡、泥石流等自然地质灾害。同时赣南地区的矿产资源十分丰富,享有“稀土王国”的美誉。南方离子型稀土矿区以定南岭北地区为主,其位置如图1所示,其储量达到整个离子型稀土产量的70%,采矿现象极为严重。近20年来,由于人类对于赣南离子型稀土矿的开发利用,矿区生态环境日益恶化,赣南地区不同矿区的荒漠化程度也发生着明显的变化。2001年以前,以池浸、堆浸采选工艺为主要方式。该工艺在开采过程中需剥离表土和矿体,容易造成植被退化、水土流失,加上开采规模的不断扩大,矿区、浸池周边堆积的大量废石和尾砂,会导致土地沙化和荒漠化地表;2002年以后,开采方式主要以原地浸矿为主,该开采方式虽然在一定程度上减少了对生态环境的破坏,但并未从根本上改变开采方式。而且由于浸矿液体不可避免的泄漏,并产生大量的尾渣、废液,会导致更大范围的生态破坏,植被茂密的山地变成裸露的地表,带来水域污染、植被破坏,土地荒漠化等问题[8-9]


图1   研究区地理位置
1.2   数据来源及预处理
本研究采用了1986–2019年中的29期Landsat 5 TM、Landsat 7 ETM+和Landsat 8 OLI影像,空间分辨率均为30 m。数据来源于地理空间数据云和美国地质勘探局官网(USGS),表1为选取长时序变化监测分析影像数据的详细信息。考虑到南方地区常年多云多雨,因此影像采集时间均集中在10月至次年1月,时相基本接近,且由于研究区位于南方区域,无明显四季变化,常年植被覆盖,能够确保同类地物光谱一致性。其中1992年、1998年、2007年、2012年、2015年因云量和回访周期等因素影响,无合适影像选择。DEM数据来自于2009年美国航空航天管理局(NASA)和日本经贸及工业部(METI)共同发布的空间分辨率为30 m的DEM,与多光谱图像分辨率一致。岭北矿区边界是2010年赣州市实测的拐点坐标生成的矢量边界。DEM数据来自于2009年NASA和METI共同发布的空间分辨率为30 m的DEM,与多光谱图像分辨率一致。
表1   影像类型及获取日期
传感器类型获取日期
TM1986-12-24;1987-12-17;1988-12-03;1989-11-20;1990-12-09;1991-10-09;1993-01-31;1994-10-01;1995-12-07;1996-12-25;1997-01-10;2000-11-02;2001-11-21;2002-11-08;2003-12-29;2004-12-25;2005-01-16;2006-12-21;2008-12-10;2009-10-26;2010-10-29;2011-01-01
ETM+1999-12-26
OLI2013-12-24;2014-10-08;2016-12-16;2017-12-19;2018-10-03;2019-11-23
针对Landsat系列数据,预处理过程包括:辐射定标、大气校正、几何校正和影像配准。其中大气校正采用的FLAASH模型;几何校正则采用二次多项式进行校正;影像配准以2013年的Landsat 8 OLI影像作为参考,对其他的影像进行配准;最后利用2010年赣州市实测的拐点坐标生成的岭北矿区矢量边界对Landsat影像进行剪裁和掩膜,得到研究区的影像。
1.3   数据处理流程
随机森林算法由Leo Breiman于2001年提出,是一种基于Bagging集成学习理论的分类器,通过训练样本和变量的子集建立一系列决策树,每棵决策树都是一个分类器,对于一个输入样本,N棵树会有N个分类结果,而随机森林算法集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出[10]。这种方法不需要先验知识,易于使用,在当前所有算法中,具有极好的准确率,并能容忍一定的噪声和异常值,是一种高效灵活的机器学习算法。本研究基于Landsat影像和地形特征,选取了光谱特征变量、纹理特征变量以及地形特征变量3种类型的指标参与分类。实验流程如图2所示。


图2   数据处理流程图
1.4   土地荒漠化等级划分
1.4.1   特征选择
光谱特征变量分别提取了Landsat影像的Blue波段、Red波段、Green波段、NIR波段、SWIR波段,归一化植被指数(NDVI),地表反照率(Albedo)。其中,NDVI作为指示植被生产力的直接指标,已成为土地荒漠化遥感监测研究中的重要依据[11],如式(1)所示。荒漠化程度逐步加重过程中,地表植被减少,水量降低,裸露表面的粗糙度降低,Albedo增加。因此,Albedo可作为反映荒漠化程度的重要参数[12]。Albedo的计算采用Liang S[13]建立的反演模型完成,如式(2)所示。
\(NDVI=\frac{{\rho }_{nir-}{\rho }_{red}}{{\rho }_{nir}+{\rho }_{red}}\) (1)
\(Albedo=0.356{\rho }_{blue}+0.13{\rho }_{red}+0.373{\rho }_{nir}+0.085{\rho }_{swir1}+0.072{\rho }_{swir2}-0.0018\) (2)
纹理特征变量是利用灰度共生矩阵在原始多光谱数据基础上分别提取图像的纹理特征,包括均值(MEA)、方差(VAR)、同质性(HOM)、对比度(CON)、非相似性(DIS)、熵(ENT)、二阶矩(SM)、相关性(COR)共8个参数[14],各项指标计算公式如下。通过灰度共生矩阵获得纹理特征量后,采用主成分分析(PCA)获取合适的纹理波段数据,选取信息量在占95%以上的成分作为纹理特征变量。
\(\mathrm{M}\mathrm{E}\mathrm{A}={\sum }_{i=1}^{N}{\sum }_{j=1}^{N}{iP}_{\delta }\left(i,j\right)\) (3)
\(\mathrm{V}\mathrm{A}\mathrm{R}={\sum }_{i=1}^{N}{\sum }_{j=1}^{N}{{\left(1-u\right)}^{2}P}_{\delta }\left(1,j\right)\) (4)
\(\mathrm{C}\mathrm{O}\mathrm{N}={\sum }_{i=1}^{N}{\sum }_{j=1}^{N}{{\left(i-j\right)}^{2}P}_{\delta }\left(i,j\right)\) (5)
\(\mathrm{C}\mathrm{O}\mathrm{R}=\frac{{\sum }_{i=1}^{N}{\sum }_{j=1}^{N}{ijP}_{\delta }\left(i,j\right)-{u}_{x}{u}_{y}}{{\sigma }_{x}^{2}{\sigma }_{y}^{2}}\) (6)
\({u}_{x}={\sum }_{i=1}^{N}i{\sum }_{j=1}^{N}{P}_{\delta }\left(i,j\right)\)\({u}_{y}={\sum }_{j=1}^{N}j{\sum }_{i=1}^{N}{P}_{\delta }\left(i,j\right)\)
\({\sigma }_{x}^{2}={\sum }_{i=1}^{N}{\left(i-{u}_{x}\right)}^{2}{\sum }_{j=1}^{N}{P}_{\delta }\left(i,j\right)\)\({\sigma }_{y}^{2}={\sum }_{j=1}^{N}{\left(i-{u}_{y}\right)}^{2}{\sum }_{i=1}^{N}{P}_{\delta }\left(i,j\right)\)
\(\mathrm{H}\mathrm{O}\mathrm{M}={\sum }_{i=1}^{N}{\sum }_{j=1}^{N}{P}_{\delta }\left(i,j\right)/\left[1+{\left(i-j\right)}^{2}\right]\) (7)
\(\mathrm{D}\mathrm{I}\mathrm{S}={\sum }_{i=1}^{N}{\sum }_{j=1}^{N}{\left|i-j\right|P}_{\delta }\left(i,j\right)\) (8)
\(\mathrm{E}\mathrm{N}\mathrm{T}={\sum }_{i=1}^{N}{\sum }_{j=1}^{N}{P}_{\delta }\left(i,j\right)log{P}_{\delta }\left(i,j\right)\) (9)
\(\mathrm{S}\mathrm{M}={\sum }_{i=1}^{N}{\sum }_{j=1}^{N}{P}_{\delta }{\left(i,j\right)}^{2}\) (10)
其中,用\({P}_{\delta }\)表示灰度共生矩阵,\({P}_{\delta }\left(i,j\right)\)表示矩阵元素,\(i,j\)分别为两个像素的灰度,N为图像的灰度级数,\(\delta \)为两个像素间的位置关系,\(u\)\({P}_{\delta }\left(i,j\right)\)均值,\({u}_{x}\)\({u}_{y}\)表示均值,\({\sigma }_{x}^{2}\)\({\sigma }_{y}^{2}\)表示方差。
高程特征变量是利用GDEM影像提取的,并利用岭北矿区边界进行剪裁,得到研究区DEM。
1.4.2   建立荒漠化解译标志
荒漠化程度不仅是直接反映土地荒漠化严重程度的指标,也是间接反映和衡量荒漠化土地恢复生产力和恢复生态系统功能难易程度的指标[15]。因此,本实验针对岭北地区地表荒漠化状况,结合水利部组织制定的《南方丘陵山区水土流失综合治理技术标准》(SL757-2014)以及实地调研,利用Google高分影像确立了不同荒漠化程度的解译标志如图3所示,未荒漠化区域主要由灌木、阔叶林地组成,植被覆盖度达75%以上,土壤发育良好无沙化;轻度荒漠化区域由林地、低矮的灌木丛、轻度退化的耕地组成,植被覆盖度达50%–75%;中度荒漠化区域主要由大量园地、耕地组成,植被覆盖度达25%–50%;主要由尾砂、裸地组成,植被覆盖度小于25%。并以此为土地荒漠化分级标准进行评价。

(a)


(b)


(c)


(d)

图3   Google影像土地荒漠化程度解译图
(a)未荒漠化;(b)轻度荒漠化;(c)中度荒漠化;(d)重度荒漠化
1.4.3   样点选取与分类
本实验借助ENVI平台完成,训练过程如下:①随机抽样训练决策树:从谷歌影像上选取训练样本,如图4所示。采用bootstrap方法随机且有放回地从原始样本中抽取N个训练样本,每次大约抽取原始训练样本的2/3,生成样本集,选择好的样本用来训练决策树,并作为决策树根节点处的样本。②随机选取属性做节点分裂属性:在每棵树生长过程中,决策树的每个节点需要分裂,随机从这M个特征变量中选取出m个,满足条件m<<M。在这m个属性中根据Gini系数最小原则选出最优属性进行内部节点分支。③重复步骤②直到不能再分裂。④集合N棵决策树的预测结果,采用投票的方式决定新样本的类别。运行时需要设置3个参数:生长树的数量、最小样本节点和最小杂质。通过实验,设置树的数量为100,最小样本节点为1,最小杂质为0作为最佳分类参数。


图4   谷歌影像取样
2   数据样本描述
1986–2019年赣南岭北稀土矿区土地荒漠化数据集共计29期数据,存储在“1986–2019年岭北矿区土地荒漠化数据集”文件夹中,每期数据以相应的年份命名,总数据量为1.69 MB。空间分辨率均为30 m,投影坐标为UTM 50N,坐标系为WGS1984。2018年岭北矿区土地荒漠化分级图如图5所示。


图5   2018年土地荒漠化分级图
3   数据质量控制与评估
本文采用高分辨率数据来评价荒漠化分级数据的质量,从定量角度出发对岭北矿区土地荒漠化分级结果进行精度评价。以2018年数据为例,在2018年Google Earth高分辨率影像上随机选取样点200个进行精度验证,每种荒漠化土地类型各占50个。结合不同荒漠化程度的解译标志和影像特征(图3),并以此为真实的土地荒漠化标准进行评价,对岭北矿区荒漠化土地分级情况进行评价验证。建立误差矩阵如下,并计算出分类总体精度和Kappa系数,来评价荒漠化信息提取的精确度。总体精度表明了每一个随机样本的分类结果与真实地物类型一致的概率,Kappa系数考虑了混淆矩阵的所有元素,能全面反映总体分类精度,公式如下。
(11)
式中:pc 为总分类精度;m为分类类别数;N为样本总数。Pkk 为第k类的判对样本数。
(12)
式中:K为Kappa系数;N为总样本数;ppi 为某一类所在列总数;pli 为某一类所在行总数。
按照表2中的数据计算得,本实验中基于随机森林算法得到的稀土矿区土地荒漠化分级结果总体精度为93%,kappa系数为90.67%,满足精度要求。
表2   分类精度误差矩阵
类别未荒漠化轻度荒漠化中度荒漠化重度荒漠化总数
未荒漠化4810049
轻度荒漠化2473052
中度荒漠化0243247
重荒漠化0044852
总数50505050200
4   数据价值
离子吸附型稀土由于特殊的开采方式及红壤背景,带来矿区大面积土地退化及荒漠化,因此准确了解矿区土地荒漠化发生发展的时空演变过程,对于矿区生态治理与恢复至关重要。本数据集以Landsat影像为主要的数据来源,结合野外调查和Google高分影像,随机选取样本点验证,以岭北矿区为研究区,制备了1986–2019年间29期岭北矿区土地荒漠化数据集,在较大时空尺度上验证了随机森林算法在南方红壤区提取矿区土地荒漠化信息的适用性,为定量监测和分析矿区荒漠化动态变化特征和规律,以及不同稀土开采模式、管理手段以及复垦措施对矿区土地荒漠化的影响奠定了数据基础。
5   数据使用方法和建议
1986–2019年岭北矿区土地荒漠化数据集保存格式为TIF,ArcGIS、QGIS、ENVI、ERDAS等常用的GIS与遥感软件均支持本数据集的读取和操作。
致 谢
感谢USGS和地理空间数据云提供Landsat系列数据。
[1]
朱震达, 崔书红. 中国南方的土地荒漠化问题[J]. 中国沙漠, 1996(04): 4-10.
[2]
王登红, 赵芝, 于扬, 等. 我国离子吸附型稀土矿产科学研究和调查评价新进展[J]. 地球学报, 2017, 38(03): 317-325.
[3]
Na R, Du H, Na L, et al. Spatiotemporal changes in the Aeolian desertification of Hulunbuir Grassland and its driving factors in China during 1980–2015[J]. Catena, 2019, 182: 104123.
[4]
Zhang C L, Li Q, Shen Y P, et al. Monitoring of aeolian desertification on the Qinghai-Tibet Plateau from the 1970s to 2015 using Landsat images[J]. Science of the Total Environment, 2018, 619: 1648-1659.
[5]
王李娟, 孔钰如, 杨小冬, 等. 基于特征优选随机森林算法的农耕区土地利用分类[J]. 农业工程学报, 2020, 36(04): 244-250.
[6]
Wang H, Zhao Y, Pu R, et al. Mapping robinia pseudoacacia forest health conditions by using combined spectral, spatial, and textural information extracted from Ikonos imagery and random forest classifier[J]. Remote Sensing, 2015, 7(7): 9020-9044.
[7]
Karlson M, Ostwald M, Reese H, et al. Mapping tree canopy cover and aboveground biomass in sudano-sahelian woodlands using Landsat 8 and random forest[J]. Remote Sensing, 2015, 7(8): 10017-10041.
[8]
周夏飞, 朱文泉, 马国霞, 等. 江西省赣州市稀土矿开采导致的水土保持价值损失评估[J]. 自然资源学报, 2016, 31(06): 982-993.
[9]
李恒凯, 吴立新, 刘小生. 稀土矿区地表环境变化多时相遥感监测研究——以岭北稀土矿区为例[J]. 中国矿业大学学报, 2014, 43(06): 1087-1094.
[10]
Breiman L. Random forests[J]. Machine Learning, 2001, 45(1): 5-32.
[11]
刘爽, 宫鹏. 2000~2010年中国地表植被绿度变化[J]. 科学通报, 2012(16):1423-1434.
[12]
官雨薇. 基于遥感影像的全球荒漠化指数构建及趋势分析[D]. 成都: 电子科技大学, 2015.
[13]
Liang S. Narrowband to broadband conversions of land surface albedo I: Algorithms[J]. Remote Sensing of Environment, 2001, 76(2): 213-238.
[14]
杜培军, 柳思聪. 融合多特征的遥感影像变化检测[J]. 遥感学报, 2012, 16(4): 663-677.
[15]
王树力, 杨广巍, 周延阳. 土地荒漠化对生态系统服务价值的影响[J]. 中国水土保持科学,2008(05): 50-56, 70.
数据引用格式
李迎双, 李恒凯. 1986–2019年赣南稀土矿区土地荒漠化数据集[DB/OL]. Science Data Bank, 2020. (2020-11-12). DOI: 10.11922/sciencedb.00196.
稿件与作者信息
论文引用格式
李迎双, 李恒凯. 1986–2019年赣南稀土矿区土地荒漠化数据集[J/OL]. 中国科学数据, 2020. (2020-11-12). DOI: 10.11922/csdata.2020.0092.zh.
李迎双
liyingshuang
主要承担工作:数据预处理及土地荒漠化数据提取。
(1995—),女,湖北省安陆市人,硕士研究生,研究方向为矿区环境遥感。
李恒凯
Li Hengkai
主要承担工作:总体方案设计,数据质量控制,数据论文修改。
giskai@126.com
(1980—),男,湖北省安陆市人,博士,教授,主要研究方向为遥感建模与分析。
出版历史
I区发布时间:2020年11月12日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata