数据论文 I 区论文(评审中) 版本 ZH2
下载
2018成都洪涝灾害多源时空数据集
A multi-source spatiotemporal dataset of floods in Chengdu (2018)
 >>
: 2018 - 12 - 14
: 2019 - 03 - 18
: 2019 - 03 - 18
1139 11 0
摘要&关键词
摘要:随着防灾、减灾与救灾技术的不断进步,有效的涉灾数据来源也愈广泛。在洪涝事件中,传统的遥感影像、地面GIS数据以及社会经济发展状况作为主要灾害数据来源已得到一致认可,同时作为“移动传感器”的新兴灾害数据——社交媒体数据以其广泛的参与性和多源的传播性也得到了广泛的应用。本文以2018年7月成都洪涝事件为研究对象,基于多源时空数据融合的理念,收集整理了洪涝事件中不同时期的河流情况、遥感影像、新浪微博数据以及该区域的地形条件与社会经济发展状况数据。在传统灾害数据的基础上,结合灾区公众视角,较为完整地展现了此次洪涝灾害的影响程度与灾情进展,为后续的洪涝灾害风险区域划分、淹没范围建模以及灾情评估提供完整有效的数据支持。
关键词:洪涝灾害;社交媒体;GIS;多源时空数据
Abstract & Keywords
Abstract: With the continuous development of disaster prevention, mitigation and relief means, disaster-related data are becoming increasingly effective and extensive. In flood events, traditional remote sensing images, terrestrial GIS data, and socio-economic development data are widely recognized as the major sources of disaster data. In the meantime, social media data emerged as a "mobile sensor" of disasters, which have been widely used for its extensive participation and multi-source dissemination. Based on the concept of multi-source spatiotemporal data fusion, this paper collects and collates river situation data, remote sensing images, Sina Weibo data, terrain condition and socio-economic development data of the region in different periods in the flood event. On the basis of traditional disaster data, this study engages a public perspective of the disaster area to show the impact of flood disaster and the progress of the disaster, which provides complete and effective data support for subsequent flood risk zoning, flooding range modeling and disaster assessment.
Keywords: flood disaster; social media; GIS; multi-source spatiotemporal data
数据库(集)基本信息简介
数据库(集)名称2018成都洪涝灾害多源时空数据集
数据作者李振宇,解吉波,杨腾飞,牟乃夏
数据通信作者牟乃夏(mounaixia@163.com
数据时间范围2015年、2016年、2018年7月
地理区域地理范围为东经104°07′,北纬30°67′,中国四川省成都市
数据量5.79 GB
数据格式ESRI Shapefile、ESRI GRID、TIF
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/712
基金项目国家重点研发项目(2016YFA0600302)
数据库(集)组成数据集由7部分数据组成:其一为2018年7月成都市哨兵遥感影像数据,数据为TIF格式,存储于sentinel.rar压缩包中;其二是2018年7月成都市新浪微博数据,数据为Shapefile格式,存储于weibo. rar压缩包中;其三是成都市数字高程模型数据,数据为TIF格式,存储于dem. rar压缩包中;其四2015年成都市土地利用数据,数据为IMG格式,存储于land_use. rar压缩包中;其五是2018年7月成都市各区(市)县降雨量数据,数据为Shapefile格式,存储于precipitation. rar压缩包中;其六是2018年7月成都市河流水情数据,数据为Shapefile格式,存储于river. rar压缩包中;其七是2016年成都市各区(市)县社会发展情况数据,数据为Shapefile格式,存储于social_development. rar压缩包中。
Dataset Profile
TitleA multi-source spatiotemporal dataset of floods in Chengdu (2018)
Data corresponding authorMou Naixia (mounaixia@163.com)
Data authorsLi Zhenyu, Xie Jibo,Yang Tengfei,Mou Naixia
Time range2015, 2016, July 2017
Geographical scope104°07′ east longitude, 30°67′ north latitude, Chengdu, Sichuan, China
Data volume5.79 GB
Data formatESRI Shapefile, ESRI GRID, TIF
Data service systemhttp://www.sciencedb.cn/dataSet/handle/712
Sources of fundingNational Key Research and Development Program of China (2016YFA0600302)
Dataset compositionThis dataset consists of seven parts of data, including: July 2018 Chengdu sentinel remote sensing image data in TIF format, stored as sentinel.rar; July 2018 Chengdu Sina-Weibo data in shapefile format, stored as weibo.rar; Chengdu digital elevation model data in TIF format, stored as dem.rar; Chengdu land use data in IMG format, stored as land_use.rar; July 2018 Chengdu district (city/county) rainfall data, in shapefile format, stored as precipitation.rar; July 2018 Chengdu river water data in shapefile format, stored as rivers.rar; 2016 Chengdu district (city/county) social development situation data in shapefile format, stored as social_development.rar.
引 言
洪涝灾害是最频发的自然灾害,严重影响国民经济发展、危害人民生命财产安全、破坏环境[1],快速有效地防灾、减灾与救灾至关重要。随着洪涝灾害的预防、减轻与救援技术的不断革新与改进,有效的涉灾数据也越发多元化。洪涝灾害的产生与影响涉及多种因素,单一尺度数据在复杂的灾害背景下往往是不够的。因此,多源涉灾数据的融合使用能更好地服务于减灾部门的防灾、减灾与救灾。受灾区域的风险划分对于洪涝灾害的预防有重要的意义,对此已有许多学者开展了研究,提出与建立了多种评估模型。如周成虎[2]、赵霞[3]、蒋新宇[4]、马国斌[5]等利用降雨、河网、地形、社会发展情况等多源数据建立了洪涝灾害权重指数模型对洪涝灾害危险性进行评价,同时给出定量化的分级评价结果;在灾情的实时检测中,多源数据融合也同样能发挥重要的作用,如Rosser使用遥感影像、地形数据以及灾区用户的Flickr数据实现洪涝范围的快速预测[6],Eilander等人也使用Twitter与数字高程模型(Digital Elevation Model,DEM)相结合生成实时的洪涝灾害地图[7],实现对洪涝淹没范围的计算;同时许多学者利用与灾害相关的tweets(用户发到Twitter上的信息)获取洪涝灾害造成的社会影响[8-9]与洪水时间行为[10],通过挖掘社交媒体中蕴含的涉灾信息进行灾情评定与分析。相关的研究都表明包括社交媒体在内的多源数据的结合能够更加完整有效地为相关部门的灾害预防、灾情评估与灾后救援提供数据支持。
2018年7月受强降雨影响,四川遭受50年不遇的特大洪灾,多条河流出现超警戒与超保护水位,造成多地受灾损失惨重。其中成都市是受影响最严重的城市之一,在7月2日、9–11日、14–16日、15–17日、19–21日城市发生共5次洪涝灾害,严重影响市民的生产生活并造成巨大的经济损失。考虑到洪涝灾害对城市的持续性破坏以及灾害前中后的不同变化,本文收集整理了2018年7月成都市遥感影像数据、社交媒体数据、各区(市)县降雨量数据与河流水情数据,成都市DEM数据、土地利用数据、各区(市)县人口、各区(市)县生产总值以及各区(市)县农业面积占比等,建立了2018年成都洪涝多源时空数据集,在传统灾害数据的基础上,结合灾区受灾人群视角,完整展现此次洪涝灾害影响与灾情进展,为研究分析成都洪水灾情、建立洪涝灾害模型提供数据基础。其中由于在洪水期间阴雨天气持续时间较长,云量大,光学遥感卫星在监测时会被长时间遮挡,无法观测到大面积下垫面实际情况,而哨兵1号卫星(Sentinel-1)能提供高分辨的雷达影像,在洪水期间可为汛期监测、淹没范围评估等都能提供重要的数据支持,新浪微博数据则以其广大的用户量以及鲜明的时空特征成为了主要的社交媒体灾害数据,故遥感影像与社交媒体分别选择使用哨兵Sentinel-1A卫星地距影像(GED,Ground Range Delected)与新浪微博数据。
1   数据采集和处理方法
数据的采集与处理流程主要包括3个步骤:原始数据收集、数据预处理、数据后处理具体细节如图1所示。


图1   数据采集与处理
1.1   原始数据收集
本研究数据主要分为四大类:第一类是基础地理数据,包括遥感影像、数字高程模型、土地利用数据与原始矢量数据(行政区划、河流)。第二类为水文数据,包括各区(市)县降雨量数据以及成都市河流水况数据。第三类为社会发展状况数据,包括各区(市)县人口密度数据、人均生产总值数据与农业面积占比。第四类是社交媒体数据,即新浪微博数据。
(1)基础地理数据。遥感影像数据主要通过欧洲航天局所属的影像数据下载网站(https://scihub.copernicus.eu/dhus/#/home)下载,共收集7月1日、8日、13日、20日以及25日5幅哨兵1的雷达影像数据,原始遥感影像如图2所示;通过地理空间数据云(http://www.gscloud.cn/)收集了成都市的SRTM(Shuttle Radar Topography Mission)90米分辨率高程数据;土地利用数据则是来自与资源环境数据云平台(http://www.resdc.cn/data.aspx?DATAID=184)的1千米的栅格数据;而原始矢量数据则通过全国地理信息资源目录系统(http://www.webmap.cn/main.do?method=index)进行收集。


图2   原始遥感影像
(2)水文数据。河流水况数据与降雨量数据通过四川省水文水资源勘测局官方网站(http://www.schwr.com/swcb/swyb/2018-08-02/2333.html)发布的“四川省18年7月水情实况”与成都市气象局(http://www.cdtq.gov.cn/)发布的天气实况进行收集,原始数据如图3、图4所示。


图3   河流原始数据(其中各水位单位为米;各流量单位为立方米/秒)


图4   成都市降雨量原始数据(单位为毫米)
(3) 社会发展状况数据。根据成都市统计局官方网站(http://www.cdstats.chengdu.gov.cn/)发布的《成都统计年鉴2017·区(市)县》进行采集处理。
(4) 社交媒体数据。原始数据如图5所示,新浪微博数据收集自2018年7月1日至2018年7月31日新浪微博平台用户发送的涉灾信息。对于新浪微博的数据,利用该平台的高级搜索功能来获取。为确保数据的相关性,以“洪水”“暴雨”“淹、水”“水灾”“涨、水”(词组中顿号为单个字同时检索,即搜索结构文本中同时包含)为关键词,将时间段设为2018年7月1日0时至2018年7月31日的23时,地点则设置为四川省成都市。


图5   新浪微博原始数据
1.2   数据预处理
1.2.1   基础地理数据与水文数据
遥感技术的发展为洪涝灾害的客观、大面积的监测供了有效的手段。为最大限度消除观测值和观测物体的光谱反射率或辐射亮度值的差异,首先需要对哨兵的雷达影像进行辐射校正,其次为了抑制噪声对影像解译的影响,对其进行斑点噪声抑制,同时由于雷达图像的成像问题,往往会造成影像的失真,需要对影像进行几何地形校正,其中由于GRD影像已进行了多视与地理编码校正处理,无需再进行配准处理,最后转换为TIF格式并进行裁剪。DEM数据、土体利用数据、河流水况数据以及降雨量数据等不仅是洪涝危险区域划分重要的自然因素,也是灾情实时检测与灾后影响评估的重要参数,其下载平台所提供的原始地理数据通常以图幅的形式保存。本文针对成都市的洪涝灾害筛选出相关的数据,在对其实现统一坐标转换后进行裁剪与要素融合。针对降雨量数据,因成都市气象局发布的是图片信息,在后续地理分析中需转换成定量化的地理数据,所以在数据预处理阶段需要对其每个区域每天的降雨量进行统计,其中锦江区、青羊区、武侯区、成华区、金牛区统称为主城区。而针对河流的预处理主要是查询成都境内的主要河流与支流信息,并对照“四川省2018年7月水情实况”筛选出成都境内河流7月的洪水情况,进而按照天数进行统计。
1.2.2   社会发展状况数据与社交媒体数据
社会发展状况是划分风险区域与评估灾情的重要指标,通常认为社会发展状况可以定性反映区域的灾损敏感度,在遭受同等级的洪涝时,经济发达且人口密集的区域往往承受更大的损失,同时地区农业在洪涝灾害中灾损敏感度最高。本文通过统计年鉴筛选成都各区(市)县的人口密度、人均生产总值以及农业占比,综合社会发展的因素,通过式(1)计算各地区灾损敏感度\({D}_{i}\)
\({D}_{i}=\frac{{G}_{i}}{\sum _{i=0}^{k}{G}_{i}}+\frac{{P}_{i}}{\sum _{i=0}^{k}{P}_{i}}+\frac{{A}_{i}}{\sum _{i=0}^{k}{A}_{i}}      (1\)
式中i表示所属地区对应的下标,\({G}_{i}\)表示地区人均生产总值,\({P}_{i}\)表示地区人口密度,\({A}_{i}\)表示地区农业面积占比。
新浪微博数据中蕴含丰富的灾害信息,无论是博文本身所涉及灾损信息与社会影响还是用户上传的时间信息与地理位置都能很好地服务于灾害的检测与评估。新浪微博采集的原始数据为HTML网页,其信息杂乱且无结构化,通过页面中的不同元素与父子节点关系解析原始页面并对进行清洗与结构化,最终获取博文信息、上次时间、地理位置、图片链接、该博文的点赞数、转发数以及评论数等相关信息。考虑到同一用户发送同一博文与多个关键词的检索时出现的重复数据,在数据入库时设置联合索引对数据进行去重处理。
1.3   数据后处理
统计数据矢量化。不同的统计数据对应到不同的地理实体中,如各区(市)县的人口数量、生产总值、降雨量等信息,根据不同的行政区划。同样的,河网水情数据也根据对应的河流网络进行属性信息的录入,最后实现统计数据的矢量化。
新浪微博数据矢量化。主要分为3个步骤:位置筛选、地名地址转换、转至矢量点。基于公众使用微博的习惯,并不是所有人都会上传微博位置信息,所以首先筛选出携带地理属性信息的博文,其次考虑到其地理属性信息为定性化的自然地理位置属性如“成都 · 大弯街区”,需将其转化为可展示的定量化地理坐标信息,对此本文采用百度地图开放平台提供的坐标转换服务(http://lbsyun.baidu.com/index.php?title=webapi/guide/changeposition)实现地名地址转换。需要注意的是,出于安全考虑,国内必须使用国测局制定的GCJ-02坐标系(火星坐标系)对地理位置进行加密,所以转换完后的坐标系为GCJ-02坐标系。虽经纬度数值与真实坐标有所偏差,但在大面积估算分析中并未存在影响。最后将信息导入ArcGIS中转换为矢量坐标点,相关的属性信息一并存储于属性表中。
2   数据样本描述
本数据集涵盖与研究成都市洪涝灾害相关的各类数据,包括影像、DEM、土地利用、河流水况、降雨量、社会发展以及新浪微博数据等,各数据的样例如表1所示。其中河流水况、降雨量、社会发展以及新浪微博数据通过矢量化的方式转化为Shapfile格式的矢量数据,其相关属性存储于该数据的属性表中,如表2–5所示。
表1   各数据样例表
数据类型数据格式详细描述样例
影像数据TIF10米分辨率
DEM数据TIF90米分辨率
土地利用数据GRID1000米分辨率
11为水田,12为旱地,21为有林地,22为灌木林,23为疏林地,24为替他林地,31为高覆盖度草地,32为中覆盖度草地,33为低覆盖度草地,41为河渠,42为湖泊,43为水库坑塘,46为滩地,51为城镇用地,52为农村居民点,53为其它建设用地,65为裸土地,66为裸岩石质地。
河流水况数据Shapfile字段“NAME”为各河流名,字段“WL”表示河流水位,单位为米;字段“Flow”表示河流流量,单位为立方米/秒;“OWWL”表示河流超警水位,单位为米;“OPWL”表示河流超保水位单位为米,“RP”表示河流重现期,“OWF”表示河流超警流量,各字段前缀表示日期。
降雨量数据Shapfile字段“NAME”表示区(市)县名字,各时间字段表示当天的降雨量,单位为毫米
社会发展状况数据Shapfile字段“NAME”表示区(市)县名字;字段“POP_DEN”表示地区人口密度,单位为人/平方公里;字段“GDP”表示地区人均生产总值,单位为万元/人;字段“AGR_AREA”表示地区农业占比
新浪微博数据Shapfile字段“keyword”表示检索的关键字;字段“city”表示数据所处的城市;字段“content”表示博文的内容;字段“location”表示定位的自然地理位置;字段“picture”表示图片链接;字段“time”表示发布时间;字段“forwarding_number”表示该博文转发数;字段“comments”表示该博文的评论数;字段“likes”表示该博文的点赞数;字段“lat”与“lng”分别表示转换后的经纬度
表2   河流水况属性表示例
FID8
Shape折线
NAME沱江
7_2_WL
7_2_Flow
7_11_WL447.74
7_11_Flow7810
7_11_OWWL4.44
7_11_WPWL2.64
7_11_RP50
表3   社会经济发展属性表示例
FID0
Shape
NAME浦江县
GDP4.4
POP_DEN462
AGR_AREA0.41
表4   降雨量表示例
FID0
Shape
NAME浦江县
7_125.8
7_2316.9
7_31.4
7_3158
表5   新浪微博属性表示例
FID40
Shape
keyword涨、水
province四川
city成都
content#成都暴雨# #金堂暴雨# 金堂现在 涨 水 的最新情况,已经停 水 停电了,小区也 涨 水 了…
location成都 · 赵镇
picturehttp://wx2.sinaimg.cn/orj480/e686f2bely1ft5y1heealj20qo0f4dh2.jpg;
time07月11日 14:22
forwarding_number3
comments
likes
lat30.859652
lng104.44062
3   数据质量控制和评估
基础地理数据与水文数据。STRM 90米分辨率DEM数据的值域范围为−152~8806米之间,水平精度20米,高程精度16米。原始的矢量数据在与附近野外控制点的平面位置的最小最大误差为50米与200米,数据精度可满足大范围分析需求。通过在ArcGIS中加载天地图的在线地图服务对其进行校准,实现矢量数据的质量把控。土地利用数据则是基于Landsat 8 遥感影像,通过人工目视解译生成,质量精度较高,通过对比高分卫星影像数据进行质量控制。降雨量信息与河流水情信息皆来自相关官方网站,数据的可信度与准确性都较高,在此基础上再进行多方来源的此类型数据对比查验,实现对数据的质量把控。
社交媒体数据,作为灾情评估与分析的重要数据来源,其文本内容的有效性与位置的准确性都十分重要。一方面为确保数据的完整性与相关性,本文人工检查了所有微博数据,删除与主题无关或不完整的数据。另一方面,在坐标转换过程中由于地理描述信息的精度与地理坐标的加密,转换后的地理坐标会出现误差,虽然在大面积分析中允许误差出现,但误差范围必须符合人们的常规认识,本文通过将坐标依次输入百度地图在线经纬度拾取工具(http://api.map.baidu.com/lbsapi/getpoint/index.html)与数据中地名地址对比,将误差较大的数据去除,以此实现数据质量的控制。
最后通过不同数据图层的叠加(图6),实现交叉验证数据质量。


图6   数据叠加
4   数据使用方法和建议
数据集收集了洪涝灾害的多源数据,数据格式包括TIF、GRID、Shapfile,使用主流的GIS软件均可实现读写。针对数据集的使用有以下几点建议:
(1)洪涝风险区域划分。通过各涉灾因子建立不同的指标并进行地图代数处理,然后进行叠加分析并划分综合风险区域,最后再利用遥感影像与社交媒体数据进行评估结果的验证。
(2)洪涝淹没范围检测建模。对遥感影像采用不同的算法进行淹没范围的提取,结合社交媒体中蕴含的水位信息、地形变化、流域水情以及降雨量建立完善的洪涝淹没范围模型。
(3)洪涝灾情评估建模。新浪微博无论是博文信息还是图片信息中都蕴含了不同的灾损信息与社会影响信息,如洪涝灾害造成的交通堵塞、农林作物损毁、人员伤亡、水电影响以及房屋水浸等,此类信息对灾害的评估有重要的作用,通过抽取其中的相关信息结合土地利用数据与社会发展状况实现对灾情的评估,细粒度地分析易发生的灾害损失区域,为以后相关部门的针对性救灾决策提供支持。
[1]
刘亚岚, 王世新, 阎守邕, 等. 遥感与GIS支持下的基于网络的洪涝灾害监测评估系统关键技术研究[J]. 遥感学报, 2001, 5(1): 53-57.
[2]
周成虎,万庆,黄诗峰,等. 基于GIS的洪水灾害风险区划 研究[J]. 地理学报, 2000, 55(1): 15-24.
[3]
赵霞, 王平, 龚亚丽, 等. 基于GIS的内蒙古中部区域洪水 灾害风险评价[J]. 北京师范大学学报(自然科学版), 2007, 43( 6): 666–669.
[4]
蒋新宇, 范久波, 张继权, 等. 基于GIS的松花江干流暴雨洪涝灾害风险评估[J]. 灾害学, 2009, 24(3): 51–56.
[5]
马国斌, 李京, 蒋卫国, 等 . 基于气象预测数据的中国洪涝灾害危险性评估与预警研究[J]. 灾害学, 2011, 26(3): 8–12,17.
[6]
ROSSER J F, LEIBOVICI D G, JACKSON M J. Rapid flood inundation mapping using social media, remote sensing and topographic data[J]. Natural Hazards, 2017, 87(1): 103-120.
[7]
EILANDER D , TRAMBAUER P , WAGEMAKER J, et al. Harvesting Social Media for Generation of Near Real-time Flood Maps[J]. Procedia Engineering, 2016, 154: 176-183.
[8]
LU X, BRELSFORD C. Network Structure and Community Evolution on Twitter: Human Behavior Change in Response to the 2011 Japanese Earthquake and Tsunami [J]. Scientific Reports, 2015, 4(1): 6773.
[9]
GUAN X, CHEN C. Using social media data to understand and assess disasters[J]. Natural Hazards, 2014, 74(2):837-850.
[10]
SCHNEBELE E, CERVONE G, WATERS N. Road assessment after flood events using non-authoritative data[J]. Natural Hazards & Earth System Sciences, 2014, 14: 1007-1015.
数据引用格式
李振宇, 解吉波, 杨腾飞, 牟乃夏. 2018成都洪涝灾害多源时空数据集[J/OL]. 中国科学数据, 2018. (2018-12-14). DOI: 10.11922/sciencedb.712.
稿件与作者信息
论文引用格式
李振宇, 解吉波, 杨腾飞, 牟乃夏. 2018成都洪涝灾害多源时空数据集[J/OL]. 中国科学数据, 2018. (2019-02-27). DOI: 10.11922/csdata.2018.0093.zh.
李振宇
Li Zhenyu
主要承担工作:数据的收集处理,论文撰写。
(1994—),男,海南人,研究生,研究方向为空间数据挖掘。
解吉波
Xie Jibo
主要承担工作:数据集结构设计、技术指导以及论文修改。
(1977—),男,山东人,博士,副研究员,研究方向为地理空间数据基础设施、遥感、地理计算。
杨腾飞
Yang Tengfei
主要承担工作:技术指导与论文修改。
(1988—),男,河南人,博士生,研究方向为自然语言处理、灾害信息挖掘。
牟乃夏
Mou Naixia
主要承担工作:数据集结构设计、技术指导以及论文修改。
mounaixia@163.com
(1973—),男,山东人,博士,副教授,研究方向为时空信息挖掘与推荐。
出版历史
I区发布时间:2019年3月18日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata