内蒙古及青藏高原草地土壤生物数据集

责编:

1. 数据集中有的数据项数据缺失,例如论文中表1中“样本列表”里的“采样时气温(℃)”,对于类似这样的情况请作者补充这些缺失数据,或者在论文中和在数据文件中分别概括地和详细地说明有关数据项的数据缺失情况及缺失原因。

2. 文章里面的数据集的土壤样品是内蒙古东部和青藏高原的,只是中国部分土壤数据,而文章的标题是“中国土壤生物数据库”,我们依然觉得这个标题相对内容来说有些过大,希望再斟酌标题。

【2016-03-31】 评论来自:版本 1
作者:

1. 该数据集的数据项分为必填和选填两种,标题加粗的为必填项,不加粗的为选填项(可不填),因此出现缺失数据是正常的。已在正文和数据文件中分别说明了这一情况。

2. 已按要求将文章标题细化 。

【2016-04-26】 评论来自:版本 1
专家:

同行评议一:

1.可供下载的数据主要为内蒙和青海部分地区的样点研究数据,建议修改为XXX数据集。

2. 文章中提到必填项包括关键的实验方法,数据样例中没有看到,例如青藏高原高寒草甸土壤移植实验之原位土壤细菌群落组成,土壤移植实验方法没有说明。数据集中的细菌群落组成好像是由高通量测序数据计算得来,其计算方法作为关键的实验方法,也应简要说明。文章中还提到土壤理化性状测定和数据分析应采用国际认可的标准方法,提交时应注明具体条件、参数。但在样例数据中也没有。

3.土壤温度和土壤水分对土壤微生物数据影响较大,建议数据缺失时进行必要的说明。

4. 该数据库建设的目的是为了整合来自不同地点的土壤微生物组成信息,建议规范化现存数据中的土壤类型、植被类型、土地利用类型。

同行评议二:

(1)摘要:建议重新组织,使语言更通顺,表述更完整。

(2)“在我国,尚没有系统的、关于微生物群落的系统分类组成、多样性、时空变异等数据,更不清楚驱动微生物特征的关键因子是什么。” “为此,我们提出建设土壤生物数据库和分析系统,以填补该项研究空白,服务科学研究和生产实践。”建议“在我国,尚没有、以填补该项研究空白”这样的词慎用,除非有确凿的证据。

(3)“另一方面,本数据库的管理员会根据已发表的与土壤生物相关的文献,向作者索要数据,帮助他们完成数据的整理和上传。”“索要”是否合适?

(4)“本数据库的数据均来自于用户上传:一方面,用户可以主动将自己的科研数据通过上传模版提交到数据库;另一方面,本数据库的管理员会根据已发表的与土壤生物相关的文献,向作者索要数据,帮助他们完成数据的整理和上传。”都是用户上传?还是管理员帮助整理上传?还是其他?表达不清。

(5)“注:粗体显示的字段为必填项,其他为选填项(缺失值)”,黑体表示必填字段并不通用,且打印版本中区分不明显,建议采用通用的表达方式,比如加“*”表示必填

(6)“土壤生物数据库内蒙古及青藏高原草地数据集目前记录项目数据3条,样点数据20条”,“土壤生物数据库内蒙古及青藏高原草地数据集”是本文提到的数据库吗?如果是,建议统一名称,如果不是,建议详细描述。

(7) 是否应该指向“样点ID”?

(8)“引用数据”、“请使用以下方式引用本文”为何出现两次?

(9)建议文字尽量减少口语化表达,语言表达尽量通顺,前后逻辑保持一致,标点准确。

【2016-10-11】 评论来自:版本 1
作者:

同行评议一:

1.可供下载的数据主要为内蒙和青海部分地区的样点研究数据,建议修改为XXX数据集。

2. 文章中提到必填项包括关键的实验方法,数据样例中没有看到,例如青藏高原高寒草甸土壤移植实验之原位土壤细菌群落组成,土壤移植实验方法没有说明。数据集中的细菌群落组成好像是由高通量测序数据计算得来,其计算方法作为关键的实验方法,也应简要说明。文章中还提到土壤理化性状测定和数据分析应采用国际认可的标准方法,提交时应注明具体条件、参数。但在样例数据中也没有。

3.土壤温度和土壤水分对土壤微生物数据影响较大,建议数据缺失时进行必要的说明。

4. 该数据库建设的目的是为了整合来自不同地点的土壤微生物组成信息,建议规范化现存数据中的土壤类型、植被类型、土地利用类型。

作者回复: 

1.标题已改为“内蒙古及青藏高原草地土壤生物数据集”

2. 感谢您的宝贵建议!本文涉及的数据是基于VDB平台设计的V1.0版本,功能尚不完善。在该版本中,实验条件、参数可以填写到“样点补充信息”“更多样品信息”这两个相当于备注的字段中。我们即将完成开发的V2.0版本将会提供更多更丰富的字段,分别用于测序分析和理化实验方法、参数的描述。

3.感谢您的宝贵建议!考虑到部分实验没有实测土壤温度和水分,我们将这两个字段设置成选填项。如果其他用户需要研究微生物与土壤温度或水分的关系,那么这些缺失数据会被排除在外,从而保证分析的可靠性。此外,其他相关字段(例如采样时气温、采样时间)也可以在一定程度上弥补土壤温度的不足。我们建议(但无法强制)用户尽可能完善元数据,从而提高微生物数据的利用价值。

4. 感谢您的宝贵建议!我们会在数据库的新版本中完善这些内容。为了举例说明该数据库的数据结构,我们从数据库中选择了样品S0000044及所含Sphingomonas属的信息制作了表1。由于本数据库的数据大多来自于其他科研工作者的自愿上传,过多的必填项会打击用户上传数据的积极性,甚至产生胡乱填表的现象;为了保证关键数据的质量,我们采集数据的原则是“宁可不填,不可错填”,因此设置了必填项和选填项两类字段。在表1中,土壤发生类型、植被类型是选填项,因此可能出现缺失值(-)。对于部分非数值字段,我们采用枚举型字段,即指定若干选项供用户选择,例如土地利用类型有草原、森林、农田、沙漠等几种选项,如果是其它类型则需人工填写。

同行评议二:

(1)摘要:建议重新组织,使语言更通顺,表述更完整。

(2)“在我国,尚没有系统的、关于微生物群落的系统分类组成、多样性、时空变异等数据,更不清楚驱动微生物特征的关键因子是什么。” “为此,我们提出建设土壤生物数据库和分析系统,以填补该项研究空白,服务科学研究和生产实践。”建议“在我国,尚没有、以填补该项研究空白”这样的词慎用,除非有确凿的证据。

(3)“另一方面,本数据库的管理员会根据已发表的与土壤生物相关的文献,向作者索要数据,帮助他们完成数据的整理和上传。”“索要”是否合适?

(4)“本数据库的数据均来自于用户上传:一方面,用户可以主动将自己的科研数据通过上传模版提交到数据库;另一方面,本数据库的管理员会根据已发表的与土壤生物相关的文献,向作者索要数据,帮助他们完成数据的整理和上传。”都是用户上传?还是管理员帮助整理上传?还是其他?表达不清。

(5)“注:粗体显示的字段为必填项,其他为选填项(缺失值)”,黑体表示必填字段并不通用,且打印版本中区分不明显,建议采用通用的表达方式,比如加“*”表示必填

(6)“土壤生物数据库内蒙古及青藏高原草地数据集目前记录项目数据3条,样点数据20条”,“土壤生物数据库内蒙古及青藏高原草地数据集”是本文提到的数据库吗?如果是,建议统一名称,如果不是,建议详细描述。

(7) 是否应该指向“样点ID”?

(8)“引用数据”、“请使用以下方式引用本文”为何出现两次?

(9)建议文字尽量减少口语化表达,语言表达尽量通顺,前后逻辑保持一致,标点准确。

作者回复:

(1)摘要:建议重新组织,使语言更通顺,表述更完整。 【回复】感谢您的宝贵建议!摘要已重新组织。

(2)“在我国,尚没有系统的、关于微生物群落的系统分类组成、多样性、时空变异等数据,更不清楚驱动微生物特征的关键因子是什么。” “为此,我们提出建设土壤生物数据库和分析系统,以填补该项研究空白,服务科学研究和生产实践。”建议“在我国,尚没有、以填补该项研究空白”这样的词慎用,除非有确凿的证据。 【回复】已删除这几个词句

(3)“另一方面,本数据库的管理员会根据已发表的与土壤生物相关的文献,向作者索要数据,帮助他们完成数据的整理和上传。”“索要”是否合适? 【回复】已将“向作者索要”修改为“从原作者处获取”

(4)“本数据库的数据均来自于用户上传:一方面,用户可以主动将自己的科研数据通过上传模版提交到数据库;另一方面,本数据库的管理员会根据已发表的与土壤生物相关的文献,向作者索要数据,帮助他们完成数据的整理和上传。”都是用户上传?还是管理员帮助整理上传?还是其他?表达不清。 【回复】已将“数据均来自于用户上传”改为“数据采集有两种方式”

(5)“注:粗体显示的字段为必填项,其他为选填项(缺失值)”,黑体表示必填字段并不通用,且打印版本中区分不明显,建议采用通用的表达方式,比如加“*”表示必填 【回复】已将粗体改为字段末尾加*号标注

(6)“土壤生物数据库内蒙古及青藏高原草地数据集目前记录项目数据3条,样点数据20条”,“土壤生物数据库内蒙古及青藏高原草地数据集”是本文提到的数据库吗?如果是,建议统一名称,如果不是,建议详细描述。 【回复】“内蒙古及青藏高原草地数据集”(根据编辑和同行专家的建议,目前已改为“内蒙古及青藏高原草地土壤生物数据集”)是土壤生物数据库中的一个数据集,已在文中注明。目前该数据库只完成了这一个数据集,以后会增加更多地区的数据集,所有数据集都采用同一标准。

(7) 是否应该指向“样点ID”? 【回复】图1是VDB后台“配置发布模型”原图,“包含样点”“包含样品”“门水平信息”“属水平信息”这四个字段是集合类型。以“项目列表”的“包含样点”字段(连线的起点)为例,它的目标实体是“样点列表”,目标列(也就是连线的终点)是“项目ID”,这样才能保证在“项目列表”每个项目的“详细”页面显示出该项目所包含的样点列表。我们尝试过将“包含样点”指向“样点ID”,这么做会出错,无法实现上述功能。

(8)“引用数据”、“请使用以下方式引用本文”为何出现两次? 【回复】这可能是上传文稿后由系统自动添加这些内容导致的,已删除重复的部分

(9)建议文字尽量减少口语化表达,语言表达尽量通顺,前后逻辑保持一致,标点准确。 【回复】感谢您的宝贵建议!已按要求修改。

【2016-10-12】 评论来自:版本 1
编委会成员:

经编委会投票决定录用本文。

【2016-10-26】 评论来自:版本 1

提交问题或建议:



您还没有登录,请[登录]或[ 注册]!

内蒙古及青藏高原草地土壤生物数据集

浏览下载总计

网页浏览 论文下载
6136 25

内蒙古及青藏高原草地土壤生物数据集

作者发表的论文

1 青藏高原样带高寒生态系统土壤有机碳分布及其影响因子
田玉强,欧阳华,宋明华,牛海山,胡启武. 浙江大学学报. 农业与生命科学版[J],2007,33(4),443-449

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 17

2 增温与放牧对矮嵩草草甸4种植物气孔密度和气孔长度的影响
张立荣,牛海山,汪诗平,李英年,赵新全. 生态学报[J],2010,30(24),6961-6969

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 14

3 增温对青藏高原高寒草甸生态系统固碳通量影响的模拟研究
亓伟伟,牛海山,汪诗平,刘艳杰,张立荣. 生态学报[J],2012,32(6),1713-1722

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 10

4 我国北方植被指数对土壤湿度的敏感性分析
张强,肖风劲,牛海山,董文杰. 生态学杂志[J],2005,24(7),715-718

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 10

5 荒漠化重建地区土壤有机碳时空动态特征 --以陕西省榆林市为例
程淑兰,欧阳华,牛海山,王琳,田玉强,张锋,高俊琴. 地理学报[J],2004,59(4),505-513

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 9

6 羊草气孔导度的Jarvis-类模型
牛海山,旭日,张志诚,陈佐忠. 生态学杂志[J],2005,24(11),1287-1290

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 8

7 基于GIS的中国松树萎蔫病发生的适应性评价
张志诚,牛海山,黄保续,张磊. 兰州大学学报. 自然科学版[J],2005,41(5),27-32

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 7

8 民勤三项农业节水措施的相对潜力估算
张翠芳,牛海山. 农业工程学报[J],2009,25(10),7-12

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 5

9 生态学试验设计与解释中的常见问题
牛海山,崔骁勇,汪诗平,王艳芬. 生态学报[J],2009,29(7),3901-3910

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 5

10 土壤侵蚀模型中植被管理因子的遥感估算
宋现锋,段峥,牛海山,河野泰之. 北京林业大学学报[J],2009,31(3),58-63

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 4

11 荒漠化逆转地区耕层土壤有机碳时空动态研究
程淑兰,欧阳华,牛海山,王琳,高俊琴,张锋,田玉强. 兰州大学学报. 自然科学版[J],2004,40(6),96-100

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 3

12 荒漠化重建地区土壤有机碳动态研究
程淑兰,欧阳华,牛海山,王琳,田玉强,张锋. 水土保持学报[J],2004,18(3),74-77,89

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 3

13 降雨量对大针茅水分利用效率的影响
刘艳杰,张立荣,牛海山,仲延凯,徐兴良,张翠芳. 中国科学院研究生院学报[J],2013,30(3),334-338

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 1

14 内蒙古草原常见植物叶片δ~(13)C和δ~(15)N对环境因子的响应
刘艳杰,许宁,牛海山. 生态学报[J],2016,36(1),235-243

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 1

15 基于修正MCMC的端元可变的混合像元分解算法
胡霞,宋现锋,牛海山. 计算机科学[J],2013,40(11),308-311

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

16 不同灌溉方法对宁夏葡萄园土壤二氧化碳和甲烷排放的影响
张亚捷,牛海山,汪诗平,Andreas Wilkes,徐坤,吴旭东. 灌溉排水学报[J],2016,35(1),17-21

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

内蒙古及青藏高原草地土壤生物数据集

芮俊鹏1,安家兴1,牛海山2,李香真1*

1. 中国科学院成都生物研究所,中国科学院环境与应用微生物重点实验室、环境微生物四川省重点实验室,成都 610041;

2. 中国科学院大学,北京 100049

* 通讯作者(Email: lixz@cib.ac.cn)

摘要:草地是陆地生态系统的一个重要组成部分。我国的草地主要集中于内蒙古高原及青藏高原。作为土壤生物数据库的一个子集,内蒙古及青藏高原草地土壤生物数据集旨在收集、整理这两个地区的土壤生物组成信息,包括土壤动物、真菌、细菌和古菌的分类组成;同时收集储存与土壤生物样品相对应的环境因子参数,如地理坐标、气候、植被、土地利用方式、土壤理化指标等。

关键词:土壤生物;群落组成;内蒙古高原;青藏高原;草地

The Inner Mongolia and Qinghai-Tibet grassland soil biota dataset

Rui Junpeng1, An Jiaxing1, Niu Haishan2, Li Xiangzhen1*

1. Key Laboratory of Environmental and Applied Microbiology, Environmental Microbiology Key Laboratory of Sichuan Province, Chengdu Institute of Biology, Chinese Academy of Sciences, Chengdu 610041;

2. University of the Chinese Academy of Sciences, Beijing 100049

*Email: lixz@cib.ac.cn

Abstract: The grassland ecosystem is an important part of the terrestrial ecosystem. In China, most grasslands locate in Inner Mongolia and Qinghai-Tibet. As a subset of soil biota database, the Inner Mongolia and Qinghai-Tibet grassland soil biota dataset is used to collect and integrate community compositions of soil biota (fauna, fungi, bacteria, and archaea) from these areas. Moreover, the environmental factors related to the sampling sites and soil samples are also collected, such as geographic positions, climates, plants, soil types, and soil physical and chemical properties.

Keywords: Soil biota; community composition; spatial and temporal distribution; Inner Mongolia Plateau; Qinghai-Tibet Plateau; grassland

数据库(集)基本信息简介

数据库(集)中文名称

内蒙古及青藏高原草地土壤生物数据集

数据库(集)英文名称

The Inner Mongolia and Qinghai-Tibet grassland soil biota dataset

通讯作者

李香真(lixz@cib.ac.cn)

数据作者

芮俊鹏、安家兴、牛海山、李香真

地理区域

中国

数据格式

*.xlsx

数据时间范围

2009~2013年

数据量

1 MB

数据服务系统网址

http://www.sciencedb.cn/dataSet/handle/42

http://soilbiota.vdbspace.cn

基金项目

中国科学院“十二五”科研信息化科技数据资源整合与共享工程,土壤生物数据库,基金代码XXH12504-3-18

数据库(集)组成

数据集目前包含3个研究项目的数据:P00001是“内蒙古东部水热样带上土壤细菌组成”,P00002是“内蒙古东部氮沉降土壤细菌群落组成”,P00003是“青藏高原高寒草甸土壤移植实验之原位土壤细菌群落组成”。对应的3个文件和数据量如下:P00001.xlsx,数据量6116条;P00002.xlsx,数据量4375条;P00003.xlsx,数据量1740条。这3个Excel工作簿均包含5个工作表:项目数据、样点数据、样品数据、门水平信息、属水平信息

引  言

土壤生物是地球上多样性最高、物种最丰富的生物类群。每克土壤中仅微生物数量就可达上亿,含有高达数百万个微生物物种,包括真菌、细菌、古菌等。一方面,土壤是最丰富的“菌种资源库”,例如产抗生素的菌株大多分离自土壤。另一方面,土壤中的生物含有各种功能基因,是一个巨大的“基因资源库”。这些功能基因可以通过定向挖掘及利用生物工程的手段进行开发生产,为工业、农业和医药行业服务。几乎所有物质转化都是在微生物功能基因的调控下进行的。微生物的组成和多样性对土壤的生态功能有直接的影响。

土壤生物的组成反映了生物之间以及生物与环境之间的相互关系。然而,由于技术手段的限制和微生物系统的复杂性,人们对土壤微生物群落组成、功能及其与环境因子的关系认识不够深入,远远落后于对植物和动物的研究水平。

以往的研究大多应用分子指纹图谱类方法,如末端限制性片段长度多态性分析(T‑RFLP)[1]、变性梯度凝胶电泳(DGGE)[2]等,通量和分辨率较低,很难把环境中的菌群全面系统地分析到科、属水平上。由于微生物种群分析复杂繁琐,一般取样量有限,难于建立大尺度上微生物群落特征与环境因子的关系。近年来发展起来的高通量测序技术一次可以测定成千上万条DNA序列,使我们快速地在属、种水平上对微生物进行系统分类,信息全面、效率高,适宜大批量环境样品的菌群分析,为微生物群落研究提供了强有力的手段[3]

然而,由于土壤生物多样性高、组成复杂,大量数据分布在文献中,很难进行系统查询和比较分析,造成了严重的数据资源浪费。因此,建立土壤生物数据库是利用土壤生物资源的一个必要前提。虽然目前已经存在众多的生物数据库,但专门针对土壤中生物群落以及反映土壤性质与生物之间联系的数据库却还没有。高通量测序的数据一般会上传到Genbank、European Nucleotide Archive(ENA)等数据库中保存[4-5],这些数据库的分析功能偏重于序列相似性和生物分类,无法直接分析、比较样品的群落组成以及与环境的关系。为此,我们提出建设土壤生物数据库和分析系统,服务科学研究和生产实践。我国的草原主要集中于内蒙古高原及青藏高原,近年来这两个地区成为草地土壤生物研究的热点区域。因此,收集、整理内蒙古及青藏高原草地土壤生物数据及其环境信息是本数据集的重要工作之一。

1  数据采集和处理方法

本数据集的数据采集有两种方式:一方面,用户可以主动将自己的科研数据通过上传模版提交到数据库;另一方面,数据集管理员会根据已发表的与土壤生物相关的文献,从原作者处获取数据,帮助他们完成数据的整理和上传。

本数据集对数据的要求如下:土壤样品应采集自原位土壤,而不是实验室培养的土壤样品。土壤生物数据应来源于高通量测序数据(例如扩增子测序、宏基因组、宏转录组等)或基因芯片数据(例如GeoChip)。土壤理化性状测定和数据分析应采用国际认可的标准方法,提交时应注明具体条件、参数。为方便不同实验项目的数据比较,原核生物分类统一采用RDP分类标准[6]。所有数据都按要求填写到上传模版中,审核通过后才保存到数据库中。根据数据的重要程度,上传模版中的字段分为必填项和选填项(表1)。必填项主要包括项目及联系人信息、关键的实验方法、采样地理位置、土壤生物丰度等,这些内容的缺失会影响数据的可靠性和利用价值,因此必须完整填写,否则无法通过审核。选填项主要包括一些次要的分析指标、土壤理化参数、气象及植被数据(用户往往只测试/掌握了其中一部分参数/信息),以及生物分类等级(大部分土壤微生物是未培养的,无法精确划分到种属水平),用户可以根据实际情况选择性填写。数据越详细,研究价值越高,被他人再次利用的可能性越高,因此我们建议用户尽可能填写选填项。

录入到数据库中的每一条数据,都将分配到一个唯一的编号即数据库中的主关键字。通过这个编号,用户可以对该数据进行查询、下载和分析等操作,也可以通过相关主题词来查询。

以“内蒙古东部氮沉降土壤细菌群落组成”这个研究项目为例,土壤样品均采集自各块样地的0~10 cm表层土,测序方法为基于16S rRNA扩增子的Miseq测序,PCR引物为515F和806R,数据处理过程中没有做Subsample标准化和Singleton去除,这些与数据采集和处理相关的信息均详细记录在数据库中(表1)。

1  内蒙古东部氮沉降实验样品S0000044及所含Sphingomonas的信息

所属数据表

字段名称

字段值

项目列表

项目ID

P00002

项目名称*

内蒙古东部氮沉降土壤细菌群落组成

项目描述*

用16S rRNA高通量测序方法研究内蒙古东部羊草草原氮沉降土壤细菌群落组成

监测对象*

Bacteria

联系人*

Minjie Yao; Junpeng Rui; Xiangzhen Li

联系单位*

Chengdu Institute of Biology, Chinese Academy of Sciences

联系邮箱*

yaomj@cib.ac.cn; ruijp@cib.ac.cn; lixz@cib.ac.cn

引用文献

Yao et al. 2014. Rate-specific responses of prokaryotic diversity and structure to nitrogen deposition in the Leymus chinensis steppe. Soil Biology and Biochemistry 79: 81-90.

建库类型*

16S rRNA

测序方法*

Miseq

PCR前引物

515F

PCR后引物

806R

Subsample处理

No

去除Singleton

No

样点列表

样点ID

G000010

样点地名*

内蒙古草原生态定位站

纬度(°)*

43.630001068115234

经度(°)*

116.69999694824219

海拔高度(m)*

1250.0

土壤采集深度(cm)

0~10

年平均降水量 (mm)

346.1

年均温(℃)

0.3

采样时气温(℃)

采样时间*

2012/7/9

地上生物量(g/m3

植被盖度(%)

主要植被类型

土地利用类型*

草原

土壤质地

壤土

土壤发生类型

样点补充信息

施氮量0 g·N·m-2·yr-1

样品列表

样品ID

S0000044

土壤pH*

7.34

土壤温度(℃)

土壤含水率(%,wt/wt)

17.91

电导率(μs/cm)

175.1

总氮(%)

0.22

总有机碳(%)

2.4

铵态氮(mg/kg dry soil)

1.37

硝态氮(mg/kg dry soil)

自定义分组1

0N

自定义分组2

Total sequences

16 257

Total OTUs

2688

Observed species

2047

Chao1 estimation

4325

Shannon's index

9.137

更多样品信息

土水比1:5(w:w)测定土壤pH;靛酚蓝比色法测铵态氮;重铬酸钾氧化法测总有机碳;Kjeldahl法测总氮

门、属水平信息

Bacteria

Proteobacteria

门的相对丰度(%)*

25.571 2

Alphaproteobacteria

Sphingomonadales

Sphingomonadaceae

Sphingomonas

属的相对丰度(%)*

1.8149

注:星号(*)标注的字段为必填项,其他为选填项(缺失值在表中用“-”表示)

2  数据集样本描述

内蒙古及青藏高原草地土壤生物数据集是土壤生物数据库的一个子集,目前记录项目数据3条,样点数据20条,土壤样品数据96条,生物门水平相对丰度数据1815条,生物属水平相对丰度数据10297条。已收录的3个项目分别为“内蒙古东部水热样带上土壤细菌组成”(P00001)“内蒙古东部氮沉降土壤细菌群落组成”(P00002)[7]“青藏高原高寒草甸土壤移植实验之原位土壤细菌群落组成”(P00003)[8]

1  VDB后台“配置发布模型”:5个数据表所含字段以及数据表之间的关系

项目数据主要包括项目名称、监测对象(细菌、古菌、真菌、土壤动物等)、建库类型(16S rRNA或功能基因扩增子测序、宏基因组、宏转录组等)、测序方法(Miseq、Hiseq、454测序等)、PCR引物、联系人及所在单位等信息(图1)。如果该项目数据已有文章发表,也可将发表信息随时更新到数据库中,方便他人引用。项目数据还包括测序数据的处理情况,例如数据是否做Subsample标准化(即统一所有样品的序列数目)、是否去除了OTU(按97%序列相似性划分的可操作分类单元,相当于种)中的Singleton(即只有一条序列的OTU)。此外,项目数据的详细页面还列出了该项目所包含的样点列表。例如,项目P00002是用16S rRNA高通量测序方法研究内蒙古东部羊草草原氮沉降土壤细菌群落组成,其监测对象为土壤中的细菌。

样点数据主要包括地理位置(地名、经纬度、海拔)、气候(年降水量、年均温)、植被(生物量、盖度、主要物种)、土壤类型(土地利用类型、土壤分类)等。此外,样点数据的详细页面还列出了该样点所包含的土壤样品列表。例如,项目P00002包含7个样点,样地位置在内蒙古草原生态定位站,每个样点的施氮量为0~28 g·N·m-2·yr-1不等。

土壤样品数据主要包括土壤理化性状(含水量、pH、土壤温度、电导率、总有机碳、铵态氮、硝态氮、总氮等)、所监测生物群落的α多样性等。用户也可自定义属性(例如试验的分组、处理、其他重要的指标),并注明测定某一理化性状的实验方法。此外,样品数据的详细页面还列出了该样品所包含的生物门和属列表。例如,项目P00002包含41个样品,每个样品都单独测了土壤理化性状和细菌16S rRNA扩增子序列。

生物门和属水平相对丰度数据列出了该生物门和属在某土壤样品中的相对丰度,以及更高级别的生物分类。例如,项目P00002包含714条门水平相对丰度数据和3612条属水平相对丰度数据。

上述5类数据通过项目、样点、样品的编号进行关联。以内蒙古东部氮沉降实验样品S0000044为例(表1),既可以通过该样品所属的项目编号和样点编号,找到其项目信息和样点信息,也可以通过该样品包含的门、属水平信息列表或搜索框,找到某个门、属在该样品中的含量。例如,Sphingomonas属在该样品中的相对丰度为1.81%,该属所在的Proteobacteria门在该样品中的相对丰度为25.57%。

3  数据质量控制和评估

数据质量由上传模版、管理员审核、脚本程序三重把关(图2)。

第一步,用户要按要求填写上传模版文件,从而达到数据的规范化。模版文件是一个Excel文件,包含“项目列表”“样点列表”“样品列表”“门水平数据”“属水平数据”等5个数据表,所包含的字段见图1。在该文件中,必填的字段(例如经纬度、土壤pH等重要信息)用红色字体标注,其他为选填字段。部分字段会附带批注,用于解释该字段的意义和填写方式。

第二步,管理员审核用户提交的上传文件,及时纠正发现的错误。例如,必填字段是否都填写完整,填写内容是否符合字段要求,数据是否符合本数据库接收条件,是否使用RDP分类标准,等等。如果文件审核不通过,管理员将通知用户进行修改。

第三步,上传文件由脚本程序转化为数据库存储文件。如果上传文件的格式有误,则转化失败,将错误信息返回给用户纠正。某些字段对数据格式有特殊要求,例如经纬度必须是以度为单位的小数形式,而不能是度分秒格式;又如总有效序列数必须是整数。脚本程序比管理员人工审核更适合做格式上的检查。

2  数据上传及质量控制

4  数据价值

本数据集能够为农业生产、环境治理、生物工程等科研和应用提供科学数据及指导。

首先,本数据库的宗旨是收集并整合不同研究项目、不同科研论文中的土壤生物数据,一方面使得已发表的科研数据能够更方便地被广大用户获取并反复利用,避免数据资源的浪费,另一方面能够提高与数据相关的科研成果的引用率,起到宣传推广科研成果的效果。

其次,本数据库的生物组成数据及其环境因子数据,可以揭示生物组成与环境因子的关系,预测生物组成的动态变化模型。

第三,可以在本数据集寻找与特定的土壤生物最相近的生物种群,以进行比较群落学研究。

第四,根据土壤的宏观参数信息,能够建立土壤生物的分布图及其动态变化模式,分析生物组成与环境因子的关系。

第五,提供可视化的界面交流模式,便于查找微生物在时间和空间上的分布特征。

第六,本数据集也收集功能基因扩增子测序数据和环境基因组数据,以分析微生物群落的潜在代谢功能、绘制基因地图。

以项目P00002为例,通过本数据集可以全面了解这个项目的实验设计和生物、环境数据,了解氮素、pH、水分等环境参数对草原土壤菌群的影响,揭示氮沉降影响草原生态系统的机制。

5  数据使用方法和建议

本数据集基于VisualDB平台构建,可在Science Data Bank网站下载(http://www.sciencedb.cn/dataSet/handle/42),也可在“土壤生物数据库”(V1.0版)中进行在线查询( http://soilbiota.vdbspace.cn)。用户可通过若干筛选字段来查询数据库中符合条件的研究项目、样点、土壤样品和生物群落(门、属水平),利用查询结果比较不同实验、不同地区的土壤生物群落差异,研究群落组成与环境的关系(图3)。这个版本的数据提交工作由管理员在后台完成(用户通过邮件将数据发送给管理员)。

3  数据使用方法

 “土壤生物数据库”(V1.0版本)的导航组件列出了“项目列表”“样点列表”“样品列表”“门水平数据”“属水平数据”这5个查询链接,点击链接可进入查询页面(图4)。在查询页面的“数据信息”版块可以选择要查询的字段、查询规则、需要排序的字段,并在文本框里输入要查询的关键字,点击“查询”按钮即可显示结果。如果要添加查询条件,可点击“查询”按钮右边的向下箭头按钮,再点击“添加条件”,设置完全部查询条件后,点击“高级查询”按钮即可显示结果。查询结果只显示了部分字段,点击“操作”下面的“详细”可查看该条目的全部信息。

4  数据库的样品查询页面

开发中的V2.0版本将在此基础上提供数据批量下载、统计分析(ANOVA、相关性分析、Mantel test等)、绘图(群落组成图、群落与环境关系图、主成分分析图、Venn图、热图等)等功能。此外,用户将可以注册、登录帐号并直接提交数据。用户也可以自由决定数据公开的时间。

致  谢

感谢中国科学院成都生物研究所姚敏杰博士为数据采集和整理付出的辛勤劳动。

作者分工职责

李香真(1967—),男,黑龙江省鹤岗市人,博士,研究员,研究方向为生物质能源和微生物生态学,在本项目中负责总体工作,包括设计、实施工作。

芮俊鹏(1984—),男,安徽省芜湖市人,博士,助理研究员,研究方向为生物信息和微生物生态学,在本项目中主要负责数据库设计、脚本编写、日常管理维护、数据整理和上传等工作。

安家兴(1985—),男,贵州省遵义市人,博士后,研究方向为土壤微生物生态学,毕业于兰州大学生命科学学院,在本项目中主要负责网站设计、数据收集工作。

牛海山(1973—),男,辽宁省建平县人,博士,副教授,研究方向为草原植物生态学,主要负责VisualDB本地化安装和维护。

参考文献

[1] Marsh T. Terminal restriction fragment length polymorphism (T‑RFLP): An emerging method for characterizing diversity among homologous populations of amplification products[J]. Current Opinion in Microbiology, 1999, 2: 323–327.

[2] Muyzer G, Smalla K. Application of denaturing gradient gel electrophoresis (DGGE) and temperature gradient gel electrophoresis (TGGE) in microbial ecology[J]. Antonie van Leeuwenhoek, 1998, 73: 127–141.

[3] Li X, Rui J, Mao Y, et al. Dynamics of the bacterial community structure in the rhizosphere of a maize cultivar[J]. Soil Biology and Biochemistry, 2014, 68: 392–401.

[4] Benson D, Karsch-Mizrachi I, Lipman DJ, et al. GenBank[J]. Nucleic Acids Research, 2005, 33: D34–D38.

[5] Leinonen R, Akhtar R, Birney E, et al. The European Nucleotide Archive[J]. Nucleic Acids Research, 2011, 39: D28–D31.

[6] Cole J, Wang Q, Cardenas E, et al. The Ribosomal Database Project: improved alignments and new tools for rRNA analysis[J]. Nucleic Acids Research, 2009, 37: D141–D145.

[7] Yao M, Rui J, Li J, et al. Rate-specific responses of prokaryotic diversity and structure to nitrogen deposition in the Leymus chinensis steppe[J]. Soil Biology and Biochemistry, 2014, 79: 81–90.

[8] Rui J, Li J, Wang S, et al. Responses of Bacterial Communities to Simulated Climate Changes in Alpine Meadow Soil of the Qinghai­‑Tibet Plateau[J]. Applied and Environmental Microbiology, 2015, 81(17): 6070–6077.

引用数据

(1) 芮俊鹏, 安家兴, 牛海山, 李香真. 内蒙古及青藏高原草地土壤生物数据集[DB/OL]. Science Data Bank. DOI: 10.11922/sciencedb.138.

 

引文格式:芮俊鹏, 安家兴, 牛海山, 李香真. 内蒙古及青藏高原草地土壤生物数据集[J/OL]. 中国科学数据, 2016, 1(3). DOI:10.11922/csdata.170.2015.0021.

下载