欢迎访问中国科学数据!

用于生命之树重建的数据集

责编:

 对论文的意见均用批注框的方式标注在文中:

(1)在中文摘要中“automatic reconstruction”的翻译是否不大准确,下同。

(2)图1中①邻近位置出现2次“声明书的可视化、Web化表现”,请确认是否有误。②请斟酌“物 种库雏形绿色植物生命之树信息平台”中的“雏形”要不要换位置?“生命之树”是否要跟流程中的“生命树”叫法统一?

(3)引言部分的倒数第3段中:①对第一句进行了编辑,请确认是否有误。②“第三方面是系统发育大树的信息树”此句中出现2个“树”,是否就是“系统发育树”?③“以形成系统发育的信息树”是否有误?

(4)第1.1节中:①建议规范本节的表述,统一增加必要的中文翻译。②“元数据(Meta)与序列数据(Sequence)”翻译不准确?③“再通过对应的meta和sequence数据还原出原数据返回”此句中的“返回”有些费解,请斟酌。

(5)第1.2节中“如.ab1测序谱图文件”中的“.ab1”是什么意思?

(6)第1.3节中“由于材料缺乏或测序工作中的问题”是否说完整了?

(7)本文在邻近段落中同时出现“大批量”“大量”“海量”“大规模”数据,是否有区别,要不要统一?

(8)全文中相同的单词有大写的有小写的,请检查后统一。

(9)第3.1节的第二段中,请确认以下几句是否有误:“每个任务对其输入进行BLAST运算”“具体实现时,采用Apache Hadoop(MapReduce模型的开源实现)来并行的调用BLAST”“其流模式”“采用NCBI提供一个实现版本NCBI BLAST2为执行版BLAST程序”。

(10)第3.2.1中“非确定碱基(R/K/M/S/Y/W/ H/B/V/D)”请确认中间是否保留空格?下同。

(11)第3.2.4中:①“用户输入的NS等的值”请确认是否有误。②“在本课题中应用的报告格式将以XML格式配置如图6(B)所示”中“本课题”用在此处不妥,请修改。

对数据集的意见:

(1)在论文第2节的“数据样本描述”中,作者提供了数据样例的网址,下载之后三个数据集的样例都在一个pdf文件中,希望作者将这三个数据集样例分开为三个与数据集对应的文件,文件名称命名与文中对应并更具体化一些,比如分别为:“原始数据accesion:HF677508基础数据”、“Abelmoschus_manihot_CPG14101自测序列数据”、“中国维管植物属系统发育树数据”,希望用户下载之后是一个压缩文件,里面包括相互独立的这三个文件。在论文中只提供一个下载的地址就可以了,在提供地址的地方简单说明即可。

(2)作者提供的地址下载的文件打开之后,对于第一个数据集,有两个问题:a.作者应该在开头增加几句说明性文字,与论文中相一致,如:“DarwinTree基础数据集以JSON格式存储在Mongodb数据库中,以原始数据accesion:HF677508为例”;b.下载的文件里作者提供的例子是“ACCESSION" : "AB008781"”,而非“accesion:HF677508”,望作者修改,以与论文保持统一。

(3)对于第三个数据集,希望作者在论文中说明一下,newick格式的文件可以用哪种可视化工具打开。

(4)在论文第4节“数据使用方法与建议”里,作者用一张图的8个功能块对网数据浏览功能进行说明,很多功能并没有清晰的描述。希望作者能用多图的方式分开来逐个进行说明,至少要把作者本文介绍的三个数据集的查找方法一一进行详细说明。

(5)请作者在Sciencedb上以在线服务的方式上传本文的数据在线访问地址。

【2016-07-20】 评论来自:版本 1
作者:

已根据批注,修改一版并上传

【2016-08-03】 评论来自:版本 1
责编委:

建议“”数据库(集)基本信息简介中的数据服务系统网址“和”正文“4数据使用方法和建议”中所提到的服务路径相统一,若多个访问路径,请 一并提供,以方便阅读使用。

【2016-08-20】 评论来自:版本 1
专家:

同行评议1:

1) 作者描述其数据集是从“”中国陆地植物 发育系统框架的研究出发”,但就我所知,该研究团队仅仅聚集在维管植物,并没有对苔藓类群开展工作。请澄清!同时,植物所研究团队仅仅在属级水平补测了中国分布的类群,并非世界范围的。为了避免混淆,或者故意夸大自己的数据集,请客观描述。

2)整篇作者都用“Gene Marker”, 但GenBank中大量的序列并非Gene, 而是基因间区,比如ITS1,trnL-trnF spacer等等。建议用DNA 片段,DNA locus或者分子标记(Molecular marker)。

3)引言中,请给出关于生命之树定义的参考文献。

4)对于自测序列的数据操作流程,这一部分其他人或者使用者是不清楚自测作者是否详细根据这些流程的。个人认为没有必要或者应该更简练。

5)该数据集应该是针对分子系统学或者有其需求的用户的,尽管这篇文章有很多的分子系统学背景的作者,但读起来十分晦涩。因此,我怀疑并非每个作者都通读了该稿子。因此,强烈建议投稿前,请每位作者都通读一遍。

6) 图1流程图中”生命树的可视化、Web化表现“和"生命之树的可视化、Web化表现"是不是重复了?

7) 建议将图2中压着箭头的字调整一下,重合着影响阅读.

同行评议2: 本文以生命之树信息平台及其利用体系的构建为立足点,从实际出发,利用三大数据集为准确、快速、高效的挖掘生物信息资源提供了平台和实用技术。 需要修改的部分在上传审稿中标注。 是否考虑下一步实现网页界面有中英文的选择。审改稿中的意见如下:

1. 英文摘要中的Sequencing data是否改为Molecular sequence?

2. 图3中:(1)采集数据部分:应该是采集信息包括所属大陆、国家、省自治区等,而不是包括在采集日期里面 (2)实验数据部分:第8步重新测定或测量新的组合或片段是否改为重新测定或测定新的组合或片段?

3. 图4中注释抽提并专家确认的序列文件是否改为注释抽提并由专家确认的序列文件?

4. 第3.2.2节中提到“通过读取上一步的br流中的数据”,br流可否换更易理解的词,是Blastresult吗?

同行评议3:

1.研究内容:生命之树的重建工作属于生命科学领域的热点和难点,国际上竞争激烈,文章针对目前构建超大生命之树的途径进行分析,提出有效的策略和方法。

2.研究方法和基础:三方共建的“达尔文树”平台,以及基于该平台研发的自动生成技术、生命之树信息平台,具有创新性,条理清晰,研究方案合理,有利于提升我国科研竞争力和影响力。

3.研究团队:该研究在学科整合和科研团队选择上存在优势。数据分析上,团队人员分工明确,整合了系统植物学、生物信息学、生物大数据和计算机软件多学科的交叉优势,研究能力和背景较强。

【2016-09-05】 评论来自:版本 1
作者:

同评专家一意见:

1) 作者描述其数据集是从“中国陆地植物发育系统框架的研究出发”,但就我所知,该研究团队仅仅聚集在维管植物,并没有对苔藓类群开展工作。请澄清!同时,植物所研究团队仅仅在属级水平补测了中国分布的类群,并非世界范围的。为了避免混淆,或者故意夸大自己的数据集,请客观描述。 谢谢,后面数据集具体公开的数据有具体的界定,如“DarwinTree中国维管植物进化数据集”

2)整篇作者都用“Gene Marker”, 但GenBank中大量的序列并非Gene, 而是基因间区,比如ITS1,trnL-trnF spacer等等。建议用DNA 片段,DNA locus或者分子标记(Molecular marker)。 谢谢,已按照您的建议更改为Molecular Marker

3)引言中,请给出关于生命之树定义的参考文献。 谢谢,第一篇文献里就有

4)对于自测序列的数据操作流程,这一部分其他人或者使用者是不清楚自测作者是否详细根据这些流程的。个人认为没有必要或者应该更简练。 谢谢,这个考虑了下,还是按照这个写吧,别的专家也针对这个由具体的建议也修改了。

5)该数据集应该是针对分子系统学或者有其需求的用户的,尽管这篇文章有很多的分子系统学背景的作者,但读起来十分晦涩。因此,我怀疑并非每个作者都通读了该稿子。因此,强烈建议投稿前,请每位作者都通读一遍。 谢谢,之前已经请通讯作者之一的陈之端老师做了通篇的意见修改

6) 图1流程图中”生命树的可视化、Web化表现“和"生命之树的可视化、Web化表现"是不是重复了? 谢谢,已经修改

7) 建议将图2中压着箭头的字调整一下,重合着影响阅读。 谢谢,已经修改

同评专家二意见: 本文以生命之树信息平台及其利用体系的构建为立足点,从实际出发,利用三大数据集为准确、快速、高效的挖掘生物信息资源提供了平台和实用技术。 需要修改的部分在上传审稿中标注。 是否考虑下一步实现网页界面有中英文的选择。 谢谢建议,可以列到下一步计划里

1. 英文摘要中的Sequencing data是否改为Molecular sequence? 谢谢,已经修改

2. 图3中:(1)采集数据部分:应该是采集信息包括所属大陆、国家、省自治区等,而不是包括在采集日期里面 谢谢,已经修改 (2)实验数据部分:第8步重新测定或测量新的组合或片段是否改为重新测定或测定新的组合或片段? 谢谢,已经修改

3. 图4中注释抽提并专家确认的序列文件是否改为注释抽提并由专家确认的序列文件? 谢谢,已经修改

4. 第3.2.2节中提到“通过读取上一步的br流中的数据”,br流可否换更易理解的词,是Blastresult吗? 谢谢,已经修改

【2016-09-12】 评论来自:版本 2
编委会成员:

经编委会投票表决,决定录用本文。

【2016-10-11】 评论来自:版本 2

提交问题或建议:



您还没有登录,请[登录]或[ 注册]!

用于生命之树重建的数据集

浏览下载总计

网页浏览 论文下载
2658 10

用于生命之树重建的数据集

作者发表的论文

很抱歉,没有检索到作者相关论文!

            数据来源:CSCD中国科学引文数据库

用于生命之树重建的数据集

孟珍1,杨拓2,刘红梅3,黎建辉1*,曹巍1,刘勇1,杲艳平1,刘奇1,林小光1,何星1,邵靖1,郑波1,王学志1,周园春1,陈之端2*,林立2,苏俊霞2,孙苗2,董晓宇2,李洪雷2,鲁丽敏2,张景博2,朱新宇2,李勇3,张寿洲3*,董慧3,廖一颖3,杨蕾蕾3,万涛3

1. 中国科学院计算机网络信息中心,北京 100190;

2. 中国科学院植物研究所,系统与进化国家重点实验室,北京 100093;

3. 深圳中国科学院仙湖植物园,北京 100093

*通讯作者(Email: lijh@cnic.cn,zhiduan@ibcas.ac.cn,shouzhouz@126.com)

摘要:由中国科学院计算机网络信息中心、中国科学院植物研究所、深圳市中国科学院仙湖植物园“三方两地”共同合作研究建设的“达尔文树”——分子数据分析应用环境(DarwinTree——Molecular Data Analysis and Application Environment),从中国陆地植物发育系统框架的研究出发,逐步推动解决生命之树构建过程中存在的技术难题,探索利用基因和基因组信息构建生命之树的策略和方法,研究和开发DNA序列信息自动采集和生命之树自动生成技术(Automatic Reconstruction of The Tree of Life),建立生命之树信息平台及其利用体系,为最终在我国建立具有国际影响的,能很好地兼容物种分类、地理分布、形态性状、化石信息以及DNA信息的物种库(Species Bank)创造条件。DarwinTree旨在为科研人员提供数据和分析并举的工作平台,该平台将承担数据汇集和面向实际科研工作应用的双重作用。本文发布的数据集包括:(1)DarwinTree基础数据集:来自国际公共序列数据的标记处理得到的分子标记数据及其与任意阶元物种分类名称对应的统计数据集;(2)DarwinTree自测序数据集:面向中国陆地植物研究的补充测序序列数据;(3)DarwinTree中国维管植物进化数据集:已构建的中国维管植物属系统发育树的数据(Generic tree of Chinese vascular plants)。

关键词:DarwinTree;系统发育;生物进化;分子序列;基础数据集;自测序数据集;中国维管植物进化数据集

The datasets used for the reconstruction of the tree of life

Meng Zhen1, Yang Tuo2, Liu Hongmei3, Li Jianhui1*, Cao Wei1, Liu Yong1, Gao Yanping1, Liu Qi1, Lin Xiaoguang1, He Xing1, Shao Jing1, Zheng Bo1, Wang Xuezhi1, Zhou Yuanchun1, Chen Zhiduan2*, Lin Li2, Su Junxia2, Sun Miao2, Dong Xiaoyu2, Li Honglei2, Lu Limin2, Zhang Jingbo2, Zhu Xinyu2, Li Yong3, Zhang Shouzhou3*, Dong Hui3, Liao Yiying3, Yang Leilei3, Wan Tao3

1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, P. R. China;

2. State Key Laboratory of Systematic and Evolutionary Botany, Institute of Botany, Beijing 100093, P. R. China

3. Fairylake Botanical Garden, Shenzhen & Chinese Academy of Sciences, Shenzhen 518004, P. R. China

*Email: lijh@cnic.cn, zhiduan@ibcas.ac.cn, shouzhouz@126.com

Abstract: DarwinTree (http://www.darwintree.cn) was initiated to construct a molecular data analysis and application environment for the phylogenetic study and compiled collaboratively by three organizations from Chinese Academy of Sciences, which are Computer Network Information Center (CNIC), Institute of Botany (IB) and Shenzhen Fairylake Botanical Garden (SZBG). DarwinTree is expanding its development in a global scale to build an international research alliance. It has initiated the first international campaigns with the University of Florida for the study on the phylogeny of angiosperms. Recently, DarwinTree provides an integrated bioinformatics platform that supports all phases of the analytical pathway for phylogenetic study from data collection including gene data acquisition and management to phylogenetic tree reconstruction including sequences alignment and data matrix construction, to different branches reconstruction, to assembly of large trees and mode of optimization, to visualization of the tree of life and web-based rendering, and to specific application service and data mining. The datasets included in this published paper are: (1) the basic datasets in DarwinTree: the Gene Mark Data labeled from international public sequence data and the statistical datasets with any scientific name and any mark name; (2) the sequencing datasets in DarwinTree: the complementary sequencing data for China land plants; (3) Generic tree of Chinese vascular plants datasets.

Keywords: DarwinTree; Phylogeny; Biological evolution; Molecular sequence; Basic datasets; Complementary sequencing data; Generic tree of Chinese vascular plants datasetss

数据库(集)基本信息简介

数据库(集)中文名称

用于生命之树重建的数据集

数据库(集)英文名称

The datasets used for the reconstruction of the tree of life

数据作者

孟珍、杨拓、刘红梅、黎建辉、曹巍、刘勇、杲艳平、刘奇、林小光、何星、邵靖、郑波、王学志、周园春、陈之端、林立、苏俊霞、孙苗、董晓宇、李洪雷、鲁丽敏、张景博、朱新宇、李勇、张寿洲、董慧、廖一颖、杨蕾蕾、万涛

通讯作者

黎建辉(lijh@cnic.cn)、陈之端(zhiduan@ibcas.ac.cn)、张寿洲(shouzhouz@126.com)

数据服务系统网址

http://www.darwintree.cn

http://www.sciencedb.cn/dataSet/handle/117

基金项目

国家科技基础条件平台子专题(Y207011108)、深圳市科技研发国际合作资金项目(ZYA201007060093A)、中国科学院知识创新工程青年基金项目(Y114061108)、国家自然科学基金(91224006、31270268和61003138)、科技部支撑计划(2014CB954100)、中科院战略先导项目(XDA06010202)、中国科学院计算机网络信息中心一三五规划重点培育方向专项 (CNIC_PY-1405)、深圳市科技创新委员会资助(KQC201105310009A)

数据库(集)组成

数据集由三部分数据组成,其一为DarwinTree基础数据集,其二是DarwinTree自测序数据集,其三是DarwinTree中国维管植物进化数据集。

引 言

生命之树(Tree of Life,TOL)是指将所有生物种类(包括现存和已灭绝的)联系在一起并蕴涵海量信息的系统进化树。它可用来阐明生命的起源、生物进化式样、生物各大门类演化和亲缘关系、以及生物多样性的存在方式和变化的动态规律。构建生命之树并充分挖掘和利用其中的信息资源是生命科学面临的又一挑战。目前国际上已经开展了由多个国家、多个科研团队和较多科研人员共同参与的构建TOL的研究工作[1]

从研究积淀上来讲,近20年快速积累的基因和基因组信息为生命之树的构建奠定了重要基础。然而目前在DNA数据的自动采集和筛选、数据整合、超大树(Supertree)构建、以及信息的进一步挖掘和共享等方面都存在很多技术难题,各国都在寻找利用基因和基因组信息构建生命之树的有效策略和方法[2]。构建超大生命之树有两种不同的途径:(1)依据两个或若干个较小树的重叠部分,把多个已完成的小树整合成超大树;(2)直接对超大数据矩阵进行分析,构建生命之树。但无论哪种途径目前都面临同样的问题,即如何充分利用公共数据库中已有的DNA序列信息?如何对这些信息进行有效筛选?如何快速自动生成反映不同生物类群进化历史的生命之树?如何充分挖掘和利用生命之树中蕴涵的巨大信息?

由中国科学院计算机网络信息中心、中国科学院植物研究所、深圳市中国科学院仙湖植物园三方两地共同合作研究建设的“达尔文树”——分子数据分析应用环境(DarwinTree——Molecular Data Analysis and Application Environment)[3-4],从中国的陆地植物发育系统框架的研究出发,逐步推动解决生命之树构建过程中存在的技术难题,探索利用基因和基因组信息构建生命之树的策略和方法,研究和开发DNA序列信息自动采集和生命之树自动生成技术(Automatic Reconstruction of The Tree of Life),建立生命之树信息平台及其利用体系,为最终在我国建立具有国际影响的、能很好地兼容物种分类、地理分布、形态性状、化石信息以及DNA信息的物种库(Species Bank)创造条件。DarwinTree意在为科研人员提供数据和分析并举的工作平台,并承担数据汇集和面向实际科研工作应用的双重作用。DarwinTree平台按照“统一规划、统一标准、突出重点、分步实施”的原则,从以下几个方面进行建设:DNA序列信息与其他信息的数据整合技术及物种库构建的框架模型;生命之树自动生成技术及超大树的组装策略;DNA序列信息的自动采集、评价和标记;基因筛选,及数据矩阵的自动装配;生命之树的信息挖掘和分析系统建设。DarwinTree遵循的业务流程如图1所示。

1 DarwinTree现有业务流程

DarwinTree在数据建设中做了以下工作。第一方面是对基础数据集的标记注释和统计分析。首先通过抽提公共的生物信息学资源库,比如GenBank[5]、NCBI-taxonomy(http://www.ncbi.nlm.nih.gov/taxonomy)等得到基础数据,随后进行序列数据的分析标记和数据量统计。第二方面是补充测序数据的采样测序和质量控制。终端用户根据前面数据的标记和统计,可以方便检索和下载任意分类阶元、拉丁学名、分子标记(Molecular Marker)数据的统计信息和序列数据。随后,系统生物学团队再从具体问题出发依据研究现状选择物种进行基因补充测序。第三方面是系统发育大树的构建。来自公共数据库和项目团队补充测序的数据首先需进行清洗(即序列的分析和评价),以剔除假基因、并系基因和水平转移基因;然后进行基因的多序列比对和数据矩阵的构建、不同树分支的创建和超大树的组装及模式优化,以形成系统发育大树。最后DarwinTree平台整合形态等化石信息,进行生命树的可视化和Web化呈现,从而形成绿色植物的工作平台。平台用户只需登录即可进行相关的数据定制和分析工作。

综上所述,在从系统发育进化方法出发的研究中,DarwinTree生产3大方面的数据集:来自公开数据库的测序数据及其统计数据、从具体研究问题出发的科学家补充的测序数据、通过系统发育方法构建的描述物种间进化关系的系统发育树的数据。

本数据论文发布的数据集包括:(1)DarwinTree基础数据集:来自标记处理国际公共序列数据得到的基因标记(Gene Mark)数据及其与任意阶元物种分类名称对应的统计数据集;(2)DarwinTree自测序数据集:面向中国陆地植物研究的补充测序序列数据;(3)DarwinTree中国维管植物进化数据集:已构建的中国维管植物属系统发育树的数据(Generic tree of Chinese vascular plants)。

1 数据采集和处理方法

1.1 DarwinTree基础数据集

DarwinTree基础数据集是面向所有生物的分子标记数据及其与任意阶元物种分类名称对应的统计数据集。分子标记序列数据每天同步远端数据源(ftp://ftp.ncbi.nih.gov/genbank)并依据注释信息(Features)进行标记和切分,具体数据处理流程如图2所示。数据存储上采用非关系型数据库(NoSQL数据库)MongDB:由于NoSQL对数据库之间的依赖要求减弱,设计将GenBank数据元数据(存于表Meta中)与序列数据(存于表Sequence中)分开存储,并且针对查询需要设计特别的轻量级查询快表(存于表Query中),经验证明这一做法能够满足实时查询的需求。在查询检索时,先在Query集合中进行,再通过对应的Meta和Sequence数据还原出原始数据。表Meta、Sequence、Query、Statistics、Taxonomy之间通过序列的“accession”进行关联,并且这种关联是非强制性的。各个Mongodb的集合(Collection)针对Accession、Scientific Name、Taxon、Gene等字段建立索引,并且数据分片存储(5个分片)可以实现并行查询。数据采用多副本(3个副本)存储,保证数据的安全性。这样系统进化研究人员可以检索下载任意分子标记、物种、阶元物种类群的数据集,不用自己再注释切分。

2 DarwinTree基础数据集处理流程

任意阶元物种分类名称对应的基因系列统计数据集是针对任意分子标记(约1 092 098)的任意物种阶元拉丁学名进行的统计,对约1亿9千万以“accession”为单位的序列数据按NCBI-taxonomy库的学名(Scientific Name,约985 845)统计,形成约31 268 448个统计结果。

1.2 DarwinTree自测序列数据集

DarwinTree自测序列数据集是DarwinTree分析团队面向中国陆地植物具体研究类群,根据同行研究现状选择物种进行基因补充测序得到的补充数据集。DarwinTree自测序数据集处理流程如图3所示。

3 DarwinTree自测序数据处理流程

数据模块流:在基于生物条形码的物种鉴定的研究过程中,数据模块主要包括采集数据、实验数据、鉴定数据和参考数据4部分。研究样本的采集,在编号时要记录样品信息、地理信息、GPS数据、采集人、采集日期等。在样品信息中注意记录雌雄植株、是否再繁殖、生长阶段、凭证标本类型、凭证标本数、采集部位、DNA是否采集、生境、习性、野外鉴定以及其他描述信息。在地理信息的采集中要标记样本采集处所属大洲、国家、省/自治区、地区、区县、具体地点、并记录相关的空间GPS数据(纬度、经度、海拔)。

数据操作流:用来标示在研究过程中每个数据模块部分要经历的详细数据操作流程。比如在实验数据模块中,就要按照提取样本DNA、检测DNA质量、PCR扩增序列、检测PCR质量、纯化PCR反应、测定DNA序列、查看序列峰图进行质量判断以决定是否从头进行实验以及对检测合格的峰图进行序列拼接,这几个数据实验操作的步骤依次进行,并记录整个过程中的中间数据(如测序谱图文件、实验的光谱图、电泳图、序列文本文件等)。

数据对接流:即在各个数据模块中,经过判断和质量控制后的数据流进入下一个数据模块进行处理,通过数据文件的传递进行到下一个数据处理模块中。采集数据和实验数据的对接由样本实体的传递来实现;实验数据和物种鉴定的对接通过拼接序列的传递来实现;物种鉴定和数据追溯的对接通过物种鉴定的报告文件来实现。在鉴定数据和参考数据对接中,一方面依赖参考数据LIB进行物种鉴定生成鉴定数据,另一方面把经专家确认的鉴定数据和国际上已鉴定的数据生成鉴定LIB作为参考数据。

数据追溯流:在物种鉴定后,平台会依据BLAST算法的结果生成物种鉴定报告,可以追溯查看采集数据、实验数据和鉴定数据等,也可以追溯数据库如GenBank、DarwinTree等。

本文发布的DarwinTree自测序列数据集,通过对采样样本的处理和测序并检验质量得到合格基因片段序列,其他采集数据集A、鉴定数据集C和参考数据集D不在本文发布。

1.3 DarwinTree中国维管植物进化数据集

通过利用国际公开数据和自测数据相结合,接着进行清洗(即序列的分析和评价),以剔除假基因、并系基因和水平转移基因数据等;然后进行基因的多序列比对和数据矩阵的构建、不同树分支的创建和超大树的组装及模式优化,得到系统发育树的数据集。

操作中首先使用MUSCLE[6]进行自动比对得到初步结果,然后在Bioedit[7]等软件中进行手工校对。若因进化速率差异等原因导致某一条基因序列与其他序列间难以找寻同源性,则将该序列从矩阵中删除,以避免产生进化噪音,影响系统发育树的可靠性及稳定性。由于材料缺乏或测序工作中的问题等,部分物种无法取得所有的基因片段,因此我们采用supermatrix(超级矩阵)的方式,将所有序列拼接为supermatrix代表数据矩阵,并将缺失的数据以“-”表示。完成多序列比对的数据矩阵用于在软件RAxML[8]中使用最大似然法搜寻最优的系统发育树,并执行100次bootstrap检验最优系统发育树中每个节点的可靠性。

2 数据样本描述

2.1 DarwinTree基础数据集

DarwinTree基础数据集以JSON格式存储在Mongodb数据库中,本文在样例说明中以数据Accession AB008781为例,其远端国际数据可访问http://www.ncbi.nlm.nih.gov/nuccore/AB008781。

数据样例详见http://darwintree.cn/common/downloadfile.shtml?id=281(DarwinTree基础数据集﹝以Accession AB008781为例﹞)。

2.2 DarwinTree自测序列数据集

DarwinTree自测序列数据集以Fasta格式存储,本文在样例说明中以数据Abelmoschus_manihot_CPG14101为例。

数据样例详见http://darwintree.cn/common/downloadfile.shtml?id=281(DarwinTree自测序数据集﹝以Abelmoschus_manihot_CPG14101为例﹞)。

2.3 DarwinTree中国维管植物进化数据集

系统发育树以newick格式存储,本文以团队构建的中国维管植物系统树为例。

数据样例详见http://darwintree.cn/common/downloadfile.shtml?id=281(DarwinTree中国维管植物进化数据集﹝以Generic tree of Chinese vascular plants为例﹞)。

3 数据质量控制和评估

本文所述质量控制方案是在分析当前生物数据,尤其是基因序列数据在学科发展中的特点,综合数据规则和标准以及数据清洗、质量控制工具的研究现状,结合具体项目实践中的特点和应用,针对基因序列数据建立的。在基础数据集的大批量数据抽提和清洗中,主要涉及对大量数据检索、序列比对和模型匹配及其效率等问题。同时,该方案在面对海量数据的处理,结合数据密集特点进行基于MapReduce(分布式计算系统)的并行应用设计。在私有数据(自测数据)的质量控制部分,主要涉及基因序列数据精度的计算、Stop Codons(终止密码子)和Contaminants(污染物)的排除以及Trace Files(自测序列文件)数据质量的计算和系列相似性比较等。在中国维管植物属系统发育树数据的质量控制部分采用计算模拟过程稳定可重复策略,即使用数据矩阵可以重复整个构建系统发育树的流程并得到相同结果。

3.1 DarwinTree基础数据集

在起始大规模数据筛选中,采用基于BLAST数据筛选方式[9],如图4所示,初始输入数据来自于根据基因注释信息抽提的并由研究领域内专家确认的“种子”序列文件,经由BLAST数据抽提,获得BLAST报告进行解析,提取信息如Accession、序列内容等进行结构化后应用。针对面向整个International Nucleotide Sequence Database Collaboration(国际核苷酸序列数据库共享联盟,包括GenBank、EMBL和DDBJ)数据的抽提,本方案采用基于MapReduce的bCloudBLAST[10]的分布式计算来提高抽提效率。

4 数据抽提流程

bCloudBLAST[10]采用切分输入文件的方法进行分割任务,每个任务先分别对其输入文件进行BLAST运算,最后汇总所有任务的结果并输出。具体实现时,采用Apache Hadoop(MapReduce模型的开源实现)来并行地调用BLAST。Apache Hadoop的流模式提供了在分布式环境中执行外部应用程序的方法,因此在Map中可以很方便地调用第三方程序。bCloudBLAST采用NCBI的实现版本NCBI BLAST2为执行版BLAST程序,采用NCBI-blast-lib作为执行时的Lib库。并行计算时,由于每个结点都执行相同的Map并产生结果,所以最终的结果可以使用Hadoop的分布式文件系统(HDFS)提供的合并命令来得到。整个的流程如图5所示,并注意以下几点:

1. 输入文件切分成大小相等的块,并分配到各个节点中;

2. 对于每个块文件进行检查并将一个完整的核酸或蛋白质序列作为一个键值对传送到一个Map中;

3. 每一个结点上的Map对输入的核酸序列做BLAST运算,运算结果写入到本地文件中;

4. 使用HDFS的“merger”命令得到最终的结果文件。

5 bCloudBLAST计算流程

在Hadoop中把输入文件分割成大小相同的块时容易出现这种情况,一个核酸或蛋白质序列正好处于边界时容易被分到两个块中。为解决这种情况的产生,可以写一个分割的Reader类来处理这种问题,该类把整个序列做为一个键值对的键传入到Map中。

3.2 DarwinTree自测序列数据集

在自测分子标记序列数据的质量控制方面,采用多个模型算法生成序列质量测评报告给用户和审批人员,以决定是否入库。包括基因序列N等非确定值的测算,可能的Stop Codons的测算(检测可能的假基因)、Contaminants的测算、Trace Files的检测、相似度(bit score)和E值(E-value)的计算等。同时,考虑到学科研究的发展和不同数据挖掘目的对数据的精细化要求的不同,方案特别增加了相关的扩展模型接口,并在具体实现中通过文件的配置来完成。其处理流程如图6 A所示。其中所有的中间处理结果均保存于一个Blast2Result对象当中。

6 自测数据质量控制处理流程和报告配置设计

3.2.1 常规验证

1. 统计转化后的序列当中N和非确定碱基(R/K/M/S/Y/W/ H/B/V/D)的含量,并计算其在整个序列当中所占的百分比,将计算结果保存。

2. 检测是否有Stop Codons和Contaminants。

在DNA序列当中,Stop Codons指的是以下的三个片段:TAG、TAA、TGA。对转化后的序列进行判断,如果其中包含有这些基因片段,那么说明含终止密码子,可能是假基因。在项目实现时,将所包含的Stop Codons以及它在序列当中的位置信息保存在Blast2Result对象当中。

Contaminants这里指的是引物未去除干净的污染,一般指的是一个序列对分前后两段。如果一个序列以某个Contaminants的第一段开头而以其第二段结束,那么表明它含有该Contaminants。在项目实现时,存在一个Contaminants库,程序可以通过它来判断该序列是否包含Contaminants,并将结果保存。

3. 根据该序列的Trace Files判断序列质量。

采用Phred程序(www.phrap.org)可以读取Trace Files,将取得的数据如质量分数等写出到输出文件当中。

3.2.2 序列与模板库进行比对

在此质量控制阶段,先将用户输入的基因序列转化成蛋白序列,然后将蛋白序列与用户所选择的模板库进行比对,根据比对的结果判断该序列与模板库是否同源。模板库当中仅含一条蛋白标准序列,并且一个模板库一般与一个包含多条核酸序列的序列库对应。

1. 转化成蛋白序列:该步骤主要是将用户所输入的要验证序列转化成蛋白序列进行。

2. 序列比对:通过调用NCBI的blastp程序,来将转化后的序列与所选择的模板库进行比对,并处理返回的结果。其中,先对模板库进行处理,提取出当中的序列并存储在subject.txt中,再将其与转化后的序列进行两两比对。

3. 结果处理:通过读取上一步比对结果的数据,将每个命中序列的“Score”、“Expect”、“Identities”、“Positives”以及“Gaps”值等保存在Blast2Result中。

3.2.3 序列与序列库进行比对

序列库依据基因和研究物种大类的不同分为若干个。里面的序列来自抽提的公共数据库或是自测序列,但必须经过领域内的专家认证。

3.2.4 结果验证

经过以上处理,序列与模板库的所有处理数据都保存于一个Blast2Result对象当中。最后就是要根据保存在这个对象中的数据进行判断,验证该序列是否与所选择的模板库同源,是否可以加入对应的序列库,并生成自测数据质量报告。报告将包括:

1. N和非确定碱基值验证:将所保存的N和非确定碱基与用户输入的N和非确定碱基的值(一般缺省取值是1%)进行比较,如果这个值较用户输入的值大,那么表明该序列不能通过验证。

2. Stop Codons与Contaminants验证:如果该序列当中包含有Stop Codons或者Contaminants,那么该序列不能通过验证。如果是包含有Contaminants,那么需要提示用户将这些Contaminants去掉。

3. Trace Files验证:根据前面对Trace Files的检验,确定该序列的质量等级,低质量(Meanphred<30)、中等质量(Meanphred=30~40)、高质量(Meanphred>40)。

4. BLAST比对分值验证,将Blast2Result对象当中的Score、Expect、Identities等等与用户输入数值进行比较,来判断该序列是否能通过验证。

5. 生成报告序列入库,根据以上验证,可以得到该序列与模板库是否同源且质量可靠,并生成相关报告返回用户和审核员以决定是否加入序列库,报告将以XML格式配置,如图6 B所示。

基础缺省值(用户可根据需要做配置)包括:BaseInfo部分存储的是序列与模板库的名称序列长度等基本信息以及待验证序列的N和非确定碱基等值、Stop Codons和Contaminants等;Result中,IsQualified表明序列是否通过如Expect、Score、以及Identities等的验证,Meanphred中存储的是以Phred程序从Trace Files中取得的序列质量分数;Hits中存储的是命中序列段(可能有多段),Hit中是每段的信息以及其各项如Score等的数值。用户通过这个报告最终决定是否将该序列加入序列库。

3.3 DarwinTree中国维管植物进化数据集

在中国维管植物属系统发育树数据的质量控制部分采用计算模拟过程稳定可重复策略,即使用数据矩阵可以重复整个构建系统发育树的流程并得到相同结果。

综上所述,在本质量控制方案中,数据清洗方面采用基于基因注释的数据抽提与基于BLAST相似性比对抽提相结合的方案,保证一方面根据关键注释信息从国际公共数据库中较全面地提取过滤相关的序列信息,另一方面应用BLAST同源比对来控制序列的质量,剔除原始基因注释错误的序列。自测序列质量控制方面基于Blastn的比对打分和基于Blastp的模板比对相结合对自测数据的质量控制,同时报告序列整体质量,控制污染序列和假基因等入库。系统发育树数据的质量控制通过使用数据矩阵可以重复整个系统发育树的构建流程并得到相同结果的方法,来保证数据质量稳定。

7 DarwinTree数据浏览

注:①数据检索;②序列数据浏览下载(根据用户自己整理的名录);③统计数据浏览下载(根据公共的生物分类系统);④统计数据浏览下载(根据用户自己整理的名录);⑤序列数据浏览下载(根据公共的生物分类系统,任意生物学名、分子标记);⑥“Peer Known”(任意生物学名相关的前30位分子标记公开序列数据统计状况);⑦检索数据集可以直接提交到分析平台分析;⑧任意生物学名、分子标记的统计数据浏览示例。

4 数据使用方法和建议

整体数据的更新、浏览、下载、后续分析工作流都可以通过以下网址进行使用:http://darwintree.cn。数据集的元数据信息参见:http://www.sciencedb.cn/dataSet/handle/117。数据集使用帮助文档参见:http://darwintree.cn/common/moredocs.shtml?type=1。图7所示是数据浏览出发的使用举例。

另外,其他典型数据应用入口有:中国维管植物进化数据集大树数据应用服务:http://www.darwintree.cn/flora/index.shtml;应用系列数据标准库的物种鉴定服务:http://darwintree.cn/common/identification.shtml。

数据作者分工职责

孟珍(1982—),女,山东人,高级工程师,研究方向为生物信息学、生物大数据技术。主要承担工作:DarwinTree基础数据集、自测序列数据集和中国维管植物进化数据的数据库设计、分析和组织。

黎建辉(1973—),男, 湖北人,研究员,研究方向为大数据技术。主要承担工作:DarwinTree基础数据集、自测序列数据集和中国维管植物进化数据的数据统筹管理。

王学志(1979—),男,湖南人,副研究员,研究方向为大数据技术。主要承担工作:DarwinTree基础数据集、自测序列数据集和中国维管植物进化数据的数据技术研发。

周园春(1975—),男,江西人,研究员,研究方向为大数据技术。主要承担工作:参加DarwinTree基础数据集、自测序列数据集和中国维管植物进化数据的数据统筹管理。

曹巍(1986—),男,四川人,工程师,研究方向为计算机软件,主要承担工作:DarwinTree基础数据集的数据库研发。

刘勇(1987—),男,山东人,工程师,研究方向为计算机应用技术,主要承担工作:DarwinTree基础数据集的数据分析筛选。

杲艳平(1986—),女,江苏人,工程师,研究方向为计算机应用技术,主要承担工作:DarwinTree基础数据集的数据分析筛选。

刘奇(1986—),男,湖南人,工程师,研究方向为计算机应用技术,主要承担工作:DarwinTree基础数据集的数据分析筛选。

林小光(1983—),男,重庆人,助理研究员,研究方向为计算机软件,主要承担工作:DarwinTree基础数据集的数据分析筛选。

何星(1983—),男,湖南人,工程师,研究方向为计算机软件,主要承担工作:DarwinTree基础数据集的数据分析筛选。

郑波(1985—),男,河南人,工程师,研究方向为计算机软件,主要承担工作:DarwinTree中国维管植物进化数据集数据库的技术研发。

邵靖(1987—),男,贵州人,工程师,研究方向为计算机软件与理论,主要承担工作:DarwinTree中国维管植物进化数据集数据库的技术研发。

陈之端(1964—),男,山东人,研究员,研究方向为系统植物学。主要承担工作:DarwinTree基础数据集、自测序列数据集和中国维管植物进化数据的数据统筹管理。

杨拓(1988—),男,天津人,博士,研究方向为系统植物学。主要承担工作:DarwinTree中国维管植物进化数据集数据库的设计和数据提供。

林立(1986—),男,上海人,博士,研究方向为系统植物学。主要承担工作:DarwinTree中国维管植物进化数据集的数据库设计和数据提供。

苏俊霞(1974—),女,山西人,副教授,研究方向为植物分类和系统学。主要承担工作:DarwinTree自测序列数据集的数据提供。

孙苗(1983—),男,陕西人,博士后,研究方向为系统植物学。主要承担工作:DarwinTree自测序列数据集的数据提供。

董晓宇(1984—),女,江苏人,助理研究员,研究方向为植物分类学与系统植物学。主要承担工作:DarwinTree自测序列数据集的数据提供。

李洪雷(1985—),男,山东人,博士后,研究方向为系统植物学。主要承担工作:DarwinTree自测序列数据集的数据提供。

鲁丽敏(1986—)女,河南人,助理研究员,研究方向为系统植物学。主要承担工作:DarwinTree自测序列数据集的数据提供。

张景博(1985—),男,内蒙古人,博士后,研究方向为系统植物学。主要承担工作:DarwinTree自测序列数据集的数据提供。

朱新宇(1963—)男,河北人,教授,研究方向为生物信息学。主要承担工作:DarwinTree自测序列数据集的数据提供。

李勇(1967—),男,内蒙古人,教授级高级工程师,研究方向为植物学。主要承担工作:DarwinTree基础数据集、自测序列数据集和中国维管植物进化数据的数据统筹管理。

张寿洲(1964—),男,陕西人,研究员,研究方向为植物分类学。主要承担工作:DarwinTree基础数据集、自测序列数据集和中国维管植物进化数据的数据统筹管理。

刘红梅(1979—),女,河南人,副研究员,研究方向为蕨类植物系统学。主要承担工作:DarwinTree基础数据集的数据库设计和DarwinTree自测序列数据集的数据提供。

董慧(1981—),女,河北人,高级工程师,研究方向为昆虫分类学。主要承担工作:DarwinTree基础数据集的数据库设计。

廖一颖(1985—),女,湖南人,助理研究员,研究方向为植物分子系统地理学,主要承担工作:DarwinTree自测序列数据集的数据提供。

杨蕾蕾(1988—),女,山东人,助理工程师,研究方向为植物系统学。主要承担工作:DarwinTree自测序列数据集的数据提供。

万涛(1983—),男,江西人,高级工程师,研究方向为植物细胞学。主要承担工作:DarwinTree自测序列数据集的数据提供。

参考文献

[1] Benton M, Ayala F. Dating the tree of life[J]. Science, 2003, 300: 1698–1700.

[2] Ciccarelli F, Doerks T, Mering C, et al. Toward Automatic Reconstruction of a Highly Resolved Tree of Life[J]. Science, 2006, 311(5765): 1283.

[3] Meng Z, Dong H, Li J, et al. Darwintree: A Molecular Data Analysis and Application Environment for Phylogenetic Study[J]. Data Science Journal, 2015, 14: 1–10.

[4] Meng Z, Lin X, He X, et al. Construction of the Platform for Phylogenetic Analysis[M]. New York: Springer Science+ Business Media, 2011: 507–514.

[5] Benson D, Karsch-Mizrachi I, Lipman D, et al. GenBank[J]. Nucleic Acids Research, 2011, 39: D32–D37.

[6] Edgar R. MUSCLE: a multiple sequence alignment method with reduced time and space complexity[J]. BMC Bioinformatics, 2004, 5: 113.

[7] Hill T. BioEdit: a user-friendly biological sequence alignment editor and analysis program for Windows 95/98/NT[J]. Nucleic Acids Symp., 1999: 95–98.

[8] Stamatakis A. RAxML-VI-HPC: maximum likelihood-based phylogenetic analyses with thousands of taxa and mixed models[J]. Bioinformatics, 2006, 22: 2688–2690.

[9] Meng Z, Xiao X, Li J, et al. Cloud-GSQCT: a parallel approach to screen gene sequences for phylogenetics analysis[C]// International Conference on Computer Science and Information Processing. 2012: 660–663.

[10] Meng Z, Li J, Zhou Y, et al. bCloudBLAST: an Efficient MapReduce Program for Bioinformatics Applications[C]// International Conference on Biomedical Engineering and Informatics, BMEI 2011, 4: 2085–2089.

论文引用格式

孟珍, 杨拓, 刘红梅, 等. 用于生命之树重建的数据集[J/OL]. 中国科学数据, 2017, 2(3). DOI: 10.11922/csdata.180.2016.0017.

数据引用格式

孟珍, 杨拓, 刘红梅, 等. 用于生命之树重建的数据集[DB/OL]. Science Data Bank. DOI: 10.11922/sciencedb.117.

下载