用于生命之树重建的数据集

责编:

 对论文的意见均用批注框的方式标注在文中:

(1)在中文摘要中“automatic reconstruction”的翻译是否不大准确,下同。

(2)图1中①邻近位置出现2次“声明书的可视化、Web化表现”,请确认是否有误。②请斟酌“物 种库雏形绿色植物生命之树信息平台”中的“雏形”要不要换位置?“生命之树”是否要跟流程中的“生命树”叫法统一?

(3)引言部分的倒数第3段中:①对第一句进行了编辑,请确认是否有误。②“第三方面是系统发育大树的信息树”此句中出现2个“树”,是否就是“系统发育树”?③“以形成系统发育的信息树”是否有误?

(4)第1.1节中:①建议规范本节的表述,统一增加必要的中文翻译。②“元数据(Meta)与序列数据(Sequence)”翻译不准确?③“再通过对应的meta和sequence数据还原出原数据返回”此句中的“返回”有些费解,请斟酌。

(5)第1.2节中“如.ab1测序谱图文件”中的“.ab1”是什么意思?

(6)第1.3节中“由于材料缺乏或测序工作中的问题”是否说完整了?

(7)本文在邻近段落中同时出现“大批量”“大量”“海量”“大规模”数据,是否有区别,要不要统一?

(8)全文中相同的单词有大写的有小写的,请检查后统一。

(9)第3.1节的第二段中,请确认以下几句是否有误:“每个任务对其输入进行BLAST运算”“具体实现时,采用Apache Hadoop(MapReduce模型的开源实现)来并行的调用BLAST”“其流模式”“采用NCBI提供一个实现版本NCBI BLAST2为执行版BLAST程序”。

(10)第3.2.1中“非确定碱基(R/K/M/S/Y/W/ H/B/V/D)”请确认中间是否保留空格?下同。

(11)第3.2.4中:①“用户输入的NS等的值”请确认是否有误。②“在本课题中应用的报告格式将以XML格式配置如图6(B)所示”中“本课题”用在此处不妥,请修改。

对数据集的意见:

(1)在论文第2节的“数据样本描述”中,作者提供了数据样例的网址,下载之后三个数据集的样例都在一个pdf文件中,希望作者将这三个数据集样例分开为三个与数据集对应的文件,文件名称命名与文中对应并更具体化一些,比如分别为:“原始数据accesion:HF677508基础数据”、“Abelmoschus_manihot_CPG14101自测序列数据”、“中国维管植物属系统发育树数据”,希望用户下载之后是一个压缩文件,里面包括相互独立的这三个文件。在论文中只提供一个下载的地址就可以了,在提供地址的地方简单说明即可。

(2)作者提供的地址下载的文件打开之后,对于第一个数据集,有两个问题:a.作者应该在开头增加几句说明性文字,与论文中相一致,如:“DarwinTree基础数据集以JSON格式存储在Mongodb数据库中,以原始数据accesion:HF677508为例”;b.下载的文件里作者提供的例子是“ACCESSION" : "AB008781"”,而非“accesion:HF677508”,望作者修改,以与论文保持统一。

(3)对于第三个数据集,希望作者在论文中说明一下,newick格式的文件可以用哪种可视化工具打开。

(4)在论文第4节“数据使用方法与建议”里,作者用一张图的8个功能块对网数据浏览功能进行说明,很多功能并没有清晰的描述。希望作者能用多图的方式分开来逐个进行说明,至少要把作者本文介绍的三个数据集的查找方法一一进行详细说明。

(5)请作者在Sciencedb上以在线服务的方式上传本文的数据在线访问地址。

【2016-07-20】 评论来自:版本 1
作者:

已根据批注,修改一版并上传

【2016-08-03】 评论来自:版本 1
责编委:

建议“”数据库(集)基本信息简介中的数据服务系统网址“和”正文“4数据使用方法和建议”中所提到的服务路径相统一,若多个访问路径,请 一并提供,以方便阅读使用。

【2016-08-20】 评论来自:版本 1
专家:

同行评议1:

1) 作者描述其数据集是从“”中国陆地植物 发育系统框架的研究出发”,但就我所知,该研究团队仅仅聚集在维管植物,并没有对苔藓类群开展工作。请澄清!同时,植物所研究团队仅仅在属级水平补测了中国分布的类群,并非世界范围的。为了避免混淆,或者故意夸大自己的数据集,请客观描述。

2)整篇作者都用“Gene Marker”, 但GenBank中大量的序列并非Gene, 而是基因间区,比如ITS1,trnL-trnF spacer等等。建议用DNA 片段,DNA locus或者分子标记(Molecular marker)。

3)引言中,请给出关于生命之树定义的参考文献。

4)对于自测序列的数据操作流程,这一部分其他人或者使用者是不清楚自测作者是否详细根据这些流程的。个人认为没有必要或者应该更简练。

5)该数据集应该是针对分子系统学或者有其需求的用户的,尽管这篇文章有很多的分子系统学背景的作者,但读起来十分晦涩。因此,我怀疑并非每个作者都通读了该稿子。因此,强烈建议投稿前,请每位作者都通读一遍。

6) 图1流程图中”生命树的可视化、Web化表现“和"生命之树的可视化、Web化表现"是不是重复了?

7) 建议将图2中压着箭头的字调整一下,重合着影响阅读.

同行评议2: 本文以生命之树信息平台及其利用体系的构建为立足点,从实际出发,利用三大数据集为准确、快速、高效的挖掘生物信息资源提供了平台和实用技术。 需要修改的部分在上传审稿中标注。 是否考虑下一步实现网页界面有中英文的选择。审改稿中的意见如下:

1. 英文摘要中的Sequencing data是否改为Molecular sequence?

2. 图3中:(1)采集数据部分:应该是采集信息包括所属大陆、国家、省自治区等,而不是包括在采集日期里面 (2)实验数据部分:第8步重新测定或测量新的组合或片段是否改为重新测定或测定新的组合或片段?

3. 图4中注释抽提并专家确认的序列文件是否改为注释抽提并由专家确认的序列文件?

4. 第3.2.2节中提到“通过读取上一步的br流中的数据”,br流可否换更易理解的词,是Blastresult吗?

同行评议3:

1.研究内容:生命之树的重建工作属于生命科学领域的热点和难点,国际上竞争激烈,文章针对目前构建超大生命之树的途径进行分析,提出有效的策略和方法。

2.研究方法和基础:三方共建的“达尔文树”平台,以及基于该平台研发的自动生成技术、生命之树信息平台,具有创新性,条理清晰,研究方案合理,有利于提升我国科研竞争力和影响力。

3.研究团队:该研究在学科整合和科研团队选择上存在优势。数据分析上,团队人员分工明确,整合了系统植物学、生物信息学、生物大数据和计算机软件多学科的交叉优势,研究能力和背景较强。

【2016-09-05】 评论来自:版本 1
作者:

同评专家一意见:

1) 作者描述其数据集是从“中国陆地植物发育系统框架的研究出发”,但就我所知,该研究团队仅仅聚集在维管植物,并没有对苔藓类群开展工作。请澄清!同时,植物所研究团队仅仅在属级水平补测了中国分布的类群,并非世界范围的。为了避免混淆,或者故意夸大自己的数据集,请客观描述。 谢谢,后面数据集具体公开的数据有具体的界定,如“DarwinTree中国维管植物进化数据集”

2)整篇作者都用“Gene Marker”, 但GenBank中大量的序列并非Gene, 而是基因间区,比如ITS1,trnL-trnF spacer等等。建议用DNA 片段,DNA locus或者分子标记(Molecular marker)。 谢谢,已按照您的建议更改为Molecular Marker

3)引言中,请给出关于生命之树定义的参考文献。 谢谢,第一篇文献里就有

4)对于自测序列的数据操作流程,这一部分其他人或者使用者是不清楚自测作者是否详细根据这些流程的。个人认为没有必要或者应该更简练。 谢谢,这个考虑了下,还是按照这个写吧,别的专家也针对这个由具体的建议也修改了。

5)该数据集应该是针对分子系统学或者有其需求的用户的,尽管这篇文章有很多的分子系统学背景的作者,但读起来十分晦涩。因此,我怀疑并非每个作者都通读了该稿子。因此,强烈建议投稿前,请每位作者都通读一遍。 谢谢,之前已经请通讯作者之一的陈之端老师做了通篇的意见修改

6) 图1流程图中”生命树的可视化、Web化表现“和"生命之树的可视化、Web化表现"是不是重复了? 谢谢,已经修改

7) 建议将图2中压着箭头的字调整一下,重合着影响阅读。 谢谢,已经修改

同评专家二意见: 本文以生命之树信息平台及其利用体系的构建为立足点,从实际出发,利用三大数据集为准确、快速、高效的挖掘生物信息资源提供了平台和实用技术。 需要修改的部分在上传审稿中标注。 是否考虑下一步实现网页界面有中英文的选择。 谢谢建议,可以列到下一步计划里

1. 英文摘要中的Sequencing data是否改为Molecular sequence? 谢谢,已经修改

2. 图3中:(1)采集数据部分:应该是采集信息包括所属大陆、国家、省自治区等,而不是包括在采集日期里面 谢谢,已经修改 (2)实验数据部分:第8步重新测定或测量新的组合或片段是否改为重新测定或测定新的组合或片段? 谢谢,已经修改

3. 图4中注释抽提并专家确认的序列文件是否改为注释抽提并由专家确认的序列文件? 谢谢,已经修改

4. 第3.2.2节中提到“通过读取上一步的br流中的数据”,br流可否换更易理解的词,是Blastresult吗? 谢谢,已经修改

【2016-09-12】 评论来自:版本 2
编委会成员:

经编委会投票表决,决定录用本文。

【2016-10-11】 评论来自:版本 2

提交问题或建议:



您还没有登录,请[登录]或[ 注册]!

用于生命之树重建的数据集

浏览下载总计

网页浏览 论文下载
8293 37

用于生命之树重建的数据集

作者发表的论文

很抱歉,没有检索到作者相关论文!

            数据来源:CSCD中国科学引文数据库

用于生命之树重建的数据集

孟珍1,杨拓2,刘红梅3,黎建辉1*,曹巍1,刘勇1,杲艳平1,刘奇1,林小光1,何星1,邵靖1,郑波1,王学志1,周园春1,陈之端2*,林立2,苏俊霞2,孙苗2,董晓宇2,李洪雷2,鲁丽敏2,张景博2,朱新宇2,李勇3,张寿洲3*,董慧3,廖一颖3,杨蕾蕾3,万涛3

1. 中国科学院计算机网络信息中心,北京 100190;

2. 中国科学院植物研究所,系统与进化国家重点实验室,北京 100093;

3. 深圳中国科学院仙湖植物园,北京 100093

*通讯作者(Email: lijh@cnic.cn,zhiduan@ibcas.ac.cn,shouzhouz@126.com)

摘要:由中国科学院计算机网络信息中心、中国科学院植物研究所、深圳市中国科学院仙湖植物园“三方两地”共同合作研究建设的“达尔文树”——分子数据分析应用环境(DarwinTree——Molecular Data Analysis and Application Environment),从中国陆地植物发育系统框架的研究出发,逐步推动解决生命之树构建过程中存在的技术难题,探索利用基因和基因组信息构建生命之树的策略和方法,研究和开发DNA序列信息自动采集和生命之树自动生成技术(Automatic Reconstruction of The Tree of Life),建立生命之树信息平台及其利用体系,为最终在我国建立具有国际影响的,能很好地兼容物种分类、地理分布、形态性状、化石信息以及DNA信息的物种库(Species Bank)创造条件。DarwinTree旨在为科研人员提供数据和分析并举的工作平台,该平台将承担数据汇集和面向实际科研工作应用的双重作用。本文发布的数据集包括:(1)DarwinTree基础数据集:来自国际公共序列数据的标记处理得到的分子标记数据及其与任意阶元物种分类名称对应的统计数据集;(2)DarwinTree自测序数据集:面向中国陆地植物研究的补充测序序列数据;(3)DarwinTree中国维管植物进化数据集:已构建的中国维管植物属系统发育树的数据(Generic tree of Chinese vascular plants)。

关键词:DarwinTree;系统发育;生物进化;分子序列;基础数据集;自测序数据集;中国维管植物进化数据集

The datasets used for the reconstruction of the tree of life

Meng Zhen1, Yang Tuo2, Liu Hongmei3, Li Jianhui1*, Cao Wei1, Liu Yong1, Gao Yanping1, Liu Qi1, Lin Xiaoguang1, He Xing1, Shao Jing1, Zheng Bo1, Wang Xuezhi1, Zhou Yuanchun1, Chen Zhiduan2*, Lin Li2, Su Junxia2, Sun Miao2, Dong Xiaoyu2, Li Honglei2, Lu Limin2, Zhang Jingbo2, Zhu Xinyu2, Li Yong3, Zhang Shouzhou3*, Dong Hui3, Liao Yiying3, Yang Leilei3, Wan Tao3

1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, P. R. China;

2. State Key Laboratory of Systematic and Evolutionary Botany, Institute of Botany, Beijing 100093, P. R. China

3. Fairylake Botanical Garden, Shenzhen & Chinese Academy of Sciences, Shenzhen 518004, P. R. China

*Email: lijh@cnic.cn, zhiduan@ibcas.ac.cn, shouzhouz@126.com

Abstract: DarwinTree (http://www.darwintree.cn) was initiated to construct a molecular data analysis and application environment for the phylogenetic study and compiled collaboratively by three organizations from Chinese Academy of Sciences, which are Computer Network Information Center (CNIC), Institute of Botany (IB) and Shenzhen Fairylake Botanical Garden (SZBG). DarwinTree is expanding its development in a global scale to build an international research alliance. It has initiated the first international campaigns with the University of Florida for the study on the phylogeny of angiosperms. Recently, DarwinTree provides an integrated bioinformatics platform that supports all phases of the analytical pathway for phylogenetic study from data collection including gene data acquisition and management to phylogenetic tree reconstruction including sequences alignment and data matrix construction, to different branches reconstruction, to assembly of large trees and mode of optimization, to visualization of the tree of life and web-based rendering, and to specific application service and data mining. The datasets included in this published paper are: (1) the basic datasets in DarwinTree: the Gene Mark Data labeled from international public sequence data and the statistical datasets with any scientific name and any mark name; (2) the sequencing datasets in DarwinTree: the complementary sequencing data for China land plants; (3) Generic tree of Chinese vascular plants datasets.

Keywords: DarwinTree; Phylogeny; Biological evolution; Molecular sequence; Basic datasets; Complementary sequencing data; Generic tree of Chinese vascular plants datasetss

数据库(集)基本信息简介

数据库(集)中文名称

用于生命之树重建的数据集

数据库(集)英文名称

The datasets used for the reconstruction of the tree of life

数据作者

孟珍、杨拓、刘红梅、黎建辉、曹巍、刘勇、杲艳平、刘奇、林小光、何星、邵靖、郑波、王学志、周园春、陈之端、林立、苏俊霞、孙苗、董晓宇、李洪雷、鲁丽敏、张景博、朱新宇、李勇、张寿洲、董慧、廖一颖、杨蕾蕾、万涛

通讯作者

黎建辉(lijh@cnic.cn)、陈之端(zhiduan@ibcas.ac.cn)、张寿洲(shouzhouz@126.com)

数据服务系统网址

http://www.darwintree.cn

http://www.sciencedb.cn/dataSet/handle/117

基金项目

国家科技基础条件平台子专题(Y207011108)、深圳市科技研发国际合作资金项目(ZYA201007060093A)、中国科学院知识创新工程青年基金项目(Y114061108)、国家自然科学基金(91224006、31270268和61003138)、科技部支撑计划(2014CB954100)、中科院战略先导项目(XDA06010202)、中国科学院计算机网络信息中心一三五规划重点培育方向专项 (CNIC_PY-1405)、深圳市科技创新委员会资助(KQC201105310009A)

数据库(集)组成

数据集由三部分数据组成,其一为DarwinTree基础数据集,其二是DarwinTree自测序数据集,其三是DarwinTree中国维管植物进化数据集。

引 言

生命之树(Tree of Life,TOL)是指将所有生物种类(包括现存和已灭绝的)联系在一起并蕴涵海量信息的系统进化树。它可用来阐明生命的起源、生物进化式样、生物各大门类演化和亲缘关系、以及生物多样性的存在方式和变化的动态规律。构建生命之树并充分挖掘和利用其中的信息资源是生命科学面临的又一挑战。目前国际上已经开展了由多个国家、多个科研团队和较多科研人员共同参与的构建TOL的研究工作[1]

从研究积淀上来讲,近20年快速积累的基因和基因组信息为生命之树的构建奠定了重要基础。然而目前在DNA数据的自动采集和筛选、数据整合、超大树(Supertree)构建、以及信息的进一步挖掘和共享等方面都存在很多技术难题,各国都在寻找利用基因和基因组信息构建生命之树的有效策略和方法[2]。构建超大生命之树有两种不同的途径:(1)依据两个或若干个较小树的重叠部分,把多个已完成的小树整合成超大树;(2)直接对超大数据矩阵进行分析,构建生命之树。但无论哪种途径目前都面临同样的问题,即如何充分利用公共数据库中已有的DNA序列信息?如何对这些信息进行有效筛选?如何快速自动生成反映不同生物类群进化历史的生命之树?如何充分挖掘和利用生命之树中蕴涵的巨大信息?

由中国科学院计算机网络信息中心、中国科学院植物研究所、深圳市中国科学院仙湖植物园三方两地共同合作研究建设的“达尔文树”——分子数据分析应用环境(DarwinTree——Molecular Data Analysis and Application Environment)[3-4],从中国的陆地植物发育系统框架的研究出发,逐步推动解决生命之树构建过程中存在的技术难题,探索利用基因和基因组信息构建生命之树的策略和方法,研究和开发DNA序列信息自动采集和生命之树自动生成技术(Automatic Reconstruction of The