微生物物种编目数据库

暂无讨论

提交问题或建议:



您还没有登录,请[登录]或[ 注册]!

微生物物种编目数据库

浏览下载总计

网页浏览 论文下载
6395 52

微生物物种编目数据库

作者发表的论文

1 诺卡氏菌形放线菌的化学分类
刘志恒,秦敏,马俊才,阮继生. 微生物学报[J],1990,30(6),464

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 4

2 关于生物技术信息网络化的调查与分析
刘斌,倪福弟,马俊才. 中国生物工程杂志[J],2002,22(5),93-97

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 2

3 真菌标本数据库管理系统
孙述霄,马俊才. 真菌学报[J],1992,11(4),328

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 1

4 提高用户满意率的服务器主动调度算法
吴军,刘翟,马俊才. 小型微型计算机系统[J],2013,34(7),1534-1536

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

5 搭建网络信息服务平台 优化生物信息资源配置--“中国生物技术信息网”建设的战略分析
刘斌,马俊才,张宏翔. 中国生物工程杂志[J],2003,23(4),102-105

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

6 物种和植被资源信息系统的建设及展望
李奕,董鸣,高琼,纪力强,徐克学,关烽,马俊才,杨奠安,傅德志,张新时. 资源科学[J],2001,23(1),40

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

7 中国工业生物技术发展态势分析与展望
陈方,丁陈君,陈云伟,郑颖,邓勇,徐萍,于建荣,吴林寰,马俊才,曾艳,刘斌. 中国生物工程杂志[J],2016,36(5),1-11

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

8 利用表面增强拉曼光谱技术分析温度及pH值对H1N1亚型流感病毒增殖的影响
贾潇潇,李芸,范文辉,孙清岚,周铁忠,刘文军,李晶. 生物工程学报[J],2016,32(4),447-456

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

9 谷氨酸棒状杆菌技术研发态势分析
赵爽,刘柳,吴林寰,马俊才. 中国生物工程杂志[J],2016,36(9),101-109

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

10 系列硫氧化还原酶(SOR)的同源建模*
孟珍,尤晓颜,姜成英,马俊才. 应用与环境生物学报[J],2010,16(3),424-428

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

微生物物种编目数据库

刘彭涛1,刘全贺1,劳一美1,孙清岚1,马俊才1*

1. 中国科学院微生物研究所,北京 100101

*  通讯作者(Email:ma@im.ac.cn)

摘要:随着微生物资源不断被开发与利用,科学数据库在微生物研究中显现出极为重要的作用。开发和维护此微生物物种编目数据库,立足于收集我国微生物物种资源信息,服务基础科研、工业、农业、医药健康等多个领域。微生物物种编目数据库记录和收集了微生物资源的分类、分离、生物学性状、相关科学文献等信息。所收录的物种主要为真菌,采集地基本在中国境内。本数据库共收录了12 256条微生物资源信息,8纲42目118科11 449种。用户可以按照微生物名称、性状、采集地等字段进行数据检索。微生物物种编目数据库的建立,将有助于提升我国微生物的科学价值,提供数据共享服务,对推动我国微生物的研究具有重要意义。

关键词:微生物资源;微生物物种;生物学性状;真菌

The catalogue of microorganism

Liu Pengtao, Liu Quanhe, Lao Yimei, Sun Qinglan, Ma Juncai

Abstract: With the development and utilization of microbial resources, scientific database reveals an increasingly vital role in microbiological research. More and more research results and public data of microbial resources have been collected, serving for China’s industry, agriculture, medical health and other fundamental fields. We developed the catalogue of microorganism by collecting and standardizing the research data of microorganism. The catalogue collected information on the classification, separation, properties, biological characters and source publications of microbial resources (mainly fungi) in China. On the website of this database, users can search for the whole information of a microbial species via its name, character and province of collection. This database contains 12,256 entries of microbial resources that spread among 11,449 species, 118 genera, 42 families and 8 phyla. The catalogue is expected to promote the scientific value of microorganism in China, and to advance research on microorganism application. It also provides data sharing services for scientific activities in microbiological fields, which has great implications for microbiological studies in China.

Keywords: microbial resource; microbial species; biological character; fungi

数据库(集)基本信息简介

数据库(集)中文名称

微生物物种编目数据库

数据库(集)英文名称

The catalogue of microorganism

通讯作者

马俊才(ma@im.ac.cn)

数据作者

刘彭涛、劳一美、孙清岚、马俊才

数据时间范围

1950~2005年

地理范围

中国境内

数据格式

mysql

数据服务系统网址

http://www.sciencedb.cn/dataSet/handle/6

基金项目

中国科学院十一五信息化建设专项“中国科学院数据应用环境建设与服务”项目及国家科技基础条件平台项目“基础科学数据共享网”

数据库(集)组成

整个数据集由1个数据文件组成,数据量12 256条

引  言

微生物是一类重要的自然资源。微生物菌种资源是指可培养的有一定科学或实用价值的细菌、真菌、病毒、细胞株及其相关信息。它是国家战略性生物资源之一。微生物资源的合理开发和利用推动了社会和经济的发展[1]。微生物数据的信息化在推动微生物资源的应用中起着重要的作用[2]

微生物物种编目数据库收录了微生物科学名称、物种别名、性状特征、采集信息、培养条件等信息。我国的微生物资源研究开展很早,在20世纪90年代前,信息不发达,微生物资源数据基本以纸质出版物的形式记录保存。本数据库的一个重要工作是将纸质出版物中微生物资源数据信息提取、加工,生成电子版本数据库,并对外提供访问服务。同时开发信息化数据采集功能,定制表单,让微生物资源科研人员通过电子表单直接向数据库提交信息。本数据库中所有微生物物种数据集成了微生物领域权威出版刊物中的信息和科研人员直接提供的数据信息。

在数据库建设方面,我们已经在生物信息学数据下载、存储、管理等方面积累了一定的经验,建设了Bio-mirror[3],MRS[4]等生物信息学数据库。本数据库的构建充分考虑微生物物种编目数据的特点,制定以下的工作流程(图1)。整个设计分为4个步骤:微生物数据资源获取;数据加工与处理;数据测试与质量控制;数据集成入库。具体见“数据采集和处理方法”部分,以及基于数据库开发对用户开放的网页并提供的服务。

图1  数据库构建工作流程图

人类很早就已经对微生物开展了应用与研究。在电子信息化发展之前,微生物资源的数据信息已经被收录在《中国真菌总汇》[5]、《药用微生物》[6]等书刊中。本数据库构建的一项重要工作是将《中国真菌总汇》、《中国真菌志》等纸质刊物中的微生物信息挖掘、整理、提取、入库,使之电子化,更易于信息获取和传播。数据信息的另一个重要来源是科学家通过定制表单直接提交数据给本库。这两方面数据来源的质量、数量各有不同,分别采取不同的处理方法和手段进行数据挖掘与加工,再通过数据检测和质量控制进一步清理数据,入库保存。对已经建设好的微生物物种编目数据库开发网页展示功能,提供用户浏览查询服务。

1  数据采集和处理方法

微生物物种编目数据来源为已发表的纸质刊物和科学家直接提交的数据。

 1.1  微生物数据资源获取 

本数据库的一个重要数据来源是《中国真菌总汇》(戴芳澜院士编著,1979年出版,包含我国真菌分类和真菌资源等方面的调查研究报告772篇)和《中国真菌志》(戴芳澜院士编著,2008年出版,全书共43卷,涉及真菌55目),另一个数据来源是微生物学家对微生物资源数据的信息补充。

我们的工作首先是要将这些在纸质版上的数据信息电子化。具体步骤为通过扫描软件将纸质刊物内容扫描,得到PDF图片数据信息;再将PDF图片数据信息还原成计算机可读的文字信息;做文字数据标引,将微生物物种名称、来源、性状、培养条件、发表文献等信息标引出来;计算机识别标引记录,自动提取数据信息;数据整理入库。数据库设计需要考虑到微生物物种编目数据的特点属性,详细记录物种名称[7]

我们以牛膝白锈菌(Albugo achyranthis)为例,首先提取它在生物物种树上的等级信息,即它所属的纲、目、科。数据来源为1979年出版的《中国真菌总汇》。此书目录以纲、目、科为等级建立。通过信息扫描,将纸质版数据信息电子化,再经过人工标引,建立物种的纲、目、科等物种分类等级;分别程序化抽提物种分类具体信息,存储于数据库;最后人工校验数据信息正确性。经过这样的处理,牛膝白锈菌(Albugo achyranthis)在数据库中的物种分类信息是藻状菌纲(Phycomycetes)霜霉目(Peronosporales)白锈科(Albuginaceae)。

一般来说,在记录菌种的采集信息时,会使用字段“采集地”“采集”“生长环境”等内容。编写计算机程序读取文字数据,当匹配到与采集相关字段时,自动提取其后内容,直至字段结束。再将提取的字段匹配全国省份,得到具体的省份名称。这样采集地将被记录到数据库中。“形态描述”等字段同理处理可获取。

本数据库的另外一个来源是微生物学家从科学研究中产生的,直接提交到本数据库中的信息。

1.2  数据加工与处理

在数据处理过程中,对纸质刊物扫描数据的信息提取与加工是数据处理的重点。将扫描得到的PDF文件,进行数据还原成文本文件。本项目预先设定对每个微生物物种编目待提取的字段为:拉丁纲名、中文纲名、拉丁目名、中文目名、拉丁科名、中文科名、拉丁名、中文名、定名人、参考文献、采集地、形态描述、备注等字段信息。根据所有数据记录的特点,进行信息标引。例如根据文中出现“物种名称”“种名”“中文名”“英文名”“拉丁名”等字符,编程识别这些字符,提取这些字符后的相关数据信息。再对这些数据信息进行清理,去除非法字符、标点符号等,写入数据库。

1.3  数据测试与质量控制

对数据库的数据质量,我们采取了人工抽查验证的方法。具体见第3章。

1.4  数据集成入库

来源于纸质刊物的数据信息,直接经过程序处理写入数据库。具体参见以上步骤。

除了来源于纸质刊物的数据信息。本数据库还收录了微生物科学家直接提交的菌种信息。本数据为菌种信息直接提交定制了提交表单,表单内容包括拉丁纲名、中文纲名、拉丁目名、中文目名、拉丁科名、中文科名、拉丁名、中文名、定名人、参考文献、采集地、形态描述、讨论等信息内容。由科学家填写并直接提交给本数据库。

2  数据样本描述

微生物物种编目数据库目前记录了微生物物种数据 12 256条。

数据样本以牛膝白锈菌为例,其记录的信息包括编号、拉丁纲名、中文纲名、拉丁目名、中文目名、拉丁科名、中文科名、拉丁名、中文名、定名人、参考文献、采集地、形态描述、讨论等信息(表1)。构建数据库时,考虑到微生物物种编目数据的特点,将物种等级关系信息和描述性信息分别存储。对于物种的拉丁纲名、中文纲名、拉丁目名、中文目名、拉丁科名、中文科名、拉丁名、中文名等信息需要定制,例如系统会自动检查其拼写的正确与否。采集信息、形态描述、讨论等字段开放设置,允许数据提交者自由填写。

表1  牛膝白锈菌编目信息展示

3  数据质量控制和评估

微生物物种编目数据库的数据依据两个来源的不同,分别进行质量控制和评估。对于纸质出版物来源的数据信息,影响其数据质量的最大问题是扫描电子化后的数据丢失其原始数据信息量的多少。我们采取人工抽查验证的方式,对纸质出版物来源的数据进行人工抽选对照校验。人工随机抽选了500条记录,进行人工核对,错误率为2%。

微生物研究人员提交的数据在本库中存储量较少,全部采用专家审核验证的方法进行数据质量控制,确保这部分数据相对准确可靠。

4  数据使用方法和建议

本数据库开发了基于web的数据访问,使用者可以登录数据库网址进行查询、访问。用户可以按照物种的拉丁纲名、中文纲名、拉丁目名、中文目名、拉丁科名、中文科名、拉丁名、中文名、定名人、参考文献等字段进行定制查询。如果用户需要批量下载数据,可以联系本数据库管理人员,获取批量下载接口。

 

致  谢

感谢中国科学院十一五信息化建设专项“中国科学院数据应用环境建设与服务”项目及国家科技基础条件平台项目“基础科学数据共享网”提供支持。

感谢中科院微生物所信息中心吴林寰、刘翟对微生物数据进行人工验证。

作者分工职责

刘澎涛(1968—),男,北京,本科,工程师。研究方向:网络数据库。主要承担工作:数据信息扫描与提取。

刘全贺(1981—),男,北京,本科,工程师。研究方向:数据集成。主要承担工作:网页开发。

劳一美(1978—),女,北京,大专,工程师。研究方向:富媒体数据库。主要承担工作:数据库美工。

孙清岚(1976—),女,北京,硕士,助理研究员。研究方向:生物信息学。主要承担工作:数据挖掘。

马俊才(1962—),男,北京,博士,正高级工程师。研究方向:生物大数据应用。主要承担工作:项目组织。

参考文献

[1]  Prakash O, Shouche Y, Jangid K, et al. Microbial cultivation and the role of microbial resource centers in the omics era[J]. Appl Microbiol Biotechnol, 2013, 97(1): 51~62.

[2]  马俊才, 刘斌, 吴林寰, 等. 利用科研信息化手段推动微生物研究与应用[J]. 中国科学院院刊, 2013, 28(4): 519~524.

[3]  GILBERT Don, UGAWA Yoshihiro, MA Juncai, et al. Bio-Mirror project for public bio-data distribution [J]. Bioinformatics, 2004, 20(17): 3238~3240.

[4]  M. L. Hekkelman, G. Vriend. MRS: a fast and compact retrieval system for biological data[J]. Nucleic Acids Research, 2005, 33: W766~W769.

[5]  戴芳澜. 中国真菌总汇[M]. 北京: 科学出版社, 1979.

[6]  戴芳澜. 中国真菌志[M]. 北京: 科学出版社, 2008.

[7]  吴林寰, 刘翟, 杜晓萌, 等. 生物信息数据库通用数据字典标准化研究[J]. 科技创新导报, 2009, 26: 10~13.

引用数据

(1)  刘彭涛, 刘全贺, 劳一美, 孙清岚, 马俊才. 微生物物种编目数据库[DB/OL]. Science Data Bank. DOI: 10.11922/ sciencedb.180.6.

 

引文格式:刘彭涛, 刘全贺, 劳一美, 孙清岚, 马俊才. 微生物物种编目数据库[J/OL]. 中国科学数据, 2016, 1(1). http://www.csdata.org/paperView?id=6. DOI: 10.11922/csdata.180.2015.0006.

下载