数据论文 I 区论文(评审中) 版本 ZH3
下载
化学药物数据集
A dataset of chemical drugs
 >>
: 2018 - 10 - 08
: 2018 - 10 - 12
: 2018 - 10 - 12
118 2 0
摘要&关键词
摘要:通过收集书籍手册中的化学药物研究成果信息,对收集的药物数据信息进行分类汇总和规范化处理,采用化合物唯一标识法集成药物化合物结构数据,利用数据采集规范和数据抽查回溯手段控制数据质量,通过算法程序保证数据集中关键数据项的正确率,最终形成化学药物数据集。本数据集包括了药物基础数据和药物化合物数据,共计1060条。化学药物数据集可以为新药研发、药物改良、科研教育等提供数据支持。
关键词:药物数据;化学药物;药物化合物;新药研发
Abstract & Keywords
Abstract: This study collected chemical drug data from book manuals. The collected data were then classified, summarized and standardized. Structured data of the drug compounds were integrated by using the method of compound unique identification. For quality control, we developed collection specifications and methods for data sampling and backtracking, which, coupled with algorithm programs, ensured the accuracy of the key data items. The dataset contains 1060 records that fall into two subsets: one for basic drug data and the other for drug compound data. This dataset provides data support for drug development, drug improvement, as well as relevant research and education, etc.
Keywords: drug data; chemical drugs; drug compounds; drug development
数据库(集)基本信息简介
数据库(集)名称化学药物数据集
数据作者徐挺军、赵英莉、李英勇
数据通信作者徐挺军(xutingjun@sioc.ac.cn)
数据时间范围1985–2001年
地理区域世界各国
数据量5.44 MB
数据格式*.MDB
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/657
基金项目中国科学院信息化专项科学大数据工程(XXH135)、上海市化学化工数据共享服务平台(18DZ2294000)
数据库(集)组成数据集由2部分数据组成:1. 药物基础数据(包括药物类型、名称、性状、制法、用途、生产厂家等);2. 药物化合物数据(包括化合物登录号、CA登记号、化合物名称、分子式、分子量、化学结构文件等)。
Dataset Profile
TitleA dataset of chemical drugs
Data corresponding authorXu Tingjun(xutingjun@sioc.ac.cn)
Data authorsXu Tingjun, Zhao Yingli, Li Yingyong
Time range1985-2001
Geographical scopeWorldwide
Data volume5.44 MB
Data format*.MDB
Data service systemhttp://www.sciencedb.cn/dataSet/handle/657
Sources of fundingCAS informatization project during the Thirteenth Five-Year Plan (XXH135);
Shanghai Chemistry & Chemical Industry Data Platform(18DZ2294000)
Dataset compositionThis dataset consists of two parts of data, one for basic drugs (including their type, name, properties, preparation, application, manufacturer, etc.) and the other for drug compounds (including their registration number, CA registration number, name, molecular formula, molecular weight, chemical structure, etc.).
引 言
化学药物是当今世界占比最高的药物来源,其数量众多、研发活跃、发展迅速。但是,我国化学制药行业严重缺乏竞争能力,相比于其他发达国家的医药产业,具有技术创新能力低、研发投入少、仿制药物占比高等弱点[1]。药物研发成本高、周期长、技术保护等因素制约着我国合成药物的创新和发展,如何能准确地找出突破点和应对方法是整个医药产业链值得深思的问题。
药物化学家通过研究现有药物化合物明确的靶标结构和物性活性数据,基于化学原理,根据药物的化学结构特征、合成方法等,构建新的药物化学有效结构类型或者新的药物合成路径,进行药物模拟创新,成为突破现阶段我国药物创新困境和瓶颈的一个方法[2]。对于原创新药研发投入高、失败率高等问题,研究现有药物的构效关系,发现现有药物新的用途或者新的定位,能够在一定程度上提升新药研发的成功率,降低药物研发成本,加快临床急需用药的上市[3]
通过收集国内外已经上市的药物以及有发展潜力、尚在研发中的新药等现有药物的基础数据和药物化合物的数据,对数据进行加工和规范化处理,形成一定规模和范围内的化学药物数据集,为药物化学家展示现有药物的物性活性、制法合成路径、化合物结构等信息数据,从数据的角度促进药物研发等科研活动的进行。
1   数据采集和处理方法
1.1   原始数据来源
化学药物数据集的原始数据采集自《精细化工产品手册·药物》[4],原始数据采集后对数据进行规范化加工处理,然后对药物化合物进行唯一化标识[5],获得药物化合物的结构信息数据,最终形成化学药物数据集。
1.2   数据采集
原始数据为手册书籍,其编写按用途、药理和化学结构相结合的方式进行分类。对于有共同药理作用的药物,如拟肾上腺素和抗肾上腺素药物、拟胆碱和抗胆碱药物、抗组胺药物等,分列一章。每章开头有对该章药物的简短说明。每章中再分小类,在小类中将结构相似的药物归于一起。同一种药物有多种用途时,该药物归在主要用途一章中。在药物信息详细描述段中,均分栏介绍其中文通用名(或常用名)及英文通用名(或常用名)、在美国《化学文摘》上的登录号、其他名称、结构式、分子式、相对分子质量、性状、制法、规格、用途、生产厂家、参考资料等,如图1所示。


图1   原始数据示例
根据以上原始数据类型和特点,设计数据集录入加工数据表,采用人工输入的方式,将原始数据书籍中各个信息分别录入对应的数据项中。数据表以化学药物作为实体,药物的分类信息、药物描述数据、化合物数据、性质数据、生产方法等作为其属性。由于原始书籍涉及的数据类型众多,采用一定的输入规则对数据进行采集,以便后续的数据规范化处理,数据部分采集规则如表1所示。
表1   数据采集规则
序号规则说明
1同一类数据中有多个数据的使用“;”分隔,如同一个药物有多个名称,多个参考文献等
2内容描述中每个自然分段的结尾部分加“$$”
3如果内容中有表格,在表的起始和结束后各加一个“$T”,表内容的每一项用“/”或“@”(当表的内容中有“/”时)分隔,每一行用“$$”分隔
4化学结构式中的结构图不需输入
5所有汉字和符号,包括希腊字母按原样输入
6分子式中的数字按普通数字方式输入,其余上下标内容使用上标符组“^<”“^>”,和下标符组“^{”“^}”表示,需要用上下标表示的内容置于上标或下标符号组的两个符号间。例如,cm-1应该表示成“cm^<-1^>”
7熔点(mp)、沸点(bp)、酸碱度(PH)的数据包含在性状内容中,需要从中选取,输入内容包括这些数据的标识。
1.3   数据规范化处理
原始数据经采集后,形成化学药物加工数据表。根据化学药物数据集的设计,将加工数据表中的数据进行规范化处理:去除CASRN号中的“-”,将其转换为数字以便后续的数据处理;设计药物基础数据表、药物化合物数据表,分别如表2、表3所示,并将加工数据表中不同类型的数据分别归类至相应的数据表中,并以药物编号YWID作为主键链接;由于药物化合物的化学结构大多较为复杂,人工采集需要非常专业的人员耗费相当多的工作时间,且较易出现差错。化学药物数据集利用原始数据中较为明确的CASRN号、化合物名称、分子式等数据,采用化合物唯一化标识方法,根据化合物登录号SRN直接从化合物参考数据库中获取化合物结构信息[6],形成药物基础数据、药物化合物数据,得到最终的化学药物数据集。
表2   药物基础数据表
序号属性名称数据类型属性说明
1YWID数值药物编号
2YWDL字符药物大类
3YWXL字符药物小类
4YWZW字符药物中文名称
5YWYW字符药物英文名称
6XZ字符性状
7RD数值熔点
8FD数值沸点
9PH数值酸碱度
10ZF字符制法
11YT字符用途
12SCCJ字符生产厂家
13CKWX字符参考文献
表3   药物化合物数据表
序号属性名称数据类型属性说明
1ID数值序号
2YWID数值药物编号
3SRN数值化合物登录号
4CASRN字符CA登记号
5HHWM字符化合物名称
6QTMC字符化合物别名
7MF字符分子式
8MW数值分子量
9Mol字符化学结构文件
2   数据样本描述
化学药物数据集涵盖了药物的基础信息数据和药物化合物数据,分别存储于药物基础数据表和药物化合物数据表。以市面常见的抗高血压药物缬沙坦(Valsartan)为例,表4展示了其药物的基本信息数据,表5展示了其化合物数据,其中化学结构数据为MDL Molfile文件内容,在表中以化学结构图的形式来描述。
表4   化学药物数据集药物基础数据示例
序号数据类型数据示例
1药物编号374
2药物大类心脑血管药物
3药物小类抗高血压药
4药物中文名称缬沙坦
5药物英文名称Valsartan
6性状从二异丙醚结晶,熔点116--117℃。
7熔点116-117℃
8沸点-
9酸碱度-
10制法2’-氰基联苯-4-醛(I)和L-缬氨酸甲酯进行还原胺化,得到的化合物(II)再用戊酰氯进行酰化,层析后得到化合物(III)。然后和Bu3SnN3进行反应,引入四唑,再水解即得产物。
11用途抗高血压药物。非肽血管紧张素II AT1-受体拮抗剂。用于治疗高血压。
12生产厂家瑞士Ciba开发,1996年在德国上市。
13参考文献[1] Merck Index 12th:10051;[2] Buehlmayer P,Ostermayer F and Sehmidlln T.Aeyl compounds.EP 443983,1991-08-28;$$[3]Buehlmayer P,Ostermayer F and Schmidlin T.Acyl compounds.US 5399578,1995-03-21.
表5   化学药物数据集药物化合物数据示例
序号数据类型数据示例
1序号382
2药物编号374
3化合物登录号6137969
4CA登记号137862-53-4
5化合物名称N-(1-氧戊基)-N-[[2’(-(1H-四唑-5-基)[1,1’(-联苯]-4-基]甲基]-L-缬氨酸;N-(1-Oxopentyl)-N-[[2’-(1H-tetrazol-5-y1)[1,1’-biphenyl]-4-y1]methyl]-L-valine
6化合物别名CGP-48933:Diovan
7分子式C24H29N5O3
8分子量435.53
9化学结构(mol 文件)
3   数据质量控制和评估
化学药物数据集为保证数据质量,在采集数据时制定了数据采集规范(见本文1.2)。同时采用抽检的方式,随机抽选数据记录进行人工校对。为了解决数据的可追溯性问题,化学药物数据集在原始数据采集时同时录入数据来源号,来源号由5位数字编号,前2位数字为来源书籍的章号,第3位数字为节号,后2位数字为数据条目编号。由于工具书籍的编排具有严格的顺序性,因此可针对数据集的连续性进行校验,在后续的数据处理中发现的数据遗漏或者数据质量问题,数据集根据数据来源号对照原始数据得到了修正。
对数据集中的关键数据项,数据集进行了程序校验。根据美国化学文摘社(CAS)发布的CA登记号有效性验证规范[7],一个CASRN最多有10位数字组成,由连字符“-”分为三个部分,从左边起的第一部分的数字为2到7位数,第二部分数字为2位数,最后一部分由1位数组成。最后的一位数是校验码,数据集采用程序软件使用一个标准计算方法来计算CAS登记号是否为一个有效号码。
数据集中的化合物分子式和分子量数据,通过了分子式处理技术验证其精确性。如图2所示,程序读入分子式字符串FormulaString后解析其字符特征,比如分子式中的“()”“.”等,以此判断该分子式是否为规范的表达,并且将分析所得的结果存入分子式特征变量FormulaFeature中;根据该分子式的类型,截取其中的分子式单元字符串,分别存入分子式单元字符串变量FormulaUnit中,普通的化合物分子式单元字符串为一个,晶体和有机盐分子式单元字符串为两个或多个,聚合物分子式单元为括号中单体分子式的字符串;依次遍历分子式单元字符串FormulaUnit,分别解析出元素符号和元素数量存入元素变量Atom和元素数量变量Amount中,并且根据元素的原子量和元素数量计算该分子式基本单元的分子量,并且累加存入化合物分子量变量MolecularWeight;最后输出化合物分子式特征数据FormulaFeature和化合物分子量数据MolecularWeight。根据分子式数据处理程序所得的结果来验证数据集中的分子式是否符合规范,验证分子量数据是否正确。


图2   分子式数据处理程序算法
4   数据使用方法和建议
化学药物数据集使用MDB格式存储,使用者可以安装Microsoft Office Access®软件,打开数据集并且对数据集进行查看、检索、数据挖掘等操作[8]。化学药物数据集中的数据描述具有一定的专业性,为了保证数据格式的统一性,数据中采用某些符号和缩写来代替相应的专业名词,符号和缩写说明如表6所示。
表6   化学药物数据集符号和缩写说明表
序号缩写符号说明
1旋光度,下标为光源,上标为温度
2折射率,下标为光源,下标为温度
3相对密度,指一定体积的该物质在23℃下的质量与等体积纯水在4℃下的质量之比
4消光度,下标为槽的厚度,上标为样品的浓度
5ε分子消光系数
6mp熔点
7bp沸点
8pH酸碱度
9pKa电解质电离常数倒数的对数
10Ac乙酰基
11Bz苯甲酰基
12Bzl苄基
13Bu丁基
14Et乙基
15Me甲基
16Ph苯基
17Pr丙基
18Ts对甲苯黄酰基
197-ACA7-氨基头孢烷酸
207-ACT7-氨基头孢三嗪
216-APA6-氨基青霉烷酸
22DCC, DCCD二环己基二亚胺
23DMAN,N-二甲基乙酰胺
24DMFN,N-二甲基甲酰胺
25DMSO二甲基亚砜
26THF四氢呋喃
27IR红外光谱
28UV紫外光谱
29USP美国药典
30DE德国专利
31EP欧洲专利
32GB英国专利
33JP日本专利
34US美国专利
35WO世界专利
相对于工具书或者书籍只能根据目录和中英文索引来游览和检索,化学药物数据集的使用更为便捷和灵活。除了可以根据药物名称、性状、用途、制法等信息对药物进行检索和归类外,还可以利用数据集中药物化合物的化学结构信息进行量化计算。化学药物数据集包含的药物都有较为明确的化学结构,对于研究药物靶点信息、药物作用基团的构效关系等具有较好的数据支持作用,从而从数据角度为创新药物研发提供帮助。数据集中的信息描述言简意赅,收集的药物大都是已经市场化或广为人知的经典产品,适用于科研教学和大众科普教育等领域。
[1]
李广乾. 促进我国化学制药行业技术创新的政策研究[J]. 现代产业经济, 2013(z1): 48-56.
[2]
孙大柠. 谈当今我国合成药物的创新研制与开发——访中国医学科学院药物研究所郭宗儒研究员[J]. 药学进展, 2010, 34(1): 1-6.
[3]
王可鉴, 石乐明, 贺林, 等. 中国药物研发的新机遇:基于医药大数据的系统性药物重定位[J]. 科学通报, 2014, 59(18): 1790-1796.
[4]
周学良. 精细化工产品手册.药物[M]. 北京: 化学工业出版社精细化工出版中心, 2003.
[5]
陈维明, 朱翠娣, 赵英莉, 等. 论数据唯一标识与化学数据的集成[C]. 第九届科学数据库与信息技术学术研讨会, 广西桂林, 2008
[6]
赵英莉, 徐衍波, 李英勇, 等. 化合物参考数据库的设计[C], 第十届科学数据库与信息技术学术研讨会, 贵州贵阳, 2010.
[7]
American Chemical Society. Check Digit Verification of CAS Registry Numbers[EB/OL]. [2018-10-08]. http://www.cas.org/content/chemical-substances/checkdig.
[8]
纪澍琴, 李连德, 常耀辉. Access数据库应用基础教程[M]. 北京: 北京邮电大学出版社, 2013.
数据引用格式
徐挺军, 赵英莉, 李英勇. 化学药物数据集[DB/OL]. Science Data Bank, 2018. (2018-10-08). DOI: 10.11922/sciencedb.657.
稿件与作者信息
论文引用格式
徐挺军, 赵英莉, 李英勇. 化学药物数据集[J/OL]. 中国科学数据, 2018. (2018-10-12). DOI: 10.11922/csdata.2018.0061.zh.
徐挺军
Xu TingJun
主要承担工作:数据库设计和数据库建库。
xutingjun@sioc.ac.cn
(1984—),男,浙江海宁人,硕士,工程师,研究方向为化学数据库。
赵英莉
Zhao Yingli
主要承担工作:数据采集、基础数据加工和数据管理。
(1970—),女,辽宁沈阳人,硕士,副研究馆员,研究方向为化学信息学。
李英勇
Li Yingyong
主要承担工作:化合物数据登录。
(1978—),男,河南南阳人,硕士,高级工程师,研究方向为化学信息学。
出版历史
I区发布时间:2018年10月12日 ( 版本ZH3
参考文献列表中查看
中国科学数据
csdata