科学大数据工程 II 区论文(已发表) 版本 ZH3 Vol 5 (2) 2020
下载
实验室化学品纯化方法数据集
A dataset of purification methods for laboratory chemicals
 >>
: 2019 - 10 - 12
: 2020 - 03 - 09
: 2019 - 12 - 02
: 2020 - 06 - 11
1160 1 0
摘要&关键词
摘要:通过收集书籍手册中的实验室化学品纯化方法数据和相关的理化性质数据,对收集得到的原始数据进行分类汇总和规范化处理,并利用数据采集规范和数据抽查回溯手段控制数据质量,通过软件算法保证数据集中关键数据项的正确性,最终建成实验室化学品纯化方法数据集。本数据集收录了实验室化学品的纯化方法数据和理化性质数据,共计5747条。实验室化学品纯化方法数据集的建成,可以为化学及生物化学实验科研人员进行实验研究提供有益的帮助。
关键词:实验室;化学品;纯化;理化性质
Abstract & Keywords
Abstract: First we collected data on purification methods for laboratory chemicals and related physical and chemical properties data from manual books. Then we classified, summarized and standardized all the data. For quality control, we developed collection specifications and methods for data sampling and backtracking, which, coupled with algorithm programs, ensured the accuracy of the key data items. The dataset contains 5,747 records that fall into two subsets: one for purification method data and the other for physical and chemical properties data. The dataset of purification methods for laboratory chemicals can benefit both chemical and biochemical experimental researchers.
Keywords: laboratory; chemicals; purification; physical and chemical properties
数据库(集)基本信息简介
数据库(集)名称实验室化学品纯化方法数据集
数据通信作者李英勇(liyingyong@sioc.ac.cn)
数据作者李英勇、赵英莉
数据时间范围1912–2006年
地理区域世界各国
数据量2.75 MB
数据格式*.mdb
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/897
http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp
基金项目中国科学院信息化建设专项(XXH13505-03-103);国家基础科学数据共享服务平台项目(DKA2017-12-02-05);上海市科委项目(18DZ2294000)。
数据库(集)组成本数据集由1个ACCESS文件组成,包括一个数据表(LabChemPurification表)和3个检索窗体(CASRN检索、名称检索和顺序浏览窗体):共有5747条记录,包括实验室化学品的ID号、类别、名称、CASRN号、分子式、分子量、凝固点、熔点、沸点、相对密度、折射率、旋光度、比色指数、电离常数、纯化方法、来源文献和其他性质数据。
Dataset Profile
TitleA dataset of purification methods for laboratory chemicals
Data corresponding authorLi Yingyong(liyingyong@sioc.ac.cn)
Data authorsLi Yingyong, Zhao Yingli
Time range1912~2006
Geographical scopeWorldwide
Data volume2.75MB
Data format*.mdb
Data service system<http://www.sciencedb.cn/dataSet/handle/897>
<http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp>
Sources of fundingCAS informatization project during the Thirteenth Five-Year Plan – “Key Database Construction and Application Services for the Discipline of Chemistry” (XXH1350303-103); National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05); Shanghai Chemistry & Chemical Industry Data Platform (18DZ2294000).
Dataset compositionThis dataset consists of one ACCESS file, including a data table (LabChemPurification table) and three retrieval forms (CASRN retrieval, name retrieval, and sequential browsing forms). There are a total of 5747 records, including the ID,class, name, CASRN number, formula, molecular weight, freezing point, melting point, boiling point, relative density, refractive index, optical rotation, coloration index, ionization constant, purification method, literature sources and other property data of laboratory chemicals.
引 言
化学家和生物化学家在进行实验研究时,往往会遇到实验用化学品是否需要纯化,以及如何纯化的问题。有些研究对化学品纯度要求较低,而有些研究对化学品纯度却有较高的要求,必须对实验室化学品进行纯化,使其理化性质数据达到一定的指标,才能满足实验要求。特别是随着半导体技术、特殊合金制备以及高生物活性物质的分离等方面的快速发展,对化学品纯度的要求越来越高。目前,化学品纯化方法信息分散于科技期刊和科技手册中,从期刊手册中查找数据不够方便,期刊手册上的数据内容也无法及时补充完善。此外,也没有相关的开放数据集可供使用。
针对化学家与生物化学家的实验需求,通过收集整理科技手册中的实验室化学品纯化方法和理化性质数据,建设完成了实验室化学品纯化方法数据集。通过此纯化方法数据集,化学家与生物化学家可以方便地查询实验用化学品是否需要纯化,如何纯化,以及化学品的理化性质数据。用户也可以随时补充完善最新的纯化方法和理化性质数据,以进行横向比较研究。
1   数据采集和处理方法
1.1   原始数据来源
实验室化学品纯化方法数据集的原始数据采集自《实验室化学品纯化手册》[1],此手册规范整理了2006年以前的相关科技期刊信息,记录了常用实验室化学品的纯化方法数据和理化性质数据,数据格式规范,内容较为详尽,采用此科技手册,大大减少了原始数据收集、校对与规范化处理的工作量。此数据集今后会持续建设,不定期补充期刊文献中新发表的纯化方法数据和理化性质数据,以持续反应最新的科研成果。
原始数据按采集要求录入后,再对采集数据进行规范化处理和质量校验,最终得到实验室化学品纯化方法数据。
1.2   数据采集
原始数据为科技手册,首先介绍了实验室化学品常用的物理纯化技术和化学纯化技术,以及化学品纯化方法的未来发展方向,然后具体讲述了各种化学品的纯化方法,分为有机化学品、无机化合物、金属有机化学品以及生物化学品。这些纯化方法条目长度不等,有的只有一行,有的约有一页,甚至更多,如乙腈、苯、乙醇和甲醇等。有些条目还包括了可能的污染物和储存条件等信息。大多数条目里插入了与物理性质有关的更多信息,比如熔点、沸点、折射率、相对密度、旋光度(针对适用的化合物)和紫外吸收数据,部分条目有化合物分子量,几乎所有条目都附有化合物的CAS登录号。原始数据如图1所示。


图1   原始数据示例
根据原始数据的这些类型和特点,设计了实验室化学品纯化方法数据集加工数据表,采用人工录入的方式,将原始手册中的实验室化学品纯化方法、理化性质和参考文献等数据,分别录入加工数据表中。加工数据表以化学品作为实体,将理化性质数据、纯化方法数据和参考文献数据作为其属性。制订了具体的数据采集录入规则:
(1)段落开头部分若是粗体字,说明这是一个新化学品条目;若段落开头不是粗体字,则此段内容属于上一段的化学品,在开头部分加入“$$”段落标识,内容并入上一段。
(2)新化学品条目开头的粗体字部分是化学品名称,若此部分结尾处有括号,则括号前数据是化学品俗名,括号中数据是化学品系统名称。
(3)化合物名称后中括号部分是化学品的CASRN号。
(4)CASRN号后面的粗体字部分是化学品的分子式和理化性质数据,各项间以逗号分隔,并以句号结尾。其中:“M”字符开头者是化学品分子量数据。“m”字符开头者是化学品熔点数据。“b”字符开头者是化学品沸点数据。“pK”字符开头者是可电离化合物的电离常数数据。若“pK”有上标,则上标数字是温度值;若没有上标,说明是室温(约15–25℃),若下标有“Est”字符,说明这是电离常数估计值。“[α]”字符开头者是化学品旋光度数据,其上标是温度,下标是光源波长。“\(n\)”字符开头者是化学品折射率数据,其上标是温度,下标是光源波长。所有数据项分别录入数据采集表的对应列中。若没有对应列,则录入“Other”列。
(5)理化性质数据之后的部分是化学品纯化方法数据,其中的中括号部分是纯化方法的来源文献信息,此部分可能存在多个纯化方法和多个来源文献。
1.3   数据规范化处理
原始数据经采集整理后,录入实验室化学品纯化方法加工数据表。然后,根据数据集的设计,对加工数据表中的数据项进行规范化处理:去除CASRN号中的“-”字符,将其由字符串转换为整型数字,以便后续进行数据校验处理。最后,设计实验室化学品纯化方法数据表(数据表结构信息如表1所示),将加工数据表中的合格数据项存入此数据表,并添加流水号作为主键。
表1   实验室化学品纯化方法数据表
序号属性名称数据类型属性说明
1ID数值流水号,主键
2Category字符化学品类别
3ChemName字符化学品名称
4CASRN字符化学品CASRN号
5MF字符分子式
6MW数值分子量
7FP数值凝固点,单位:℃
8MP数值熔点,单位:℃
9BP数值沸点,单位:℃
10DS字符相对密度,是20℃下目标物密度与4℃下水密度的比值。
11IOR字符折射率。以“^<”和“^>”括起来的部分是上标数据;以“^{”和“^}”括起来的部分是下标数据。缺省温度是20℃,缺省波长是钠D线平均波长。
12OPR字符旋光度。以“^<”和“^>”括起来的部分是上标数据;以“^{”和“^}”括起来的部分是下标数据。缺省温度是20℃,缺省波长是钠D线平均波长。
13Other字符其他性质数据
14CI字符比色指数
15DC字符电离常数。以“^<”和“^>”括起来的部分是上标数据;以“^{”和“^}”括起来的部分是下标数据。缺省温度是室温(约15–25℃)。
16Method字符纯化方法。其中,以字符“$$”标记新行行首。
17SrcDoc字符来源文献。其中,多个来源文献数据以分号分隔。
2   数据样本描述
实验室化学品纯化方法数据集主要包括实验室化学品纯化方法数据表,此数据表中存储了实验室化学品的理化性质数据、纯化方法数据和来源文献信息。具体是实验室化学品的类别、名称、CASRN号、分子式、分子量、凝固点、熔点、沸点、相对密度、折射率、旋光度、比色指数、电离常数、纯化方法和来源文献数据,其属性名称和数据如表2所示。
表2   实验室化学品纯化方法数据示例
序号属性名称属性说明范例
1ID流水号1
2Category化学品类别有机化学品
3ChemName化学品名称吖丁啶(氮杂环丁烷)
4CASRN化学品CASRN号503-29-7
5MF分子式C6H6O
6MW分子量57.1
7FP凝固点1.3℃
8MP熔点17.3℃
9BP沸点61℃
10DS相对密度0.846
11IOR折射率\({n}_{D}^{20}\) = 1.4575
12OPR旋光度[α]546=-123°(c 10,H20,24h后)
13Other其他性质闪点:−41.8℃
14CI比色指数45160
15DC电离常数pK25 11.29
16Method纯化方法本品用水(活性炭脱色)结晶成黄色针状晶体。如果其中含有游离酸,那么用二氯甲烷溶解,再用饱和碳酸钠、盐水洗涤,之后用硫酸镁干燥,蒸发最后将残留物重结晶。游离酸的熔点是203–204℃(dec),其pK1<1,pK2=3.70。铵盐熔点232℃(dec)(用丙酮溶液重结晶),氨基化合物的熔点239.2℃(用水重结晶)。
17SrcDoc来源文献Searles et al. J Am Chem Soc 78 4917 1956
3   数据质量控制和评估
为保证实验室化学品纯化方法数据集的数据质量,在原始数据采集录入过程中制定了数据采集规范。同时采用抽捡的方式,随机抽取数据记录进行人工校对,以控制数据录入质量。为了解决数据的可追溯性问题,在原始数据采集时同时录入了数据来源号,此来源号由条目所在页码组成。由于工具书籍的编排具有严格的顺序性,所以可针对数据项的连续性进行校验。另外,在后续的数据处理中,若发现有数据遗漏或者数据质量问题,可以根据数据来源号追溯到原始数据,以进行校对修正。
对于数据集中的关键数据项,通过软件程序进行了自动校验。根据美国化学文摘社发布的CASRN号有效性验证规范[2],一个CASRN最多有十位数字,由连字符“-”分为三部分,从左边起的第一部分数字为二到七位数,第二部分数字为两位数,最后一部分为一个数字。最后一部分是整个CASRN号有效性的校验码,根据CASRN号的校验规则,数据集自主开发了程序软件,自动验证了录入CASRN号的正确性。
对于实验室化学品纯化方法数据集中同时有分子式和分子量的条目,设计了通过化学品分子式计算分子量的算法程序,此算法考虑了晶体、有机盐和聚合物分子式的特殊性,对这类分子式进行了特殊处理。最终通过分子式计算得到化学品的计算分子量,并与录入的分子量进行比对,以验证录入的分子式和分子量的正确性。
考虑到手册结尾有化学品名称索引和CAS索引部分,还安排专人将化学品名称、CASRN号与页码信息与加工数据表中的相关信息进行校对,以筛选出人工录入时的错误,进一步提高了实验室化学品纯化方法数据集的数据质量。
4   数据使用方法和建议
实验室化学品纯化方法数据集采用MDB格式存储,使用者可以通过Microsoft Office Access®软件打开数据集,然后通过浏览或检索窗体对数据集进行查看、检索和筛选等操作,如图2–4所示。数据集共有17个数据项,分别是化学品的ID号、类别、名称、CASRN号、分子式、分子量、凝固点、熔点、沸点、相对密度、折射率、旋光度、比色指数、电离常数、纯化方法、来源文献和其他性质数据,均支持检索和筛选操作。当鼠标悬停于相对密度、折射率、旋光度或电离常数项时,会有此项的说明信息显示,如图2所示。


图2   实验室化学品纯化方法数据集浏览窗口示例


图3   实验室化学品纯化方法数据集名称检索示例


图4   实验室化学品纯化方法数据集CASRN检索示例
化学专业数据库网站上也提供了实验室化学品纯化方法数据集服务[3],网站检索页面如图5所示。网站主要提供了三种Web检索方式:按化合物名称检索、按CASRN号检索和按分子式检索。另外,网站将本数据集与其他数据集进行了有机整合,通过网站检索可以获得目标化学品更多的性质数据。


图5   实验室化学品纯化方法数据集Web检索示例
实验室化学品纯化方法数据集中的数据描述具有一定的专业性,为了保证数据格式的统一,数据集中采用某些符号和缩写来代替相应的专业名词;为了满足在数据集中存储及检索的需要,特制定了缩写符号的数据集存储格式。详细说明如表3所示。
表3   实验室化学品纯化方法数据集符号和缩写说明表
序号缩写符号数据集存储格式说 明
1\({\left[\alpha \right]}_{D}^{20}\)[α]^<20^>^{D^}旋光度,下标为光源波长,D表示钠D线平均波长;上标为温度
2\({n}_{D}^{20}\)n^<20^>^{D^}折射率,下标为光源波长,D表示钠D线平均波长;上标为温度
3\({d}_{4}^{20}\)d^<20^>^{4^}相对密度,指一定体积的该物质在20℃下的质量与等体积纯水在4℃下的质量之比
4\({pK}_{1}^{25}\)pK^<25^>^{1^}电离常数,指25℃下该物质的一阶电离常数,若下标中出现Est字样,说明是估计值,否则是实验值
5EtEt乙基
6MeMe甲基
7εε分子消光系数
8IRIR红外光谱
9UVUV紫外光谱
10NMRNMR核磁共振
11λmaxλ^{max^}(光谱的)最大吸收波长
相对于工具书籍只能根据目录和索引来浏览和检索,实验室化学品纯化方法数据集的使用方法更为便捷和灵活。不仅可以根据化学品的理化性质数据进行检索和筛选,而且可以根据用户感兴趣的纯化方法关键词进行筛选和聚类分析。本数据集的信息描述言简意赅,收集整理的大都是实验室常用的化学品信息,可以作为化学和生物化学科研人员进行实验研究时的参考数据集。
[1]
ARMAREGO WLF, CHAI CLL. 实验室化学品纯化手册[M]. 北京: 化学工业出版社, 2006.
[2]
American Chemical Society. Check Digit Verification of CAS Registry Numbers[EB/OL]. [2018-10-08]. http://www.cas.org/content/chemical-substances/checkdig.
[3]
上海有机所. 化学品纯化方法数据库. [2018-10-08]. http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp.
数据引用格式
李英勇, 赵英莉. 实验室化学品纯化方法数据集[DB/OL]. Science Data Bank, 2019. (2019-11-29). DOI: 10.11922/sciencedb.897.
稿件与作者信息
论文引用格式
李英勇, 赵英莉. 实验室化学品纯化方法数据集[J/OL]. 中国科学数据, 2020, 5(2). (2020-06-10). DOI: 10.11922/csdata.2019.0072.zh.
李英勇
Li Yingyong
主要承担数据库设计和数据库建库工作。
liyingyong@sioc.ac.cn
(1978—),男,河南南阳人,硕士,高级工程师,研究方向为化学信息学。
赵英莉
Zhao Yingli
主要承担数据采集、基础数据加工和数据管理工作。
(1970—),女,辽宁沈阳人,硕士,副研究馆员,研究方向为化学信息学。
出版历史
I区发布时间:2019年12月2日 ( 版本ZH2
II区出版时间:2020年6月11日 ( 版本ZH3
参考文献列表中查看
中国科学数据
csdata