科学大数据工程 I 区论文(评审中) 版本 ZH2
下载
实验室化学品纯化方法数据集
A dataset of purification methods for laboratory chemicals
 >>
: 2019 - 10 - 12
: 2019 - 12 - 02
: 2019 - 12 - 02
141 0 0
摘要&关键词
摘要:通过收集书籍手册中的实验室化学品纯化方法数据和相关的理化性质数据,对收集得到的原始数据进行分类汇总和规范化处理,并利用数据采集规范和数据抽查回溯手段控制数据质量,通过软件算法保证数据集中关键数据项的正确性,最终建成实验室化学品纯化方法数据集。本数据集收录了实验室化学品的纯化方法数据和理化性质数据,共计5747条。实验室化学品纯化方法数据集的建成,可以为化学及生物化学实验科研人员进行实验研究提供有益的帮助。
关键词:实验室;化学品;纯化;理化性质
Abstract & Keywords
Abstract: By collecting data on purification methods for laboratory chemicals and related physical and chemical properties data from the manual books, then the data was classified, summarized and standardized. For quality control, we developed collection specifications and methods for data sampling and backtracking, which, coupled with algorithm programs, ensured the accuracy of the key data items. The dataset contains 5,747 records that fall into two subsets: one for purification method data and the other for physical and chemical properties data. The establishment of the dataset of purification methods for laboratory chemicals can provide useful help for the chemical and biochemical experimental researchers.
Keywords: laboratory; chemicals; purification; physical and chemical properties
数据库(集)基本信息简介
数据库(集)名称实验室化学品纯化方法数据集
数据通信作者李英勇(liyingyong@sioc.ac.cn)
数据作者李英勇、赵英莉
数据时间范围1912–2006年
地理区域世界各国
数据量2.54 MB
数据格式*.xls
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/897
http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp
基金项目中国科学院信息化建设专项(XXH13505-03-103);国家基础科学数据共享服务平台项目(DKA2017-12-02-05);上海市科委项目(18DZ2294000)。
数据库(集)组成本数据集由1个EXCEL文件组成,包括一个工作表LabChemPurification:共有5747条记录,包括实验室化学品的ID号、类别、名称、CASRN号、分子式、分子量、凝固点、溶点、沸点、密度、折射率、旋光度、比色指数、电离常数、纯化方法、来源文献和其他性质数据。
Dataset Profile
TitleA dataset of purification methods for laboratory chemicals
Data corresponding authorLi Yingyong(liyingyong@sioc.ac.cn)
Data authorsLi Yingyong, Zhao Yingli
Time range1912–2006
Geographical scopeWorldwide
Data volume2.54MB
Data format*.xls
Data service system<http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp>
<http://www.sciencedb.cn/dataSet/handle/897>
Sources of fundingCAS informatization project during the Thirteenth Five-Year Plan – “Key Database Construction and Application Services for the Discipline of Chemistry” (XXH1350303-103); National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05); Shanghai Chemistry & Chemical Industry Data Platform (18DZ2294000).
Dataset compositionThe dataset consists of 1 part of data, a total of one EXCEL file, including a worksheet LabChemPurification: a total of 5747 records, including the laboratory chemicals’ID,class, name, CASRN number, formula, molecular weight, freezing point, melting point, boiling point, density, refractive index, Optical rotation, coloration index, ionization constant, purification method, sources of literature and other property data.
引 言
化学家和生物化学家在进行科学实验研究过程中,往往会遇到实验用试剂是否需要纯化,以及如何纯化的问题。虽然大多数实验室化学品对于科学技术研究的大多数目的都能满足纯度要求,并能获得令人满意的结果,但对于某些研究来说,所用化学品的进一步纯化是很有必要的。特别是随着半导体技术、特殊合金制备以及高生物活性物质的分离等方面的快速发展,对实验用化学品纯度的要求越来越高。而有价值的目标试剂纯化方法数据往往分散于科技期刊文献或实验类手册书籍中,并没有相关的开放数据集可供使用,从手册书籍中查找获取数据不够方便,而且书籍上的数据内容无法及时补充完善。
针对化学家与生物化学家们对实验用化学品纯化的这种需求,通过收集整理专业手册书籍中的实验室化学品纯化方法数据和相关的理化性质数据,建设完成了实验室化学品纯化方法数据集。借助此纯化方法数据集,化学家与生物化学家在进行具体科学实验研究时可以方便地查询实验用试剂是否需要纯化,如何纯化,以及化学品的一系列物理化学参数。用户也可以随时补充从最新期刊文献中获取的实验室化学品纯化方法数据和理化性质数据,以进行横向比较研究。
1   数据采集和处理方法
1.1   原始数据来源
实验室化学品纯化方法数据集的原始数据采集自《实验室化学品纯化手册》[1],原始数据按采集要求采集后,对采集数据进行了规范化处理,以及质量校验,最终得到实验室化学品纯化方法数据。
1.2   数据采集
原始数据为手册书籍,先是介绍了实验室化学品常用的物理纯化技术和化学纯化技术,以及化学品纯化方法的未来发展方向,然后具体讲述了各种化学品的纯化方法,分为有机化学品、无机化合物、金属有机化学品以及生物化学品。而这些纯化方法条目长度不等,有的只有一行,有的约有一页,甚至更多,如乙腈、苯、乙醇和甲醇等。有些条目还包括了可能的污染物和储存条件等信息。大多数条目里插入了与物理性质有关的更多的信息数据,比如熔点、沸点、折射率、密度、比旋光度(针对适用的化合物)和紫外吸收数据,部分条目有化合物分子量,几乎所有条目都附有化合物的CAS登录号。原始数据如图1所示。


图1   原始数据示例
根据原始数据的这些类型和特点,设计了实验室化学品纯化方法数据集录入加工数据表,采用人工录入的方式,将原始手册中各实验室化学品的纯化方法数据、理化性质数据和参考文献数据等分别录入加工数据表对应的数据项中。数据表以化合物作为实体,其物理化学性质数据、纯化方法数据和参考文献数据作为其属性。制订了具体的数据采集录入规则:
(1)段落开头部分若是粗体字,说明是一个新化合物条目;若段落开头不是粗体字,则此段内容属于上一段的化合物,在开头部分加入“$$”段落标识,内容并入上一段。
(2)新化合物条目开头的粗体字部分是化合物名称,若此部分结尾处有括号,则括号前数据是化合物俗名,括号中数据是化合物系统名称;
(3)化合物名称后中括号部分是化合物的CASRN号;
(4)CASRN号后面的粗体字部分是化合物的分子式和理化性质数据,各项间以逗号分隔,并以句号结尾。其中:“M”字符开头者是化合物分子量数据;“m”字符开头者是化合物溶点数据;“b”字符开头者是化合物沸点数据;“pK”字符开头者是可电离化合物的电离常数数据,若“pK”有上标,则上标数字是温度值,若没有上标,说明是室温(约15–25℃),若下标有“Est”字符,说明这是电离常数估计值;“[α]”字符开头者是化合物旋光度数据,其上标是温度,下标是光源;“n”字符开头者是化合物折射率数据,其上标是温度,下标是光源。所有数据项分别填入数据采集表的对应列中,若没有对应列,则填入“QT”列。
(5)化合物理化性质数据之后的部分是化合物的具体纯化方法数据,其中的中括号部分是此纯化方法的来源文献信息,此部分可能存在多个纯化方法和多个来源文献信息。
1.3   数据规范化处理
原始数据经采集录入整理后,得到实验室化学品纯化方法录入加工数据表。根据数据集的设计,将录入加工数据表中的数据项进行规范化处理:去除CASRN号中的“-”字符,将其由字符串转换为整型数字,以便后续的数据校验处理;设计实验室化学品纯化方法数据表,数据表的具体结构如表1所示,并将录入加工数据表中不同类型的数据项分别归入数据表相应列中,并添加流水号作为主键。
表1   实验室化学品纯化方法数据表
序号属性名称数据类型属性说明
1ID数值流水号,主键
2HXPLX字符化学品类别
3HXPMC字符化学品名称
4CASRN字符化学品CASRN号
5MF字符分子式
6MW字符分子量
7NGD字符凝固点
8RD字符溶点
9FD字符沸点
10XDMD字符密度
11ZSL字符折射率。以“^<”和“^>”括起来的部分是上标;以“^{”和“^}”括起来的部分是下标。
12WZ字符旋光度。以“^<”’和“^>”括起来的部分是上标;以“^{”和“^}”括起来的部分是下标。
13QT字符其他性质数据
14CI字符比色指数
15DLCS字符电离常数。以“^<”和“^>”括起来的部分是上标;以“^{”和“^}”括起来的部分是下标。
16SM字符纯化方法。其中,字符“$$”是新行行首标志。
17CKWX字符来源文献。其中,字符“$”是行首标志,字符“$$;”是行尾标志。
3   数据样本描述
实验室化学品纯化方法数据集主要包括实验室化学品纯化方法数据表,表中存储了实验室化学品的各项理化性质数据、纯化方法数据和来源文献信息。具体是实验室化学品的类别、名称、CASRN号、分子式、分子量、凝固点、溶点、沸点、密度、折射率、旋光度、比色指数、电离常数、纯化方法和来源文献数据,其属性名称和数据示例如表2所示:
表2   实验室化学品纯化方法数据示例
序号属性名称属性说明范例
1ID流水号1
2HXPLX化学品类别有机化学品
3HXPMC化学品名称吖丁啶(氮杂环丁烷)
4CASRN化学品CASRN号503-29-7
5MF分子式C6H6O
6MW分子量57.1
7NGD凝固点1.3℃
8RD溶点17.3℃
9FD沸点61–62℃
10XDMD密度d 0.846
11ZSL折射率n^<20^>^{D^}1.4575
12WZ旋光度[α]^{546^}-123°(c 10,H20,24h后)
13QT其他性质闪点−41.8℃
14CI比色指数45160
15DLCS电离常数pK^<25^> 11.29
16SM纯化方法本品用水(活性炭脱色)结晶成黄色针状晶体。如果其中含有游离酸,那么用二氯甲烷溶解,再用饱和碳酸钠、盐水洗涤,之后用硫酸镁干燥,蒸发最后将残留物重结晶。游离酸的熔点是203–204℃(dec)[紫外:Brown和Mason.J Chem Soc 3443 1956],其pK^{1^}<1,pK^{2^}3.70。铵盐熔点232℃(dec)(NNiN溶液重结晶),氨基化合物的熔点239.2℃(用水重结晶)[Ellingson et al.J Am Chem Soc 67 1711 1945]。
17CKWX来源文献$ASearles et al. J Am Chem Soc 78 4917 1956$$
4   数据质量控制和评估
为保证实验室化学品纯化方法数据集的数据质量,在原始数据采集录入过程中制定了数据采集规范。同时采用抽捡的方式,随机抽取数据记录进行人工校对,以控制数据录入质量。为了解决数据的可追溯性问题,在原始数据采集时同时录入数据来源号,来源号由条目所在页码组成。由于工具书籍的编排具有严格的顺序性,因此可针对数据集的连续性进行校验,在后续的数据处理中发现的数据遗漏或者数据质量问题,数据集根据数据来源号对照原始数据项得到了修正。
对数据集中的关键数据项,进行了程序校验。根据美国化学文摘社发布的CASRN号有效性验证规范[2],一个CASRN最多有十位数字组成,由连字符“-”分为三部分,从左边起的第一部分的数字为二到七位数,第二部分数字为两位数,最后一部分为一个数字。最后一部分是校验码,数据集采用程序软件验证输入的CASRN字符串是否为一个有效的CASRN号码。
对于实验室化学品纯化方法数据集中有化合物分子式和分子量数据的条目,设计了由化合物分子式计算分子量的算法程序,算法考虑了晶体、有机盐和聚合物分子式的特殊性,对这类分子式进行了特殊处理。最终通过分子式计算得到化合物的计算分子量,并与采集到的录入分子量进行比对,以验证采集录入的分子式和分子量数据的正确性。
手册结尾有中文名称索引和CAS索引部分,安排专人将化合物名称、CASRN号与页码的对应信息与采集数据表中的对应信息进行校对,以筛选出人工录入的错误,进一步提高实验室化学品纯化方法数据集的数据质量。
5   数据使用方法和建议
实验室化学品纯化方法数据集使用EXCEL格式存储,使用者可以通过Microsoft Office EXCEL®软件,打开数据集并且对数据集进行查看、检索和筛选等操作。数据集的数据描述共计17个子类,分别是化合物的ID号,类别、名称、CASRN号、分子式、分子量、凝固点、溶点、沸点、密度、折射率、旋光度、比色指数、电离常数、纯化方法、来源文献和其他性质数据,均支持检索和筛选操作。
化学专业数据库网站上也提供了实验室化学品纯化方法数据集服务[3],如图2所示。网站主要提供了三种Web检索方式:按化合物名称检索、按CASRN号检索和按分子式检索。另外,网站将此数据集与其他数据集进行了有机整合,可以提供化合物更多的数据服务。


图2   实验室化学品纯化方法数据集Web检索示例
相对于工具书籍只能根据目录和索引来浏览和检索,实验室化学品纯化方法数据集的使用方法更为便捷和灵活。可以根据待处理化学品的物理性质参数进行检索和筛选,还可以根据用户感兴趣的纯化方法关键词进行筛选和聚类分析。该数据集的信息描述言简意赅,收集整理的大都是实验室常用的化学品,可以作为化学和生物化学实验室科研人员进行实验研究时的参考数据集。
[1]
Wilfred L.F.Armarego, Christina L.L.Chai. 实验室化学品纯化手册[M]. 北京:化学工业出版社,2006.
[2]
American Chemical Society. Check Digit Verification of CAS Registry Numbers[EB/OL]. [2018-10-08]. http://www.cas.org/content/chemical-substances/checkdig.
[3]
上海有机所. 化学品纯化方法数据库. [2018-10-08]. http://www.organchem.csdb.cn/scdb/main/purechem_introduce.asp.
数据引用格式
李英勇, 赵英莉. 实验室化学品纯化方法数据集[DB/OL]. Science Data Bank, 2019. (2019-11-29). DOI: 10.11922/sciencedb.897.
稿件与作者信息
论文引用格式
李英勇, 赵英莉. 实验室化学品纯化方法数据集[J/OL]. 中国科学数据, 2019. (2019-11-29). DOI: 10.11922/csdata.2019.0072.zh.
李英勇
Li Yingyong
主要承担数据库设计和数据库建库工作。
liyingyong@sioc.ac.cn
(1978—),男,河南南阳人,硕士,高级工程师,研究方向为化学信息学。
赵英莉
Zhao Yingli
主要承担数据采集、基础数据加工和数据管理工作。
(1970—),女,辽宁沈阳人,硕士,副研究馆员,研究方向为化学信息学。
出版历史
I区发布时间:2019年12月2日 ( 版本ZH2
参考文献列表中查看
中国科学数据
csdata