科学大数据工程 I 区论文(评审中) 版本 ZH2
下载
商品化合物数据库
Existing commercial compounds database
 >>
: 2019 - 11 - 26
: 2019 - 12 - 11
: 2019 - 12 - 11
2584 13 0
摘要&关键词
摘要:现有化学物质名录中收录的化合物安全、环境和健康风险已知,可以直接进入实验室和进一步的工业实验,降低项目研究时间和经济成本。目前,名录中只含有CAS号等基本信息,无法满足功能化合物筛选的需求,我们根据中国、美国和欧盟的现有化学物质名录,进行数据挖掘、计算和二次加工,建立了商品化合物数据库(Existing Commercial Compounds Database, ECCD)。除了名录中的基本信息外,ECCD根据CAS登录号添加了表征化合物结构信息的mol文件,并在此基础上利用基团贡献法估算了化合物的物性信息,包括摩尔质量、熔点、沸点、密度、蒸气压、表面张力和黏度等,作为化合物筛选的基础信息。为了实现功能化合物的批量筛选,ECCD中还添加了分配系数、选择性、溶解能力和溶剂损失等描述相间行为的重要物理化学特征参数。此外,还可根据筛选目的的不同,以ECCD为基础,添加化合物的特定物性和功能数据,以满足特定功能化合物筛选的需求。为进行计算机辅助分子设计、材料表面设计和功能化合物结构设计等提供极大的便利。
关键词:化学物质名录;商品化合物;物性数据;化合物筛选
Abstract & Keywords
Abstract: The compounds in the existing chemical substance inventory, with known safety, environmental, and health risks, can be easily obtained and be tested in laboratories and further industrial experiments, reducing project research time and economic costs compared with new compounds. At present, the inventories only contain basic information of substance such as CAS numbers, which can not meet the needs of functional compound screening. We establish a commercial compound database (Existing Commercial Compounds Database, ECCD), by processing the compounds data contained in the existing chemical substance inventories in China, United States and European Union to get additional information. For example, a mol file that characterizes the structure information of the compound is collected via its CAS registration number. Further we estimated the physical properties of the compound using the group contribution method, including molar mass, melting point, boiling point, density, vapor pressure, surface tension, and viscosity, serving as basic information for compound screening. Furthermore, in order to realize the batch screening of functional compounds for extract purpose, specific physical and chemical characteristic parameters such as partition coefficient, selectivity, solubility, and solvent loss, which describe the behavior between two liquid phases, have been added to ECCD. It should be noted, for the different screening purposes, specific physical properties and functional data of compounds should be added to ECCD to meet the specific screening needs. Thus it provides great convenience for computer-aided molecular design, material surface design, and functional compound structure design.
Keywords: chemical substances inventory ; commercial compounds; physical property data; compound screening
数据库(集)基本信息简介
数据库(集)名称商品化合物数据库
数据作者续冉、赵月红、韩清珍、温浩
数据通信作者赵月红(yhzhao@ipe.ac.cn)
数据时间范围2017–2019年
数据量74 KB
数据格式*.xls
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/914(89个样例数据集)
基金项目国家科技基础条件平台项目,国家基础科学数据共享服务平台,DKA2017-12-02-05;“十三五”院信息化专项,化学学科领域重点数据库建设与应用服务,XXH1350303-103。
数据库(集)组成中国、美国、欧盟现有化学物质名录中的34177种化合物,包含标识信息(CAS登录号、中英文名称、所属名录、化学式、摩尔质量、SMILES码)、理化性质数据(熔点Tm 、正常沸点Tb 、蒸汽压P、密度ρ、表面张力σ、黏度η)和萃取性能(分配系数mij 、选择性βij 、溶解能力SPij 、溶剂损失SLi )。
Dataset Profile
TitleExisting commercial compounds database
Data authorsXu Ran, Zhao Yuehong, Han Qingzhen, Wen Hao
Data corresponding authorZhao Yuehong (yhzhao@ipe.ac.cn)
Time range2017–2019
Data volume74 KB
Data format*.xls
Data service system<http://www.sciencedb.cn/dataSet/handle/914> (89 samples)
Sources of fundingThe National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05); CAS informatization project during the Thirteenth Five-Year Plan – "Key Database Construction and Application Services for the Discipline of Chemistry" (XXH1350303-103).
Database composition34,177 compounds in the existing chemical substances inventories in China, United States, and European Union, including identification information (CAS registration number, Chinese and English names, belonging inventory, chemical formula, molar mass, SMILES code), physical and chemical properties (melting point Tm , normal boiling point Tb , vapor pressure P, density ρ, surface tension σ, viscosity η) and extraction performance (partition coefficient mij, selectivity βij , dissolution capacity SPij , solvent loss SLi ).
引 言
目前许多国家和地区都编制了本国的化学物质管理法规,要求对生产、加工、销售、使用或从国外进口的化学物质进行注册/通报。我国自2003年开始建立并执行新化学物质登记制度[1-2],根据是否列入目录,将化学物质分为现有化学物质和新化学物质。现有化学物质的安全、环境和健康风险已知,对可能出现的危害具有有效的技术手段和监管措施,且可根据CAS登录号获得化合物的化学物质安全技术说明书(Material safety data sheet,MSDS),可为安全生产/储存/运输/使用/处置、泄露应急处理、劳动保护和救护措施等提供指导。
为了便于利用名录中的化合物,中国科学院过程工程研究所基于中国、美国和欧盟的现有化学物质名录,建立了商品化合物数据库(ECCD)。ECCD中除了包含名录中化合物的基本信息外,还根据CAS登录号添加了表征化合物结构信息的mol文件。由于缺乏实验数据,无法满足化合物筛选数据一致性和完备性的要求,我们利用化合物分子结构信息,采用基团贡献法和基团匹配工具CACTVS开发了化合物物性估算程序,进行物性估算,用于扩充化合物的物性信息,包括熔点、正常沸点、密度、黏度等,作为功能化合物筛选的基础数据集。对于有特定功能需求的化合物筛选,可以在基础数据集的基础上,增加专题功能数据。如,为了满足萃取剂筛选的需求,实现煤化工废水中多种污染物的萃取,我们在ECCD库中补充了针对废水中12种典型污染物的萃取性能数据,并进一步开发了基于多物性联合检索的高通量筛选方法。基于ECCD中化合物环境健康风险已知,有可能进一步发现“老”化合物的“新”功能,有利于提高功能化合物开发效率,降低经济和时间成本。
1   数据采集和处理方法
1.1   数据源
目前,世界主要国家和地区的化学物质名录有:中国现有化学物质名录(Inventory of existing chemical substances, IECSC)、美国有毒物质控制名录(The toxic substances control act, TSCA)、欧洲现有商业化学物质名录(European inventory of existing commercial chemical substances, EINECS)、加拿大国内物质清单(Domestic substances list, DSL)、日本现有和新化学物质(Existing and new chemical substances, ENCS)、韩国现有化学物质清单(Korea existing chemical list, KECI)、菲律宾化学品和化学物质名录(Philippine inventory of chemicals and chemical substances, PICCS)、澳大利亚化学物质名录(Australia inventory of chemical substances, AICS)等[3-4]
我们选取了收录化合物数量最多的3个名录,分别是欧洲现有商业化学品名录 (EINECS)[5]、美国有毒物质控制名录(TSCA)[6]和中国现有化学物质名录(IECSC)[7-8]。3个名录中化学物质的数量如表1所示,总共有10万多种化学物质。名录中的化学物质一般包含CAS号、流水号、物质名称和化学分子式等基本信息。为了扩充数据库信息,以支持功能化合物筛选,我们以CAS号为依据从中国科学院上海有机化学研究所获取了化合物的mol文件。排除重复的化合物后,ECCD中共有34177种含分子结构信息的化合物。
表1   3个名录中的化合物情况
名录更新时间物质个数有CAS号有mol文件
EINECS2019~100,000100,20431,773
TSCA2018~84,00067,63516,876
IECSC2018~45,00037,12710,611
1.2   物性数据的计算
为了扩展数据库的应用范围,ECCD添加了化合物的物性数据,包括摩尔质量M、熔点Tm 、正常沸点Tb 、蒸汽压P、密度ρ、表面张力σ和粘度η等。由于实验数据完备性不足,ECCD中的物性数据采用基团贡献法进行估算。现有物性计算方法中,基团贡献法具有适用范围广、计算简单、估算精度误差范围可接受等优点。表2总结了本数据库中采用的物性计算方法[9,10,11 ],包括C-G法、Joback法、GCVOL法和CSGC法。
表2   物性数据的计算方法
物性数据计算方法
熔点TmC-G, Joback
正常沸点TbC-G, Joback
密度ρC-G, GCVOL
蒸气压PCSGC_PRV
表面张力σCSGC_ST1
黏度ηCSGC_VK
物性估算程序包括3个步骤:首先利用Open Babel 2.3.2软件将化合物结构mol文件转化成SMILES码;根据SMARTS码的编码规则,对不同基团贡献法中的基团进行表达。然后利用CACTVS化学工具库[12]进行SMILES码和SMARTS码的匹配,将分子结构拆解成基团。最后采用相应的基团贡献法估算化合物的性质。物性估算程序采用Tcl语言(Tool Command Language)[13]编写,可以实现不同物性估算任务的批处理作业,以及程序与外部数据的连接。
根据不同的化合物筛选需求,用户可以在现有ECCD数据库上的基础上添加专用的物性数据和功能数据,实现相应的功能化合物的筛选。例如,为了将ECCD数据库应用于煤化工废水中多种污染物脱除的萃取剂设计,我们在库中添加了萃取性能数据。考虑到废水中污染物浓度很低,萃取操作液液相平衡计算采用了无限稀活度系数。各候选化合物对12种典型污染物(苯酚、甲基酚、二甲基酚、苯二酚、苯三酚、联苯、三联苯、萘、茚、吡啶、吲哚、喹啉)的分配系数mij 、选择性βij 、溶解能力SPij 、溶剂损失SLi 。萃取性能的计算方法如下:
...(1)
...(2)
...(3)
...(4)
其中,下角标ij分别指萃取剂和污染物,下角标w指水。MwMi 分别是水和萃取剂的摩尔质量。mij 是污染物j在萃取相和水相中的分配系数,βij 是萃取剂i对污染物j和水的选择性,SPij 是萃取剂i对污染物j的溶解能力,SLi 是萃取剂i在水中的溶剂损失。分别是jw中、ji中、wi中和iw中的无限稀释活度系数。
1.3   数据使用的便利化
为了方便使用ECCD进行萃取剂筛选,以SQL Server 2008作为数据库管理系统,在Windows 7环境下,利用C#语言和Visual Studio 2010开发了ECCD的图形用户界面。ECCD的主界面和检索界面如图1和图2所示。


图1   现有商品化合物数据库的登录界面


图2   现有商品化合物数据库检索栏
2   数据样本描述
ECCD采用CAS号作为唯一标识字段,化合物的基本信息、物性数据和功能数据均通过CAS号集成到数据库中。针对不同功能化合物筛选扩充的物性数据表也可以通过CAS登录号集成到ECCD中。表3–5分别是化合物的标识数据表、理化性质数据表和萃取性能数据表。其中各个表包含的信息为:(1)标识数据:CAS登录号、中文名称、英文名称、所属名录、分子式、SMILES码、摩尔质量;(2)理化性质数据:正常沸点、熔点、密度、蒸汽压、黏度、表面张力;(3)萃取性能数据:分配系数、选择性、溶解能力、溶剂损失。
表3   ECCD的化合物标识数据表
字段数据类型含义说明
IDnumint主键非空
CASnvarchar(255)CAS登录号唯一,非空
Name_CNnvarchar(255)中文名称IUPAC命名
Name_ENnvarchar(255)英文名称IUPAC命名
Inventorynvarchar(255)所属名录
MFnvarchar(255)化学式
smilesnvarchar(255)SMILES码
Mfloat摩尔质量单位:g∙mol−1
表4   ECCD的理化性质数据表
字段数据类型含义说明
CASnvarchar(255)外键,CAS登录号唯一,非空
Tbfloat正常沸点单位:K
Tmfloat熔点单位:K
Denfloat密度单位:g∙cm−3
在323.15 K和101.325kPa下
Pfloat蒸气压单位:kPa,在323.15 K下
Vfloat黏度单位:mPa∙s,在323.15 K下
STfloat表面张力单位:N∙m−1,在323.15 K下
表5   ECCD的相间行为参数数据表
字段数据类型含义说明
CASnvarchar(255)外键,CAS登录号唯一,非空
SLfloat溶剂损失摩尔分数,在323.15 K下
mjfloat分配系数在323.15 K下
betajfloat选择性在323.15 K下
SPjfloat溶解能力摩尔分数,在323.15 K下
注:其中j代表不同的污染物,1是苯酚,2是甲基酚,3是二甲基酚,4是苯二酚,5是苯三酚,11是联苯,22是三联苯,33是萘,44是茚,55是吡啶,66是吲哚,77是喹啉。
3   数据质量控制和评估
分子结构和基团的表达以及基团匹配顺序将对拆解结果的正确性产生影响,本库通过对分子mol文件进行了显氢处理,以避免SMILES码因隐氢引起的拆解错误。此外,修改了部分基团的SMARTS码和基团匹配顺序,以保证基团匹配结果的正确性。
无限稀释活度系数采用Dortmund UNIFAC模型[14-15]计算,它改进了活度系数组合项和剩余项,能更好地描述稀释区的真实行为。关联模型参数的数据集来自多特蒙德数据库(Dortmund Data Bank,DDB),关联中不仅使用了汽–液平衡数据,还使用了超额焓、超额等压热容、液–液平衡、共沸、固–液平衡数据、无限稀释活度系数数据,与原始UNIFAC模型相比,Dortmund UNIFAC模型估算精度更高,估算范围更广,预测无限稀释活度系数的误差可比原始UNIFAC模型降低40%–50%[16]
4   数据使用方法和建议
ECCD数据已经在Chem DB存储和发布,并且提供数据查询服务和数据可视化工具。ECCD数据库包括两个账户,管理员账户和普通用户账户。管理员可以实现数据的检索、导入、导出和删除。普通用户可以进行数据的检索和导出。图3是检索后的结果界面。点击图中的“查看”,可以得到基本信息、理化性质和萃取性能。用户可以设定物性约束范围进行检索,批量下载筛选后的结果。本数据库还可以根据不同的体系添加相应的物性数据,更新数据集扩展其应用范围。需要指出的是ECCD系统尚未对外提供服务,如需使用本系统,可联系作者,或从Science Data Bank(http://www.sciencedb.cn/dataSet/handle/914)下载样例数据集(包含89组样例数据)。


 
[1]
国家环境保护总局. 新化学物质环境管理办法. 国家环境保护总局令第17号[EB/OL]. (2003–09–12) [2019–11–26]. http://www.gov.cn/gongbao/content/2004/content_62688.htm.
[2]
环境保护部. 新化学物质环境管理办法. 环境保护部令第7号[EB/OL]. (2010–02–04) [2019–11–26]. http://www.gov.cn/flfg/2010-02/04/content_1528001.htm.
[3]
ChemSafetyPRO. Global Chemical Inventories[EB/OL]. (2019–11–06) [2019–11–26]. https://www.chemsafetypro.com/Topics/Category/Global_Chemical_Inventories.html.
[4]
Chemical Inspection and Regulation Service Ltd. Global Chemical Inventories 2011[EB/OL]. (2011–11–01) [2019–11–26]. http://www.cirs-reach.com/Inventory/Global_Chemical_Inventories.html.
[5]
European Chemicals Agency. EC Inventory[EB/OL]. (2019–10–10) [2019–11–26]. https://www.echa.europa.eu/information-on-chemicals/ec-inventory.
[6]
United States Environmental Protection Agency. TSCA Chemical Substance Inventory[EB/OL]. (2018–10–05) [2019–11–26]. https://www.epa.gov/tsca-inventory.
[7]
环境保护部. 关于发布《中国现有化学物质名录》的公告. 环境保护部公告 2013年第1号[EB/OL]. (2013–01–14) [2019–11–26]. http://www.mee.gov.cn/gkml/hbb/bgg/201301/t20130131_245810.htm.
[8]
生态环境部. 关于增补《中国现有化学物质名录》的公告. 生态环境部公告 2018年第58号[EB/OL]. (2018–11–22) [2019–11–26]. http://www.mee.gov.cn/xxgk2018/xxgk/xxgk01/201811/t20181130_676779.html.
[9]
PRETEL E J, LOPEZ P A, BOTTINI S B, et al. Computer-aided molecular design of solvents for separation processes[J]. AIChE Journal, 1994, 40(8): 1349-1360.
[10]
Poling B E, Prausnitz J M and O’connell J P. The properties of gases and liquids[M]. 5th ed. New York: McGraw-Hill, 2001.
[11]
董新法, 方立国, 陈砺. 物性估算原理及计算机计算[M]. 北京: 化学工业出版社, 2006.
[12]
TORVS Research Team. The CACTVS system home page[EB/OL]. (1996–12–18) [2019–11–26]. http://www2.ccc.uni-erlangen.de/software/cactvs/.
[13]
OUSTERHOUT J K, JONES K. Tcl / Tk 入门经典[M]. 第2版. 张元章, 译. 北京: 清华大学出版社, 2010.
[14]
WEIDLICH U, GMEHLING J. A modified UNIFAC model. 1. Prediction of VLE, hE, and γ[J]. Industrial & Engineering Chemistry Research, 1987, 26(7): 1372-1381.
[15]
CONSTANTINESCU D, GMEHLING J. Further development of modified UNIFAC (Dortmund): Revision and extension 6[J]. Journal of Chemical and Engineering Data, 2016, 61(8): 2738-2748.
[16]
LOHMANN J, JOH R, GMEHLING J. From UNIFAC to modified UNIFAC (Dortmund)[J]. Industrial & Engineering Chemistry Research, 2001, 40(3): 957-964.
数据引用格式
续冉, 赵月红, 韩清珍, 温浩. 商品化合物数据库[DB/OL]. Science Data Bank, 2019. (2019-11-26). DOI: 10.11922/sciencedb.914.
稿件与作者信息
论文引用格式
续冉, 赵月红, 韩清珍, 温浩. 商品化合物数据库[J/OL]. 中国科学数据, 2019. (2019-12-09). DOI: 10.11922/csdata.2019.0076.zh.
续冉
Xu Ran
主要承担工作:商品化合物数据库的创建、物性数据的计算、更新和维护。
(1990—)女,山东临沂人,博士研究生,研究方向为计算化学与化工。
赵月红
Zhao Yuehong
主要承担工作:商品化合物数据库的创建、更新和维护。
yhzhao@ipe.ac.cn
(1973—),男,内蒙古包头人,博士,副研究员,研究方向为计算化学与化工。
韩清珍
Han Qingzhen
主要承担工作:商品化合物数据库的维护。
(1979—)女,山东临沂人,博士,副研究员,研究方向为计算化学与化工。
温浩
Wen Hao
主要承担工作:商品化合物数据库的设计。
(1957—),男,北京人,博士,研究员,研究方向为计算化学与化工。
出版历史
I区发布时间:2019年12月11日 ( 版本ZH2
II区出版时间:2020年6月12日 ( 版本ZH3
参考文献列表中查看
中国科学数据
csdata