数据论文 I 区论文(评审中) 版本 ZH2
下载
基于化合物分子结构的量化计算结果数据库
A database of quantum chemical calculation results based on compounds molecular structure
 >>
: 2018 - 06 - 08
: 2018 - 08 - 02
: 2018 - 08 - 02
1361 16 0
摘要&关键词
摘要:目前,大量已知结构的化合物缺乏基本物性数据和热动力学数据。为了进一步提高化学数据库中数据的完备性和拓展使用性,本数据库利用Gaussian03和Gaussian09软件程序基于化合物结构数据库以及化合物基本信息资源对约20万个化合物的结构进行了数据分析和量化几何结构优化、光谱和频率以及热动力学计算模拟,并对量化计算结果文件按国际标准分别提取了化合物物种及相应的红外吸收光谱、偶极矩、绝对极化率、转动温度及转动常数、零点振动能、零点校正、分子内能、焓、自由能、分子动能、等容热熔、熵等热动力学参数及其计算谱图数据等。经数据分析、挖掘和查重等二次加工处理后得到18000个化合物的量化计算结果数据(其中5321个化合物含有谱图数据)。为了提高数据的可使用性,本数据库对所有结果数据都进行了规范化和使用便利化加工处理。
关键词:化合物结构;量化计算;数据分析加工;热动力学数据;谱图数据
Abstract & Keywords
Abstract: At present, a large number of compounds of known structure lack basic physical property data. In order to promote data integrity and usability in chemistry repositories, the study calculates the structure of about 200,000 compounds using Gaussian03 and Gaussian09 software programs based on compounds structure data and compounds profiles. Meanwhile, the study performs geometric structure optimization, thermodynamic data analysis, and spectrum analysis,. Then, compound species, together with their thermodynamic parameters and spectrum data, are extracted from quantum calculation results according to international standards, including infrared absorption spectrum, dipole moment, absolute polarizability, turning temperature and constant, zero-point vibrational energy, zero-point correction, molecular internal energy, molecular kinetic energy, enthalpy, free energy, heat capacity at constant volume, and entropy. A second processing (i.e., data analysis, mining and duplicate checking) results in quantum chemical calculation data of 18000 compounds (including spectrum data of 5321 compounds). To improving data reusability, all the resulted data have been standardized and processed for easier reuse.
Keywords: compounds structure; quantum chemical calculation; data analysis and processing; thermodynamic data; spectrum data
数据库(集)基本信息简介
数据库(集)名称量化计算结果数据库
数据作者韩清珍、赵月红、温浩
数据通信作者韩清珍(qzhan@ipe.ac.cn
数据时间范围2015–2017年
数据量766 KB
数据格式*.xls
数据服务系统网址http://www.sciencedb.cn/dataSet/metaData/630
基金项目国家科技基础条件平台项目,国家基础科学数据共享服务平台,DKA2017-12-02-05;“十三五”院信息化专项,化学学科领域重点数据库建设与应用服务,XXH1350303-103
数据库(集)组成数据集由13部分数据组成:一是偶极矩数据,二是绝对极化率数据,三是相对极化率数据,四是转动温度数据,五是转动常数数据,六是零点振动能数据,七是零点校正数据,八是热能数据,九是热焓数据,十是热自由能数据,十一是总分子动能数据,十二是等容热熔数据和十三是熵数据。数据集包括1个数据文件:Quantumdata.zip。
Dataset Profile
TitleA database of quantum chemical calculation results
Data authorsHan Qingzhen, Zhao Yuehong, Wen Hao
Data corresponding authorHan Qingzhen (qzhan@ipe.ac.cn)
Time range2015 – 2017
Data volume766 KB
Data format*.xls
Data service system< http://www.sciencedb.cn/dataSet/metaData/630>
Sources of fundingThe National R&D Infrastructure and Facility Development Program of China, Fundamental Science Data Sharing Platform (DKA2017-12-02-05);
CAS informatization project during the Thirteenth Five-Year Plan – "Key Database Construction and Application Services for the Discipline of Chemistry" (XXH1350303-103).
Database compositionThe dataset consists of 13 subsets in total: Dipole moment (Debye), Exact polarizability, Approx. polarizability, Rotational temperatures (Kelvin), Rotational constants (GHZ), Zero-point vibrational energy (kJ/mol), Zero-point correction (Hartree/Particle), Thermal energy (kJ/mol), Thermal enthalpy (kJ/mol), Thermal free energy (kJ/mol), Total molecular kinetic energy (kJ/mol), CV (J/Mol-Kelvin), S (J/Mol-Kelvin). The database contains one compressed data file titled Quantumdata.xls, which stores thermodynamic chemical properties data resulted from quantum calculation.
引 言
近年来,随着新材料需求的扩大和研发能力的提高,具有各种特定性能、面向不同需求的各种结构的材料不断出现,但这些材料及其相关衍生物的许多热动力学性质却都不够详细,形成了大量已知结构的化合物缺乏物性基本数据及其相关热动力学数据的局面。如果将目前化学主题数据库中已知结构信息的化合物进行量化计算分子模拟,将量化计算获得的热动力学数据和谱图数据提取整理成数据库,将对化工模拟和材料分子设计行业的研发人员的查询使用提供极大方便。因此开发建设量化计算结果数据库对于化工模拟行业和材料设计的相关行业发展都具有重要意义。
量化计算结果数据库的数据收集是出于化工模拟和材料设计的需求而进行的,这些数据几乎没有文献数据或者很难用实验手段获得。因此采用可靠性较好的量化计算方法模拟出结果,一方面经过不断的计算模拟检验,另一方面在化工模拟、分子设计和水污染处理、空气净化等领域推广使用,逐渐形成一个类似查询工具包的数据包免费提供给用户使用。量化计算结果数据库收集了化学主题数据库中已知分子结构的化合物量化计算结果的热动力学数据和红外谱图数据等,并逐渐建成一个信息数据比较完备的数据管理与信息服务系统,实现网络服务和信息查询,并成为集成在化学主题数据库(ChemDB)内的一个附属子库,提供网络化管理和Web化数据共享平台。
1   数据采集和处理方法
1.1   数据预处理
首先利用open babel软件将化学主题数据库中的化合物结构mol文件或者sdf文件转换为高斯计算软件的输入格式文件,进一步运用批处理命令将量化计算拟采用的杂化泛函模型、基组和电荷、自旋多重度等计算命令行和分子结构相关信息写入文本,生成分子结构优化、频率分析、电荷分布分析和相关热动力学参数分析以及等光谱计算和频率分析的高斯计算输入文件。
1.2   热动力学数据计算方法
使用Gaussian03[1] 和Gaussian09[2]软件包,采用密度泛函理论B3LYP/6-31G基组[3],设定体系温度T=298.15 K,压强P=101.3 kPa,对所有输入文件的化合物进行结构优化和频率计算分析,得到优化几何构型及其完整的化合物热动力学参数,运用批处理程序寻找正常收敛结束的输出结果文件,提取化合物的物种,得到优化几何构型及其完整化合物热动力学参数信息,利用C语言编辑的批处理程序提取化合物的偶极矩、绝对极化率、相对极化率、转动温度及其转动常数、零点振动能、零点校正、分子热能、焓、自由能、分子动能、等容热熔、熵等热动力学参数信息(见表1),并将其进行物理量的标准单位转换和规范化处理[4],生成对应的表格,上传到量化计算结果数据库,并实现在线服务,具体流程见图1。
表1   化合物热动力学参数及其单位
物理量符号及定义SI单位
偶极矩Dipole Moment(μ)Debye
绝对极化率Exact Polarizability
相对极化率Approx Polarizability
转动温度Rotational TemperaturesK
转动常数Rotational ConstantsGHZ
零点振动能Zero-point Vibrational EnergykJ∙mol−1
零点校正Zero-point CorrectionHartree/Particle
分子热能Thermal EnergieskJ∙mol−1
分子反应焓Thermal EnthalpieskJ∙mol−1
分子反应自由能Thermal Free EnergieskJ∙mol−1
分子总动能Total Molecular Kinetic Energy (298.15K)kJ∙mol−1
qQJ
wWJ
内能J
J
热力学温度TK
J∙K−1
Gibbs自由能J
等压热熔J∙K−1
等容热熔J ∙mol−1∙K−1
热熔比
压缩因子
化学势J∙mol−1
标准化学势J∙mol−1
反应的标准Gibbs自由能J∙mol−1
反应亲和势J∙mol−1
反应的标准焓J∙mol−1
反应的标准熵J∙mol−1∙K−1
平衡常数


图1   量化计算结果数据库的计算和实现流程概图
1.3   光谱数据计算方法
对所有编译后的化合物结构输入文件进行光谱计算分析,得到优化几何构型及其完整的红外谱图数据(见表2),运用批处理程序寻找正常收敛结束的结果输出文件,提取化合物物种,并利用GaussSum程序提取这些化合物的振动频率及相应的红外吸收光谱数据,使用gnuplot作图软件对其进行批处理作图,生成Spectum.zip文件,将结果文件上传到量化计算结果数据库实现在线服务和运行。
表2   光谱数据及其单位
物理量符号及定义SI单位
波长λm
折射率
频率Hz
圆频率, 角频率ω = 2πνs−1, rad∙s−1
波数m−1
m−1
Planck常数hJ∙s
吸收比, 吸收因子
吸光度
跃迁波数m−1
跃迁频率Hz
电子项m−1
振动项m−1
转动项m−1
转动常数m−1
Hz
非对称参数
谐振动波数 ; m−1
分子电偶极矩C∙m
分子磁偶极矩J∙T−1
分子跃迁偶极矩C∙m
振动力常数J∙s−2
可变
可变
化学位移, δ
1.4   数据使用的便利化
量化计算结果数据库为集成在化学主题数据库(ChemDB)内的一个子库,提供了多样化的检索手段,来自世界各地的用户都可以通过Internet和Web浏览器方便快捷地获取所需数据。为了与之前的化学主题数据库统一标识,量化计算结果数据库采用ID、CAS RN、InChIKey以及化合物参考库登录号(SRN)作为化合物的标识信息,其存储及获取方式见表3。
表3   各种标识的存储及获取方式
外文词存储及获取方式
ID化合物ID来源于化合物自身的CAS RN,并经过校验码检查确认其正确性。对于部分无法确定CAS RN的化合物,采用B加流水号的方式存储,如“B2000166”。
CAS RN化合物ID映射化学主题数据库的ID 和CAS RN收集自各种资料,并经过校验码检查确认其正确性。
InChIKey化合物ID映射数据库使用国际纯粹与应用化学联合会的共享软件InChI Software Version 1.02由化合物结构生成化合物的InChIKey标识。
SRN化合物参考库登录号(SRN)生成自化合物参考库的化合物结构登录系统,是一个十进制整数,由本体部分和个位的数字校验码1组成,用以代表化合物ID映射数据库中的一个化合物。
注1:SRN校验码使用ISO 7064:1983标准的Mode 11 校验码计算方法。
2   数据样本描述
目前已计算化合物结构约200000余个,收集相关热动力学数据25000余条。使用数据库前端应用程序已录入分子结构量化计算结果化学数据约18000条,且服务器量化计算仍在不断进行中,数据量仍在持续不断增长中。
基于量化计算结果数据库的内容,确定数据库(元)数据的基本元素需求,作为数据库结构设计的主要参考。其中,著录结构是经仔细分析确认的数据库数据著录所需元素及元素的先后排序,各项说明见表4。
需求元素设置表主要是把数据库所需要的字段经系统化、结构化之后,列成表格进行数据库结构分析和设计,以及撰写程序时参考使用,见表5。需求元素设置表各项说明如下:
元素中文名称:数据库所需字段的中文名称。
元素英文名称:数据库所需字段的英文名称。
数据类型:int 存放纯数字型态的数据;text、varchar 存放文字型态的数据;其它数据类型。
大小:元素所需之空间,以byte为单位。一个英文字符或一个阿拉伯数字需用一个byte表示,而一个汉字字符则需两个byte表示。
表4   数据库著录结构
著录项范例说明
化合物结构OseChemX C.20110210.111413.257D
8 8 0 0 0 0 0 0 0 0999 V2000
0.0000 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-1.2124 0.7000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-2.4249 0.0000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-3.6373 0.7000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-3.6373 2.1000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-2.4249 2.8000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
-1.2124 2.1000 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0
1.2124 0.7000 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0
1 2 1 0
2 3 1 0
3 4 2 0
4 5 1 0
5 6 2 0
6 7 1 0
2 7 2 0
1 8 2 0
M END
以MOL文件格式为例
化合物英文名称benzaldehyde非必须
化合物中文名称苯甲醛必须
化合物分子式C7H6O非必须
CAS RN100-52-7非必须
内部编号E-PN-001必须
表5   需求元素表
元素中文名称元素英文名称数据类型长度
化合物结构Str_compoundImage
化合物InChI_KeyInChI_Keyvarchar27
化合物InChI码InChItext
分子式Formulavarchar100
中文名称Name_CNvarchar100
英文名称Name_ENvarchar150
中文别名OthName_CNtext
英文别名OthName_ENtext
化合物CAS登录号CASRNint10
内部idIDvarchar25
分子量Mol_weightfloat
吉布斯自由能Gfloat
偶极矩Dipolefloat
绝对极化率Exact Polarizabilityfloat
相对极化率Approx Polarizabilityfloat
转动温度Rotational Temperaturesfloat
转动常数Rotational Constantsfloat
零点振动能Zero-point Vibrational Energyfloat
零点校正Zero-point Correctionfloat
分子热能Thermal Energiesfloat
分子反应焓Thermal Enthalpiesfloat
分子反应自由能Thermal Free Energiesfloat
分子总动能Total Molecular Kinetic Energy (298.15K)float
热力学温度Tfloat
Sfloat
等容热熔Cvfloat
3   数据质量控制和评估
量化计算结果数据库采集的基本原则和策略是针对所收集数据的可靠性,对化合物结构的量化计算均采用已经成熟且经过实验结果验证可靠的理论方法和计算模型。数据收集中,对有明显错误或不符合物理化学基本规律的计算数据亦予以剔除。整体批量的数据输入、数据更新和处理的频度约为半年一次,手工输入则按月进行。
量化计算结果数据库对数据要求的制约基本内容包括:
1. 时间范围约定:在100小时内收敛结束的化合物结构量化计算结果。
2. 学科范围约定:主要来自化学主题数据库化合物结构。
3. 数据量:目前已积累大约18 000条数据,且服务器正在持续计算中,数据来源丰富。
4. 数据精度约定:通常为小数点后5位有效数字。
5. 语言约定:英语、中文。
6. 数据类型约定:数据库数据的基本类型为文本、数字、图片、自定义的二进制格式等。
目前,数据库的输入输出的数据类型为文本、数字和图片类型以及自定义二进制格式,类型与数值都在数据库系统的正常允许范围之内。量化计算优化好的结果数据筛选提取出来后先使用EXCEL进行数据整理,为了保证数据质量,统计整理后的数据要求能够排除输入错误、类型错误,并能够进行部分数据转换功能。
4   数据使用方法和建议
量化计算结果数据库资源的数据描述共计13个子类,分别为偶极矩(Dipole Moment),精确极化率(Exact Polarizability),相对极化率(Approx Polarizability),转动温度(Rotational Temperatures),转动常数(Rotational Constants),零点振动能(Zero Point Vibrational Energy),零点校正(Zero Point Correction),热能(Thermal Energies),热焓(Thermal Enthalpies),自由能(Thermal Free Energies), 总分子动能(Total Molecular Kinetic Energy),等容热熔(CV)和熵(Entropy),另外还提供部分结构的红外谱图(Infrared Spectrum)。用户可以利用化合物的CAS号、结构、SRN或者InChIKey码查询其相应的上述热动力学计算结果数据(如图2所示),而不需要自己进行繁琐的分子结构模型构建、计算分析和结果提取等,这对新材料的评估分析、结构设计以及化学化工应用等都是十分便利的。


图2   氮化硼的量化计算热化学性质数据的检索结果界面
量化计算结果数据可通过化学主题数据库页面(http://www.chemdb.csdb.cn)访问。
[1]
Frisch M J, et al. Gaussian 03, Revision B.03[M]. Pittsburgh, PA: Gaussian Inc, 2003.
[2]
Frisch M J, et al. Gaussian 09, Revision A.02[M]. Pittsburgh, PA: Gaussian Inc, 2009.
[3]
Becke A D. Density-functional thermochemistry. III. The role of exact exchange[J]. J. Chem. Phys. 1993, 98: 5648-5652.
[4]
姜璐璐. 基于ChDR本体的化学数据资源集成的研究[D]. 北京: 中国科学院大学, 2015.
数据引用格式
韩清珍, 赵月红, 温浩. 量化计算结果数据库[DB/OL]. Science Data Bank, 2018. (2018-07-20). DOI: 10.11922/sciencedb.630.
稿件与作者信息
论文引用格式
韩清珍, 赵月红, 温浩. 基于化合物分子结构的量化计算结果数据库[J/OL]. 中国科学数据, 2018. (2018-07-31). DOI: 10.11922/csdata.2018.0037.zh.
韩清珍
Han Qing-zhen
主要承担工作:量化计算结果数据库的创建、量化数据的计算分析、更新和维护。
qzhan@ipe.ac.cn
(1979—)女,山东临沂人,博士,副研究员,研究方向为计算化学与化工。
赵月红
Zhao Yuehong
主要承担工作:量化计算结果数据库的创建和运营维护。
(1973—),男,内蒙古包头人,博士,副研究员,研究方向为计算化学与化工。
温浩
Wen Hao
主要承担工作:量化计算结果数据库的开发。
(1957—),男,北京人,博士,研究员,研究方向为计算化学与化工。
出版历史
I区发布时间:2018年8月2日 ( 版本ZH2
II区出版时间:2018年9月29日 ( 版本ZH3
参考文献列表中查看
中国科学数据
csdata