其他数据论文 II 区论文(已发表) 版本 ZH4 Vol 6 (3) 2021
下载
中英对照中医药术语数据集
A dataset of Chinese-English terminology of Traditional Chinese Medicine
 >>
: 2021 - 01 - 20
: 2021 - 08 - 21
: 2021 - 04 - 22
: 2021 - 09 - 30
1320 10 0
摘要&关键词
摘要:中英对照中医药术语数据集基于人民卫生出版社(PMPH)制定的《中医英语术语(内部草案)》、世界卫生组织(WHO)制定的《WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region》和世界中医药学会联合会(WFCMS)制定的《International Standard Chinese-English Basic Nomenclature of Chinese Medicine》3个权威术语标准整合而成,旨在促进中医药术语标准化和中医药国际交流。本数据集通过Python pandas包及OCR技术将数据进行采集、清洗、整理、合并,最终分为56类,共整理数据16189条,经合并为8975条。本数据集促进了中医术语的规范化,方便了学术交流和中医的继承发扬,同时有助于中医药信息化建设。
关键词:中医药;术语;中英对照
Abstract & Keywords
Abstract: The dataset is based on an integration of the English Terminology of Traditional Chinese Medicine (Internal Draft) compiled by the People’s Health Publishing House (PMPH), the WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region formulated by the World Health Organization (WHO) and the International Standard Chinese-English Basic Nomenclature of Chinese Medicine produced by the World Federation of Chinese Medicine Associations (WFCMS). It is aimed to promote the standardization of Traditional Chinese Medicine (TCM) terms and international communication of TCM. We adopted Python pandas package and OCR technology to collect and sort 16,189 items, which were merged into 8,975 items, 56 categories. The dataset can promote the standardization of TCM terms, facilitate academic communication, inheritance and development of TCM, and contribute to the informatization construction of TCM.
Keywords: Traditional Chinese Medicine; terminology; Chinese-English
数据库(集)基本信息简介
数据库(集)名称中英对照中医药术语数据集
数据作者梁昊、吴佳泽、段伦慧、彭清华、胡志希、周小青
数据通信作者彭清华(pqh410007@126.com)
数据时间范围2007–2020
地理区域世界各国
数据量1.45 MB
数据格式*.csv
数据服务系统网址http://www.dx.doi.org/10.11922/sciencedb.j00001.00213
基金项目湖南中医药大学教学改革研究项目(2020-JG006);湖南省科技创新计划(2020RC2061)。
数据库(集)组成数据集由1部数据表构成:表中有10个字段,包括ID、中文简体、中文繁体、拼音、WHO英文术语、PMPH英文术语、WFCMS英文术语、术语的英文解释、类别编码、类别名称。共计8975条。
Dataset Profile
TitleA dataset of Chinese-English terminology of Traditional Chinese Medicine
Data corresponding authorPENG Qinghua (pqh410007@126.com)
Data authorsLIANG Hao, WU Jiaze, DUAN Lunhui, PENG Qinghua, HU Zhixi, ZHOU Xiaoqing
Time range2007–2020
Geographical scopeWorldwide
Data volume1.45 MB
Data format*.csv
Data service system<http://www.dx.doi.org/10.11922/sciencedb.j00001.00213>
Source of fundingTeaching Reform Research Project of Hunan University of Chinese Medicine (2020-JG006); Science and Technology Innovation Program of Hunan Province (2020RC2061).
Dataset compositionThe data set consists of one data table of 8,975 items. There are ten fields in the table, including ID, simplified Chinese, traditional Chinese, Pinyin, WHO English terms, PMPH English terms, WFCMS English terms, English explanation, category code, category name.
引 言
为了促进中医药及民族医药的国际化,方便在学术科研、教育教学及经济贸易等领域的沟通交流,中国官方及中医药国际组织一直致力于中医药标准化和规范化。术语规范,尤其是中医药英语术语规范,是中医药标准化进程中最基础、最亟待解决的问题[1]。得益于谢竹藩、帅学忠、李照国等前辈们的不懈努力,多部术语标准先后出版并广泛传播。人民卫生出版社(PMPH)制定的《中医英语术语(内部草案)》、世界卫生组织(WHO)制定的《WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region》和世界中医药学会联合会(WFCMS)制定的《International Standard Chinese-English Basic Nomenclature of Chinese Medicine》是当前知晓度和应用率最高的3个术语标准[2-3]。然而,近几年在阅读文献和教学中发现,学生、中医从业者、科研工作者对中医术语标准的知晓度和使用频率不高[4]。中英文的中医/中西医结合类学术期刊投稿指南鲜有要求投稿时注意术语规范或推荐使用已经发布的术语标准。中医学作为一个偏传统的学科,尚缺乏标准化和规范化意识,在术语使用上较为随意。究其原因,当前这些术语大部分为纸质版或电子书形式,不利于查找[5];另外,3个标准也有差异,虽各有千秋,但也有一些局限性和片面性[6]。因此,我们基于以上术语标准建设中医药术语中英对照数据集,合并词义相同的术语,研究术语差异和建立术语查询系统,为建立更权威、合理、全面的中医药术语数据库打下基础。
1   数据采集和处理方法
1.1   原始数据来源
所有数据来源于人民卫生出版社(PMPH)制定的《中医英语术语(内部草案)》、世界卫生组织(WHO)制定的《WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region》[7]和世界中医药学会联合会(WFCMS)制定的《International Standard Chinese-English Basic Nomenclature of Chinese Medicine》[8]。获得所有中医术语的字段,并进行合并。
1.2   数据采集和处理方法
原始数据为WHO、PMPH、WFCMS 3个标准的书籍或电子文档。把原始数据通过OCR和PDF转化工具整理成规范的数据表(dataframe)格式,命名为WHO.csv、PMPH.csv、WFCMS.csv。将每个数据表每条记录均以术语的中文简体名称作为唯一字段方便进行数据合并,使用Python的pandas包对数据进行合并和清洗。最终合并的数据表字段为:ID、中文简体、中文繁体、拼音、WHO英文术语、PMPH英文术语、WFCMS英文术语、术语的英文解释(基于WHO标准)、类别编码、类别名称。共整理数据16 189条,其中WHO术语3262条,PMPH术语6848条,WFCMS术语6079条(图1)。最终合并为8975条。


图1   数据采集和处理方法流程
1.3   数据规范化处理
为了便于进行归类,我们基于《中华人民共和国国家标准GB/T 13745-2009学科分类与代码》[9]进行了更进一步分类(表1)。部分分类下没有条目,是为了以后填充术语而暂时保留。文档编码为UTF-8,针对生僻字或数据合并后可能出现的乱码,根据原始数据进行修正。每条数据的繁体中文和拼音均使用计算机自动生成,为了避免多音字错误,对一些常见多音字进行了拼音修正。对于某个标准中没有的英文术语,保持该字段为空。只有WHO标准提供了术语的英文解释,对于WHO中没有的术语条目,术语的英文解释字段为空。所有方名、药名均为实体词首字母大写,所有简写均为大写字母,所有穴位名均为大写字母;其余英文术语均为小写。数据集采集和处理由吴佳泽完成(7年编程经验,在GitHub拥有10项开源项目,荣获Arctic Code Vault Contributor,https://github.com/BillEliot)。
表1   术语分类表
分类代码学科分类名称Category数量
360.1011中医基础理论(包括经络学等)Basic theory0
360.1011a学科总论General98
360.1011b阴阳五行Yin yang and five phases130
360.1011c气血津液精神Qi blood fluid essence spirit79
360.1011d藏象Visceral manifestation271
360.1011e形体官窍Body Constituents and Orifices of Sense Organ198
360.1011f经络Meridian and collateral64
360.1011g病因Cause of disease240
360.1011h病机Mechanism of disease575
360.1011i治则治法Rules and methods of treatment765
360.1011j治疗手段Approaches37
360.1014中医诊断学Traditional Chinese diagnostics2
360.1014a诊法总论General of diagnostic method11
360.1014b望诊Inspection232
360.1014c闻诊Listening and smelling57
360.1014d问诊Inquiry300
360.1014e切诊Palpation131
360.1014f辨证总论General of pattern identification7
360.1014g八纲辨证Eight-principle pattern identification97
360.1014h病因辨证Disease cause pattern identification88
360.1014i气血辨证Qi-blood pattern identification47
360.1014j津液辨证Fluid-humor pattern identification30
360.1014k脏腑辨证Visceral pattern identification218
360.1014l六经辨证Six-meridian pattern identification61
360.1014m卫气营血辨证Defense, qi, nutrient and blood pattern identification30
360.1014n三焦辨证Triple energizer pattern identification9
360.1014o其他辨证Other pattern identification13
360.1017中医内科学Chinese internal medicine437
360.1021中医外科学Surgery of Chinese medicine192
360.1024中医骨伤科学Chinese orthopedics and traumatology249
360.1027中医妇科学Chinese gynecology264
360.1031中医儿科学Chinese pediatrics172
360.1034中医眼科学Chinese ophthalmology150
360.1037中医耳鼻喉科学Chinese otorhinolaryngology128
360.1041中医口腔科学Chinese stomatology0
360.1044中医老年病学Chinese geriatrics0
360.1047针灸学(包括针刺镇痛与麻醉等)Acupuncture and moxibustion1
360.1047a针法Acupuncture302
360.1047b灸法Moxibustion64
360.1047c拔罐Cupping25
360.1047d穴位Acupoint606
360.1051按摩推拿学Tuina29
360.1054中医养生康复学(包括气功研究等)Chinese health preservation and rehabilitation98
360.1057中医护理学Chinese nursing0
360.1061中医食疗学Diet therapy of Chinese medicine0
360.1064方剂学Formula study0
360.1064a方剂总论General of formula study204
360.1064b方剂名称Formula name580
360.1067中医文献学Chinese medical literature153
360.1099中医学其他学科Other subjects of Chinese medicine0
360.30中西医结合医学Integration of Chinese and Western medicine0
360.40中药学Chinese pharmacy2
360.40a中药总论General of Chinese pharmacy295
360.40b中药名称Herbal names1234
2   数据样本描述
2.1   数据结构
本数据集包含1张数据表。表中有10个字段,包括ID、中文简体、中文繁体、拼音、WHO英文术语、PMPH英文术语、WFCMS英文术语、术语的英文解释、类别编码、类别名称。每个类别的数据量如表1。
2.2   数据样本展示
以中医术语“关格”为例,表2全面展示了该术语的中英文术语名称和英文解释。归类以类别编码和类别名称表示,可根据表1归类对应。
表2   中医药术语中英对照数据集样本展示
序号说明数据示例
1编号67
2术语名称(简体)关格
3术语名称(繁体)關格
4拼音guān gé
5WHO术语block and repulsion (disease)
6PMPH术语anuria and vomiting
7WFCMS术语anuria and vomiting
8英文解释a diseased state characterized by urinary stoppage and vomiting
9类别编码424.1017
10类别名称中医内科学
3   数据质量控制和评估
在通过Python完成数据合并后,我们依靠人工核对的方式对数据进行修正。由2人首先对数据对应性问题进行核查,保证无串行、错位等现象;然后对照源数据对数据转化中出现的乱码分别进行修复;重点核对生僻字和多音字条目的拼音。对于源数据中本身就是乱码,无法进行核实的,暂时保留,待以后通过其他途径核查条目确认后再进行修改。对于名称不同,但意思相同的术语,暂不合并,全部视为不同记录,予以保留。同时,以Vue.js + Django为基础框架搭建了在线检索网站(https:// medai.vip)。在网站中检索术语时,若使用者发现错误的条目,可以直接点报错(图2),我们在系统后台定期进行修正。质控人员为梁昊(本科毕业于湖南中医药大学医学英语专业,从事中医英译工作10年)和周小青(曾任世界中医药学会联合会翻译专业委员会副会长,长期从事中医英译工作)。


图2   中医术语中英对照查询系统术语报错演示
4   数据使用方法和建议
本数据集以csv文件为存储格式,使用者可以使用主流的数据管理及统计软件来对数据进行修改和查看,尤其方便利用Python和R语言对术语进行文本分析和处理。同时,基于本数据集搭建了术语检索系统(https://www.medai.vip),可以在该网站上随时检索术语。任何组织和个人可以以非商业目的使用本数据集,如搭建自己的术语库或术语检索系统。
5   数据价值
国内目前未见相似中英对照中医术语数据集。随着中医在全球的发展,国家对发展中医药的支持,国外对中医的了解需求日益增加。但由于种种原因的限制,不能及时查阅到中医术语对应的英文,导致国内外中医爱好者、学习者在学习交流的过程中,存在交流障碍,限制了中医对外发展及中医的对外交流。本数据集的公开,方便了中医从业者查询术语,促进了中医术语的规范化应用,有利于学术交流和中医的继承发扬。同时,标准化的术语也方便了中医药信息化建设,尤其是在HIS、电子病历系统、医学数据分析系统中,让数据更加整洁,避免产生垃圾数据,减少不必要的数据清洗工作。与此同时,中医药领域开源的数据集稀少,不利于科学研究的开展和共享,本数据集的发布也是中医药开源模式的一次尝试,希望同行能够分享更多数据集,促进中医药的开放与发展。
[1]
贾静, 赵海磊. 中医术语英译标准的研究现状[J]. 临床医药文献电子杂志, 2016, 3(54): 10859–10860. DOI:10.16281/j.cnki.jocml.2016.54.138.
[2]
付甜甜, 都立澜, 刘艾娟. 基于WHO版和世中联版两大国际标准的中医病机术语英译对比研究[J]. 中国中医基础医学杂志, 2016, 22(2): 252–254.
[3]
李珊珊. 浅析世中联与WHO中医名词术语英译国际标准[J]. 2016(4): 82–83. DOI:10.3969/j.issn.1009-5349.2016.04.038.
[4]
徐丽, 张喆, 闵玲, 等. 中医术语英译标准的回顾与前景[J]. 西部中医药, 2021, 34(3): 158–162. DOI:10.12174/j.issn.2096-9600.2021.03.40.
[5]
董燕,朱玲,于彤,崔蒙,李海燕.中医临床术语研究现状与系统构建方法探讨[J].国际中医中药杂志,2014,36(11):965–968.
[6]
许吉, 施毅, 袁敏, 等. 中医术语国家标准比较研究[J]. 时珍国医国药, 2015, 26(9): 2294–2295. DOI:10.3969/j.issn.1008-0805.2015.09.096.
[7]
World Health Organization. WHO international standard terminologies on traditional medicine in the western pacific region[M]. Geneva: WHO, 2007.
[8]
Zhenji. International standard Chinese-English basic nomenclature of Chinese medicine[M]. Beijing: Peoples Medical Publishing House, 2008.
[9]
中华人民共和国国家质量监督检验检疫总局, 中国国家标准化管理委员会. 学科分类与代码: GB/T 13745—2009[S]. 北京: 中国标准出版社, 2009.
数据引用格式
梁昊, 吴佳泽, 段伦慧, 等. 中英对照中医药术语数据集[DB/OL]. Science Data Bank, 2021. (2021-04-22). DOI: 10.11922/sciencedb.j00001.00213.
稿件与作者信息
论文引用格式
梁昊, 吴佳泽, 段伦慧, 等. 中英对照中医药术语数据集[J/OL]. 中国科学数据, 2021, 6(3). (2021-08-25). DOI: 10.11922/csdata.2021.0009.zh.
梁昊
Liang Hao
主要承担工作:数据源搜集、数据集设计、论文写作。
(1986—),男,河北保定人,博士,讲师、主治医师,研究方向为医学人工智能。
吴佳泽
Wu Jiaze
主要承担工作:数据清洗、合并,术语系统开发。
(1999—),男,河北保定人,本科生在读,研究方向为医学数据挖掘。
段伦慧
Duan lunhui
主要承担工作:数据核查,论文写作。
(2000—),女,湖南常德人,本科生在读,研究方向为医学数据挖掘。
彭清华
Peng Qinghua
主要承担工作:组织数据集构建,修改论文。
pqh410007@126.com
(1965—),男,湖南望城人,博士,教授,研究方向为数字中医药。
胡志希
Hu Zhixi
主要承担工作:修改论文。
(1962—),男,湖南娄底人,博士,教授,研究方向为中医药标准化。
周小青
Zhou Xiaoqing
主要承担工作:修改论文。
(1957—),男,湖南浏阳人,博士,教授,研究方向为数字中医药。
出版历史
I区发布时间:2021年4月22日 ( 版本ZH3
II区出版时间:2021年9月30日 ( 版本ZH4
参考文献列表中查看
中国科学数据
csdata