数据论文 I 区论文(评审中) 版本 ZH3
下载
南京百年人物数据集
A dataset of Nanjing's centennial figures
 >>
: 2020 - 01 - 13
: 2020 - 01 - 15
: 2020 - 01 - 15
385 3 0
摘要&关键词
摘要:人物数据集是信息化时代历史人物研究的重要基础。本数据集以《南京百年城市史·人物卷》为主要数据源,包含126位在政治、教育、科技、文学和艺术等领域具有重大影响力的南京籍和客籍历史人物信息,包含人物的通用名称、别名、生卒时间、出生地、经历、人物关系等数据项。本数据集可为南京历史人物信息查询和统计、人物关系可视化和分析及人物生平地图等研究提供数据基础,促进南京历史文化的深入挖掘和利用。
关键词:历史GIS;人物数据库;时空数据;历史文化;南京
Abstract & Keywords
Abstract: Character dataset is an important basis for the study of historical figures in the information age. This dataset takes Nanjing Centennial City History, Volume of People as the main data source, including the information of 126 Nanjing and guest historical people with great influence in the fields of politics, education, science and technology, literature and art, which contains data items such as the common name, alias, birth and death time, birthplace, experience, and relationship with people. This dataset can provide data basis for the research of Nanjing historical figures information query and statistics, figure relationship visualization and analysis, figure life map, etc., and promote the in-depth mining and utilization of Nanjing history and culture.
Keywords: historical GIS; database of figures; spatio-temporal data; history and culture; Nanjing
数据库(集)基本信息简介
数据库(集)名称南京百年人物数据集
数据作者郭畅,胡迪,杜晓晗,李岱蔚,杨逸尘
数据通信作者胡迪(hud316@gmail.com)
数据时间范围1912–2012年
地理区域中国江苏省南京市
数据量126条,126个
数据格式*.xlsx,XML
数据服务系统网址http://www.sciencedb.cn/dataSet/handle/937
基金项目国家自然科学基金(41771421、41601421);江苏高校品牌专业建设工程资助项目。
数据库(集)组成数据集由126位南京杰出历史人物的人物信息数据组成,包括通用名称、别名、出生时间、出生地点、逝世时间、逝世地点、人物经历、人物关系等数据项。Excel格式文档供普通用户使用,XML格式文档供专业用户使用。
Dataset Profile
TitleA dataset of Nanjing’s centennial figures
Data authorsGuo Chang, Hu Di, Du xiaohan, Li daiwei, Yang yichen
Data corresponding authorHu Di(hud316@gmail.com)
Time range1912–2012
Geographical scopeNanjing City, Jiangsu Province
Data volume126 rows, 126 documents
Data format*.xlsx,XML
Data service system<http://www.sciencedb.cn/dataSet/handle/937>
Sources of fundingNational Nature Science Foundation of China (41771421, 41601421); Top-notch Academic Programs Project of Jiangsu Higher Education Institutions (TAPP).
Dataset compositionThe dataset consists of the information data of 126 outstanding historical figures in Nanjing, including common name, alias, time of birth, place of birth, time of death, place of death, experience of figures, relationship of figures, etc. Documents in Excel format are for ordinary users, while documents in XML format are for professional users.
引 言
古往今来,历史人物一直是历史研究者们所关注和研究的重要对象[1]。研究历史人物有助于再现历史舞台,对历史进行再诠释,从而达到鉴古、察今、知来的目的。历史人物的活动受客观社会环境制约,因此,历史人物背后不单是个人的历史,而是包含了一定时空范围内的社会政治和文化背景的大历史[2]。这方面的数据通常收录于书籍报刊等纸质资料中,零散且更新速度缓慢[3]。随着科技的发展,人物数据库应运而生,它对在某一方面乃至多个方面对人类社会做出特殊贡献的典型人物的相关信息进行集中的计算机管理[4]。建立人物数据集能够以人物为中心整合相关信息,更新周期短,可以满足更加深入的历史人物研究的需求。
目前的人物数据库根据研究对象的不同可以分为两类:单一人物数据库和群体人物数据库。单一人物数据库从多种信息来源采集研究对象的所有相关资料[5],并对其进行合理罗列。数据格式涵盖文本、图片、音频、视频、网页、地图等多种形式[6-7]。其中较为典型的是蒋介石资料数据库,该数据库收录的资料相当丰富,涵盖了研究对象一生的各个方面[8]。群体人物数据库是以一定的时间或空间为范围,将在此范围内且具有某类特征的人物作为研究对象形成的数据库。国外具有代表性的这类数据库是英格兰圣公会神职人员数据库和ASP世界历史人物索引库。前者收录了研究对象的任职时间、职务详情等信息,后者记录了世界历史事件所发生的第一个人物的信息,包括个人信函、日记、口述历史等[9]。国内应用较多的有中国历史人物传记数据库(China Biographic Database,CBDB),其中包含人名、生卒年等数据项[10-11]。CBDB分为线上和Access两种查询系统,它提供多个相互关联的表格,可以将人物信息整理出来,以便学者进行批量分析[12]。另一个著名的人物数据库为湖南近代人物资源库,它包含了高级的检索功能,可以让用户在使用时根据自己的特殊研究需求获取相应的信息[13-14]
南京钟灵毓秀,是著名的文化古都,有着重要的历史地位。自1927年被设为中华民国首都开始,南京市在近百年来飞速发展。在这段历史时期内,政治、教育、科技、文学和艺术等各方面都涌现出了一批杰出的人才,他们为南京的发展做出了重要的贡献,是南京城市史不可或缺的基本构成要素,反应了南京的历史及其特色。建立南京地方人物数据集不仅能够为南京历史人物的进一步研究提供帮助,更能进一步完善中国人物数据库,为历史文化传承做出贡献。因此,本文以1912–2012年南京杰出历史人物为研究对象,查阅并收集有关数据,将所有历史人物数据保存为Excel电子表格和XML两种格式的数据,以便进行更深层次的分析和可视化研究。
1   数据采集和处理方法
1.1   数据来源
本数据集的主要数据来源是《南京百年城市史·人物卷》[15]。该书为南京市档案局(馆)和南京大学中华民国史研究中心合作,组织广大学术力量所研究编著的“南京百年城市史”丛书的第十三卷。该系列丛书通过从多角度展现了1912–2012年这一百年里南京城市建设、经济发展、社会转型、文化繁荣的历史进程。其中人物卷记录了这期间有着突出贡献或模范事例的南京名人,从这些为南京建设倾注心血的有识之士的角度剖析了南京百年变迁的过程。
《南京百年城市史·人物卷》以文字描述的形式,详细记录了南京百年历史名人的生平事迹(图1),对此进行进一步研究和归纳后可知,其包含的历史人物信息组成包括:人物姓名、人物类别、曾用名、字、号、籍贯、出生日期、逝世日期、出生地点;入学时间、入学地点、入读专业、所学成果;居住地点、入住时间;历史事件名称、历史事件内容、历史事件发生地点;工作名称、入职时间、所属单位、工作地点;相关人物、结识时间、结识地点、人物关系;文学作品、建筑成果、艺术作品、政治成就、赛事成就、宗教活动、医学成果、科技成果、教育成果、**活动以及各类成果和成就发生的时间和影响。




图1   《南京百年城市史·人物卷》
1.2   数据特征分析
本数据集收录的信息主要反映人物自身信息。学者普遍认为,每个人都具有生物属性、社会属性和精神属性,这些属性与时空交织在一起,衍生出一系列的人物信息。对此,我们可以将其分为特征信息、时间信息和空间信息(表1)。
(1)特征信息
特征属性是人物最重要的属性,它是人物本身所特有的、将其与其他人物区别开的属性,包括姓名、别名、人物类型、性别、民族、特征标签、人物关系等。
(2)时间信息
在一维的、单向的时间轴上,历史人物信息通过离散的时间点来记录人物数据的变化,包括属性范围的变化、历史事件的发展和实体的消亡等。
除去特征信息,剩余的人物信息几乎都具有时间特征,如出生时间、逝世时间、历史事件发生时间等,这些历史人物信息内容以时间为轴,展示了不同的历史人物一生的发展过程。
(3)空间信息
基础历史地理的数据可抽象为三种基本的图形要素,即点、线、面三种基本空间图形。由于历史人物信息的侧重点不同,并且存在空间信息丰富度不足的问题,因此空间中只需要表达历史人物信息的点的几何图形。
历史人物信息中具有空间特征的信息包括籍贯、出生地点、学校地点、工作地点、居住地点、历史事件发生地点和相关人物结识地点,此外还包括由这些信息而衍生的活动地点的坐标信息和所属的行政区划(都以现存的空间信息为准)。
其中较为特殊的是经历属性,它同时具有时间信息和空间信息,属于多重属性,需要通过地点、时间、事件等多个对象来表示[16]
表1   人物信息内容分析
信息类型信息内容
特征信息姓名、别名、人物类型、性别、民族、特征标签、人物关系……
时间信息出生时间、逝世时间、历史事件发生时间……
空间信息籍贯、出生地点、学校地点、工作地点、居住地点、历史事件发生地点……
1.3   数据采集与处理
本数据集属于南京地方人物数据集,所收录的人物采取以下两条标准:第一种,人物的籍贯(出生地)为南京;第二种,人物的活动或影响地点为南京。在中国社会中,人们对籍贯有着强烈认同,采用籍贯作为人物收录标准强调了血缘、地缘性[17]。以活动和影响点作为人物收录标准则强调了社会性,不管人物来自何方,一律以是否在南京产生过作用、具有影响作为标准。两种收录方法相结合,对人物的选择更有包容性,提供的信息更完整。
本数据集采用人工电子化录入的方法进行数据采集。同时通过对人物传记、南京大学校史、南京师范大学校史、河海大学校史等资料的查阅,对缺失信息进行了补充和完善,不可考信息以“无数据”代替。
本数据集包含通用名称、别名、类型、出生时间、出生地点、逝世时间、逝世地点、特征标签、主要经历等数据项。
每个人物都有唯一对应的人物编码,即标识符,其命名格式为6位字母加6位数字。六位字母RWNJBN中前2位表示该数据集为人物数据集,后四位取自主要数据源《南京百年城市史·人物卷》的书名前4个字的拼音首字母。6位数字则表示人物序号,其顺序采用《南京百年城市史·人物卷》中的顺序。
《南京百年城市史·人物卷》将书中涉及的历史人物分为11类,具体类型如表2所示。
表2   南京百年人物类型
人物类型人物数量人物类型人物数量
城市领导者18史哲名流10
城市建设者13宗教名人5
文教名家13中西名医5
科技栋梁23体育名宿5
文学巨匠9外籍友人8
艺术大师17
在Excel格式的数据集中,主要经历数据项指该历史人物主导或参与的、发生于南京或对南京产生较大影响的事件。而经历数据包含地点、时间和事件等多重时空属性,故在XML文件中采用时态点作为数据单位进行表达。本数据集对人物所参与的历史事件进行了命名,其通用名称为该历史事件最常用的名称,一般以动宾结构短语高度概括事件内容。该信息主要可用于人物生平地图绘制。
特征标签为描述历史人物主要特征的简短文字[16],提取自《南京百年城市史·人物卷》中各个历史人物的章节标题和人物综述中的评价。
除上述数据项外,XML格式的数据集还包含了人物关系数据项。根据历史人物与关联对象有无婚姻或血缘关系,人物关系可分为亲属关系和社会关系。亲属关系可进一步分为父–子、母–子、夫–妻等,社会关系可进一步分为同事、师生、朋友等。具体类型如表3所示。该信息主要可用于人物关系图谱生成。
表3   人物关系类型
人物关系亲属关系父–子
兄–弟
夫–妻
其他亲属关系
社会关系同事
师生
朋友
其他社会关系
2   数据样本描述
本数据集采用Excel电子表格和XML文件两种数据存储载体。其中Excel电子表格对人物信息进行了合理罗列,可供普通用户进行简单的查询和统计分析。而XML文件不仅易于在任何应用程序中读写数据,便于进行数据交换,而且能够更好地表达人物相关的时空信息、人物关系以及多属性和层次嵌套关系,可支撑进一步的空间分析和可视化研究,因而供专业用户使用。
数据样本展示包括Excel与XML两种格式,如图2和图3所示。


图2   南京百年人物数据集(Excel格式)


图3   南京百年人物数据集(XML格式)
3   数据质量控制和评估
本数据集的数据质量依赖于现有书籍资料记录的完整性和准确性。其中大部分数据来源于由南京市档案局(馆)和南京大学中华民国史研究中心合作编纂的《南京百年城市史·人物卷》,数据的可信度较高。由于本数据集中所涉及的时间跨度较长,出现了行政区划调整导致的古今地名不统一的现象,因此在数据处理的过程中对县市名进行了修正,一律以现今地名为准。此外,对书籍资料中的部分错误(如人物年龄错误等)进行了勘误。数据录入的完整性和准确性经多次人工检查,确认无误。
4   数据使用方法和建议
本数据集收录了126条南京杰出历史人物数据,可为了解近现代南京杰出人物数据提供一手资料。随着历史人物和地方文化研究的进一步深入,用户不仅可以据此进行综合统计分析,还可以设计特征查询,制作人物关系图和人物生平地图进行可视化表达与研究。
特征查询可通过姓名、别名等人物特征实现对历史人物详细信息的查询(图4)。


图4   南京百年人物数据集查询示意
人物关系图对历史人物的社会关系和亲属关系进行了可视化展示,通过时间轴的控制展现空间对象在某一特定时期内的人物关系,随着时间的改变,可能会出现新增的或发生变更的人物关系。此外,还可以根据关系远近生成关系图谱(图5)。


图5   人物关系图
历史人物生平地图将大量存在于文字中的信息进行可视化表达,以有形的地图语言展现人物生平,能够有效地更加深刻生动地表达历史,同时对历史研究也具有重要作用和意义(图6)。用户可综合多方面的信息来源,进行数据融合、同化和挖掘后提取最有价值的数据信息。


图6   吴贻芳生平地图
[1]
周兴樑. 历史人物研究评价的几个问题[J]. 福建论坛(人文社会科学版), 2004 (6): 57-61.
[2]
段金生. 读王劲教授著《邓宝珊传》——兼谈历史人物研究的魅力[J]. 天水师范学院学报, 2005, 25(4): 127-128.
[3]
洪拓夷, 王增清, 韦云波. 湖州历史人物数据库建设刍议[J]. 兰台世界, 2007 (14): 16-17.
[4]
蔡璐, 罗力可, 伍艺. 试论湖南近代人物数据库建设[J]. 高校图书馆工作, 2009, 29(6): 29-31.
[5]
葛美玲, 田丽君. 成仿吾人物全文数据库构建实践与思考[J]. 兰台世界, 2017(15): 118-120.
[6]
徐晶晶, 葛红梅. 国内图书馆自建人物数据库的现状分析[J]. 数字图书馆论坛, 2015 (12): 50-55.
[7]
张晓源. 人物数据库人物信息收录范围研究[J]. 图书馆论坛, 2004, 24(2): 87-90.
[8]
赵晓红, 周维煦. 人物数据库建设新模式探索——以蒋介石资料数据库为例[J]. 浙江档案, 2016 (6): 15-17.
[9]
刘小花, 罗力可. 基于知识地图的人物数据库模型构建研究[J]. 图书馆, 2013(4): 91-93.
[10]
中国近代人物传记资料库(CBDB)[DB/OL]. [2019-12-28]. https://projects.iq.harvard.edu/chinesecbdb.
[11]
孙妙凝. CBDB体现多学科交叉理念[N]. 中国社会科学报, 2013-04-15(A03).
[12]
徐力恒. 唐代人物资料的数据化:中国历代人物传记资料库(CBDB)近年工作管窥[J]. 唐宋历史评论, 2017 (00): 20-32,381.
[13]
蔡璐. 浅谈人物数据库网站的核心表现——以湖南近代人物资源库建设为例[J]. 图书馆, 2010 (3): 107-108.
[14]
全丹丹, 李雯. 人物资料数据库优化浅析——以湖南大学图书馆特色数据库《湖南人物库》为例[J]. 高校图书馆工作, 2010, 30(3): 39-41.
[15]
马振犊. 南京百年城市史·人物卷[M]. 南京:南京出版社, 2014: 412.
[16]
胡迪, 闾国年, 江南, 等. 地理与历史双重视角下的历史GIS数据模型[J]. 地球信息科学, 2018, 20(6): 713-720.
[17]
张晓源. 人物数据库人物收录标准研究[J]. 图书与情报, 2006 (1):69-73.
数据引用格式
郭畅, 胡迪, 杜晓晗, 等. 南京百年人物数据集[DB/OL]. Science Data Bank, 2020. (2020-01-13). DOI: 10.11922/sciencedb.937.
稿件与作者信息
论文引用格式
郭畅, 胡迪, 杜晓晗, 等. 南京百年人物数据集[J/OL]. 中国科学数据, 2020. (2020-01-15). DOI: 10.11922/csdata.2020.0001.zh.
郭畅
Guo Chang
主要承担工作:数据的处理、加工,数据集生成,论文的撰写。
(1998—),女,浙江杭州人,本科生,研究方向为地理信息科学。
胡迪
Hu Di
主要承担工作:研究思路设计与论文撰写指导。
hud316@gmail.com
(1984—),男,湖北黄冈人,博士,副教授,硕士生导师,研究方向为时空数据模型、历史GIS。
杜晓晗
Du xiaohan
主要承担工作:数据的处理、加工,数据集生成。
(1999—),女,陕西南郑人,本科生,研究方向为地理信息科学。
李岱蔚
Li daiwei
主要承担工作:数据的处理、加工,数据集生成。
(1998—),男,山西阳泉人,本科生,研究方向为地理信息科学。
杨逸尘
Yang yichen
主要承担工作:数据的处理、加工,数据集生成。
(1999—),男,江苏启东人,本科生,研究方向为地理信息科学。
出版历史
I区发布时间:2020年1月15日 ( 版本ZH3
参考文献列表中查看
中国科学数据
csdata