2015年科学研究数据共享现状调查

责编:

1、建议作者在数据样本描述里面说明一下“样本”部分,Q1、Q2等列下面的数值:0、1、2、...、7等的意义。

2、摘要部分建议将调查背景/目的写在最前面。

3、第1.1节中测量还是测度指标?与表格统一一下吧?

4、第1.2节中“来自IP”跟下文的“来源ip”不一致?如为同一项内容,请统一。

5、表2中:①表头中的英文需要在文中翻译。②表头分别指什么?需要文字补充。见第1条意见。

6、第3.2节中Cronbach’s Alpha在中文文献中不太常见,是否应加中文?

7、请考虑文中提到的5名专家要不要点名。

【2017-01-23】 评论来自:版本 1
作者:

1、篇幅所限暂未展开,详见数据集。

2、已补充。

3、已修改。

4、已修改。

5、酌情修改。

6、SPSS常用功能,暂未增加。

7、已修改。

8、对应数据集表头已刷新。

【2017-01-25】 评论来自:版本 1
责编委:

文章中部分字句的表述望再斟酌修改,以便更准确和流畅。具体字句包括:

1)摘要最后一句,“亦可用于后续连续性研究的年代数据基准归档”,想表述的意思是这些数据可作为后续连续性研究的年代基准数据归档(或这些数据可归档作为年代基准数据支持后续连续性研究),还是这些数据可用于归档(归档本身并不与“可为摸清当前科学研究数据共享情况提供一手材料”具有并列意义)。

2)引言中“以期望再现当前我国科学研究数据共享发展现状”,此句之前并无阐述当前现状的文字或参考资料,“再现”用得突兀。

3)“该数据集的取得主要由量表开发、数据采集、数据清洗和质量检验等主要步骤组成”,不需要两个“主要”。

4)1.1节中,“第一部分为定性量表,重点描述科学数据共享资源与环境的客观方面”,用“客观情况”或“客观方面的情况”是否更好些。

5)1.1节中,最后一句“最终形成计量问卷最终定稿”,不需要两个“最终”。

6)1.2节中,“其中科学数据共享供给者以政府、科研机构等管理机构人员为主,也包括科学界乃至社会更为宽泛的广义对象所指。科学数据共享需求方则包括科学数据共享用户、科学数据共享的推动者乃至科学数据共享的把关人——管理机构人员。”这一段表述得不够清晰,供给者和需求方有差别吗?以及将科研机构界定为管理机构,可能与多数人的分类不符。

7)3.1节中,“侧重增强了面向高级以上职称受访人群的有效问卷回收率”,是想表述侧重增强了面向高级以上职称人群的问卷投放和回收,还是只想表述侧重对面向高级以上职称受访人群的问卷回收?

8)3.2节中,最后一句“故暂无法进行面向特定学科领域特征深入的数据共享情况资料支持”,不太通顺,“无法为特定学科领域数据共享情况的深入分析提供支持”或其他表述,会更好些。

【2017-02-13】 评论来自:版本 1
作者: 根据修改建议,对以上八条涉及的内容进行了逐一修改,请指正。谢谢。 【2017-02-13】 评论来自:版本 1
专家:

同评专家一:

1. 问卷设计的依据还需描述得更详细一些。

2. 还需交代样本用户的情况,便于数据重用过程中对不同样本的结论进行比较。

3. 数据分析方法可更详细建议,如用哪些统计指标。

同评专家二:

        《2015我国科学研究数据共享现状调查数据集(讨论版)》选题有现实与学术价值,科学数据共享的影响因素的界定与问项设计有较强解释力,测量指标合理、较全面,数据采集与清洗、样本描述、数据质量控制和评估等描述清晰、科学,数据使用方法与建议可行,建议修改后采纳。

        修改建议如下:

        1、在数据质量评估部分,建议增加对共享文化、共享动机的测量结果效度相对较低原因的解释。

        2、共享文化的概念较宽泛,涉及到微观(个体意识、习惯和心理)、中观(组织机构中共享的传统、共享的组织文化等)、宏观(宏观政策传统、法规传统、社会观念、道德和法律水准等)等部分,感觉测量的三个问项略显单薄。如以后有第二轮甚至更多的数据收集、更新等工作,进一步细化该变量的测量。

        3、共享动机的测量可以参照动机心理学的相关理论和方法,有一定的细化空间。

【2017-03-07】 评论来自:版本 1
作者:

感谢评审专家批评指正。具体内容回复如下:

1、问卷设计依据详见“1.1量表开发”参考文献[1],原文有几个章节的铺垫,囿于篇幅,暂未展开。

2、样本用户情况为数据集一部分。已修改。

3、已修改。

4、由于部分测量低值原因多样,无法提供确切的答案,故暂未增加此部分的确切解释。

5、共享文化和共享动机方面的测量指标设计将根据专家意见在后续问卷调查的指标设计中继续深入完善。

【2017-03-15】 评论来自:版本 1
编委会成员:

根据编委投票结果,同意在本刊发表该文。

【2017-04-19】 评论来自:版本 2

提交问题或建议:



您还没有登录,请[登录]或[ 注册]!

2015年科学研究数据共享现状调查

浏览下载总计

网页浏览 论文下载
11842 49

2015年科学研究数据共享现状调查

作者发表的论文

1 情报学的学科发展与教育问题
赖茂生,张莉扬. 情报学报[J],2003,22(1),3-9

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 2

2 论信息资源产业及其范畴
赖茂生,闫慧,龙健. 情报科学[J],2008,26(4),481-484,490

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 2

3 我国高校图书馆引进网络版全文数据库的综合评价模型
汪媛,赖茂生. 情报科学[J],2004,22(9),1061-1065

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 2

4 中文搜索引擎查询与反馈词语特征研究
赖茂生,屈鹏. 中文信息学报[J],2009,23(4),40-47

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 2

5 网络信息检索工具评价实验(Ⅰ)??英文网络检索工具评价实验
韩圣龙,赖茂生. 情报科学[J],2001,19(3),293

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 1

6 政府信息开放与立法研究
赖茂生,周健. 情报学报[J],2001,20(3),276

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 1

7 信息经济学体系探索
王芳,赖茂生. 情报学报[J],2004,23(1),117-123

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 1

8 企业知识管理集成的研究
傅湘玲,赖茂生. 情报学报[J],2004,23(3),259-264

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 1

9 企业内容服务的战略设计与实施
傅湘玲,赖茂生,黄崑. 情报学报[J],2005,24(3),363-370

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

10 浅议情报科学及其教育问题
赖茂生. 情报科学[J],1998,16(1),12

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

11 海峡两岸信息资源产业比较研究
赖茂生,闫慧,龙健. 情报科学[J],2008,26(5),647-651

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

12 论信息经济的制度变迁
王芳,赖茂生. 情报学报[J],2002,21(5),608-612

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

13 网络版全文数据库综合评价模型的测试应用分析
汪媛,赖茂生. 情报科学[J],2005,23(7),1076-1084

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

14 内容产业与文化产业的关系研究
赖茂生,闫慧,叶元龄,李璐. 情报科学[J],2008,26(11),1601-1605

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

15 自然语言检索的实现及其关键问题
耿骞,赖茂生. 情报科学[J],2007,25(5),733-741

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

16 基于信息构建的网站设计理念研究
岳珍,赖茂生. 情报科学[J],2006,24(11),1723-1727,1731

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

17 信息技术与零售之王沃尔玛
赖茂生,梁南燕. 情报科学[J],2003,21(9),966-969

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

18 彩色自然风景图片的四季特征提取
黄琨,赖茂生. 情报学报[J],2007,26(5),691-698

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

19 从公务员招聘看我国情报学人才培养
赖茂生,邢博. 情报科学[J],2010,28(10),1464-1468

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

20 用户需求模式协同构建的初步探索
赖茂生,屈鹏. 情报科学[J],2009,27(9),1296-1300

数据来源:CSCD中国科学引文数据库      CSCD      被引次数: 0

2015年科学研究数据共享现状调查

张丽丽1*,赖茂生2

1. 中国科学院计算机网络信息中心,北京  100190;

2. 北京大学信息管理系,北京  100871

*通讯作者(Email: zhll@cnic.cn)

摘要:为探讨科学数据共享问题,设计了面向我国科学研究数据共享现状的调查问卷,并于2015年依托问卷星平台面向国内科研人员展开调查。实际回收有效样本370份,可为摸清当前科学研究数据共享情况提供一手材料,亦可归档为年代基准数据,用于后续研究。

关键词:科学研究数据;科学数据共享;调查统计

Survey on current state of scientific data sharing in mainland China (2015)

Zhang Lili1* Lai Maosheng2

1. Computer Network Information Center, Chinese Academy of Sciences, Beijing 100190, P. R. China;

2. Information Management Department, Peking University, Beijing 100871, P. R. China

*Email: zhll@cnic.cn

Abstract: This paper introduces a survey focusing on scientific data sharing in current state of mainland China. The survey had been carried out in 2015, and 370 valid samples were received. This dataset can cast light on the development of scientific data sharing in China which also provides basic archiving materials for similar researches in the future as well.

Keywords: research data; scientific data sharing; survey and statistics

数据库(集)基本信息简介

数据库(集)中文名称

2015年科学研究数据共享现状调查

数据库(集)英文名称

 Survey on current state of scientific data sharing in mainland China (2015)

数据作者

张丽丽、赖茂生

通讯作者

张丽丽(zhll@cnic.cn)

数据时间范围

2015年

地理区域

中国大陆

数据量

370条

数据格式

*.doc,*.xls

数据服务系统网址

http://www.sciencedb.cn/dataSet/handle/372

基金项目

国家社科基金项目“政府信息资源管理创新的理论与方法”(11BTQ032)

数据库(集)组成

数据集由“科学研究数据共享现状调查” 问卷样表和有效样本数据2部分组成。问卷样表由12节共计31个问题组成;有效样本数据包括样本和编码2张表单,其中样本370条,每条样本数据共44个字段。

引  言

大数据开放共享是当前国际热点话题。尤其随着大数据资源的战略地位日益提升,科学大数据驱动的科学发现已成为全球新型科研范式,如何推动科研数据资源的开放共享成为全球焦点和难题。《促进大数据发展行动纲要》和《“十三五”国家信息化规划》等一系列国家政策文件纷纷关注强化信息资源共建共享、缩小数字鸿沟、加快释放数据红利、提升信息惠民、增强国家文化软实力等内容。科研数据共享瓶颈集中在共享文化、保障机制、共享动机和共享能力等方面[1-2]。为此,结合博士研究生毕业选题,笔者面向国内科研人员投放“科学研究数据共享现状调查”问卷,试图摸清国内当前科研环境中科研主体对开放科学数据的态度和观点,为更好地推动科学数据开放共享提供素材。

1  数据采集和处理方法

该数据集的取得由量表开发、数据采集、数据清洗和质量检验等步骤组成。

1.1  量表开发

量表开发过程主要包括设计初稿、专家评审与落实定稿等内容。

首先,根据前期文献调研并结合科研第四范式、信息共享理论、公共物品理论、新制度经济学理论以及信息生态理论、数据权利等方面的基础理论框架与相关研究成果[1],本调查将“我国科学研究数据共享”焦点问题的影响要素归纳为共享文化、保障机制、共享动机和共享能力四大方面,并进一步提出二级分类测量指标,详细内容见表1,据此形成调查问卷样稿核心内容。

科学研究数据共享现状潜在影响要素量表

序号

潜在变量

测量指标

1

共享文化

a. 具有分享科学数据的传统

b. 社会(或科研共同体)倡导数据开放共享理念

c. 具有科学数据共享要求(如来自上级部门或资助机构等)

2

保障机制

a. 具有足够的经费支持数据共享活动

b. 具备科学数据共享所需的基础设施与环境条件

c. 建立了科学数据共享实施的框架方案

d. 建立了科学数据跨平台共享与利用的标准规范

e. 制定了完整的科学数据共享政策法规体系

f. 建立了恰当的科学数据共享激励和评价机制

3

共享动机

a. 乐于将所拥有的数据进行公开共享

b. 数据共享将带来科学声誉的提高

4

共享能力

a. 具有分享科学数据的技术能力和工具

b. 具有足够的经费支持数据共享活动

c. 具备科学数据共享所需的基础设施与环境条件

d. 制定了科学数据共享实施的具体方案

其次,依托潜在影响要素量表内容,结合定量与定性手段,将问卷主体内容设计分为三大部分。第一部分为定性量表,重点描述科学数据共享资源与环境的客观情况;第二部分为定量量表,重点刻画受访科研人员针对国家、组织层面科学数据共享现状与制度方面的主观感受;第三部分为受访者基本信息,就此形成问卷初稿。值得补充的是,实际返回数据样本中还包括第四部分,即问卷数据提交的相关数据,如提交答卷时间等。

此外,根据问卷初稿,定向邀请科学研究领域5位专家学者进行试填写,并通过他们的反馈意见对问卷中指向不明、表述不清或有遗漏的方面进行完善。

最后,综合专家意见及作者观点,形成最终定稿的问卷。

1.2  数据采集与清洗

1. 明确调查对象:本调查面向科学研究数据共享活动中的数据供给方和需求方,主要是科研人员展开。笔者认为,由于特定数据集的供给主体同时是另外一些数据集的需求主体,因此两大部分参与主体相伴而生,并不需要刻意区分。

2. 问卷发放:本调查集中于2015年3月初在问卷星平台(www.sojump.com)投放。采取随机抽样方式展开问卷调查,依托该平台在线服务,重点面向我国高校及科研机构、政府科研部门和企事业单位从事科学研究的相关人员展开调研工作。

3. 问卷回收:截止2015年3月31日共回收问卷415份。为保证调查问卷质量,对回收样本的相关条件进行了进一步限定:①提交答卷使用验证码,防止恶意软件干预;②设置完整性限制,只回收填写完整有效的问卷;③根据本调查所设置题量情况,删除全部答题时间在90秒以下的反馈(笔者熟悉题目,多次登录自测,作答平均时间为81秒,结合自身测试结果,将作答时间设置为90秒);④设置同一电脑/手机限制,防止受访者重复提交答案;⑤问卷星系统自动删除个别异常答卷(如前后问题答案选项高度相仿等的答卷)。全部筛选条件框定有效回收问卷样本为370份,其中委托问卷星定向回收有效问卷210份,采取公共平台推广回收有效样本160份(详见“来源”字段)。

4. 数据清洗:在完成质量检验、确认问卷回收数据样本具备足够的可信度和可靠性前提下,根据实际需要,进一步对拟发布数据集进行整理。其中,为保护受访者信息,过滤掉易对号入座的IP地址信息,并将“IP来自”一项的详细数据加工整理为所在省份的数据值,以便于了解样本分布。针对“来源”及“来源详情”两项,鉴于“来源详情”一项空值较多,故删除此列,仅保留“来源”列,便于查看数据回收渠道分布。同时针对各项返回值进行规范化编码,并获取完整规范的数据集。

2  数据样本描述

清洗后的有效样本数据集中,单个样本涵盖四部分调查内容共计44个字段,其中“问卷填写情况”部分共计5个字段均为字符型,其余39个字段为数值型。选取第一份样本,内容展示见表2。其中,各表头编码的实际意义详见本数据集“编码”表单中的详细定义。囿于篇幅,这里不再展开。

样本示例

(问卷填写情况)

序号(index)

提交答卷时间(submittime)

所用时长(totalseconds)

IP来自(ipaddress)

来源渠道(source)

1

2015/3/11 23:44:04

301秒

北京

手机提交(直接访问)

(定性量表)

Q1

Q2

Q3

Q4_选项1

Q4_选项2

Q4_选项3

Q4_选项4

Q4_选项5

Q5_选项1

Q5_选项2

Q5_选项3

Q5_选项4

Q5_选项5

Q6

2

3

1

1

0

1

0

0

0

0

0

0

1

3

(定量量表)

Q7_1

Q7_2

Q7_3

Q7_4

Q7_5

Q7_6

Q7_7

Q7_8

Q7_9

Q8_1

Q8_2

Q8_3

Q8_4

Q8_5

Q8_6

Q9_1

Q9_2

Q9_3

Q9_4

Q9_5

Q9_6

Q

9_

7

2

6

6

4

5

2

2

1

1

2

7

7

7

7

7

7

7

7

7

5

7

2

(受访者基本信息)

Q10

Q11

Q12

2

4

2

3  数据质量控制和评估

3.1 质量控制

样本回收的质量控制主要包括系统限定和人工干预两部分。其中,依托问卷星平台所进行的样本回收条件系统限定详见第1.2节的说明。人工干预内容主要包括邀请领域专家对量表开发的质量予以把关,笔者人工查验回收样本的完整性等。其中,对于“IP来自”返回值中存在3个“未知”值、原IP地址均显示为境外的情况,考虑到所设计问卷全部为中文,且面向国内科研单位人员定向投放,故予以保留。

此外,调研过程中,为了能够更加真实地了解科学研究数据共享实际情况,侧重增强了面向高级以上职称受访人群的问卷投放。实际回收的370份有效样本中,具有高级职称(副高及以上)的受访者占到总数的40.27%、中级职称占47.57%、中级以下职称占12.16%。

3.2 质量评估

1. 信度检验

本研究采用SPSS 20版本软件处理数据,利用针对李特式量表开发的Cronbach’s Alpha系数值对问卷中39项数值型字段进行可靠性检验(表3)。检验结果显示该问卷整体Cronbach’s Alpha系数为0.884,各项主要研究测量变量的系数均超过0.6,其中共享文化测量变量具有可信性,共享动力、共享能力变量很可信,保障机制变量为十分可信。由此可见,本问卷具有较强的信度值,可展开进一步统计分析。

表3  问卷的可靠性统计

变量

问题项数

样本量(N

Cronbach's Alpha

共享文化

3

370

.662

保障机制

6

370

.945

共享动机

2

370

.702

共享能力

4

370

.892

问卷整体

39

370

.884

2. 效度检验

采用KMO样本测度和Bartlett球体检验对变量进行相关性检验测试,各项因子有效性检验结果见表4。科学数据共享四个潜在影响变量的KMO值均达到或超过0.5,且各项检测变量的Bartlett球形度检验选项显著性p<0.05,这表明上述变量通过有效性检验。

表4  科学数据共享潜在影响要素有效性检验

KMO Bartlett的检验

取样足够度 Kaiser-Meyer-Olkin 度量

.589

Bartlett 的球形度检验

近似卡方

198.739

df

3

Sig.

.000

a)共享文化影响要素有效性检验

KMO Bartlett的检验

取样足够度 Kaiser-Meyer-Olkin 度量

.907

Bartlett 的球形度检验

近似卡方

2153.384

df

15

Sig.

.000

b)保障机制影响要素有效性检验

KMO Bartlett 的检验

取样足够度 Kaiser-Meyer-Olkin 度量

.500

Bartlett 的球形度检验

近似卡方

128.002

df

1

Sig.

.000

c)共享动机影响要素有效性检验

KMOBartlett 的检验

取样足够度 Kaiser-Meyer-Olkin 度量

.838

Bartlett 的球形度检验

近似卡方

874.664

df

6

Sig.

.000

d)共享能力影响要素有效性检验

综上,本问卷设计的各项内容均通过了信度和效度检验,表明调查数据集具有一定的可信度和可靠度,适合展开进一步分析工作。但受制于资源与条件,该抽样调查问卷回收样本的随机性不可避免的受到笔者所在人际网络的影响。调查本身仍属宏观性的,暂未面向具体学科领域展开同一问卷的横向样本比较调查,故无法为特定学科领域数据共享情况的深入分析提供足够支持。

4  数据使用方法和建议

本数据集可为了解我国科学研究数据共享进展提供一手资料,可供信息资源共享政策与实践相关领域研究使用,亦可为后续年代的共享进展调查提供横向比较的基准数据。可使用Excel或SPSS等软件对所关心的问题或维度进行交叉深入分析。

致  谢

感谢在完善调查问卷量表开发中贡献智慧的所有专家以及调查问卷中贡献观点的受访者。

数据作者分工职责

张丽丽(1984—),女,研究生,助理研究员,研究方向为科学数据开放治理。主要承担工作:问卷设计与数据整理。

赖茂生(1946—),男,研究生,教授,研究方向为信息资源管理、信息检索。主要承担工作:问卷设计与数据质量控制。

参考文献

[1]  张丽丽. 面向开放服务的科学数据共享模式研究[D]. 北京: 北京大学, 2015: 1–137

[2]  黎建辉, 吴超, 张丽丽, 等. 科学数据出版调查与分析[J/OL]. 中国科学数据, 2016, 1(1). DOI: 10.11922/csdata.120.2015.0009.

引用数据

张丽丽, 赖茂生. 2015年科学研究数据共享现状调查(讨论版)[DB/OL]. Science Data Bank, 2017. DOI: 10.11922/sciencedb.372.

其  他

请使用以下方式引用本文:

张丽丽, 赖茂生. 2015年科学研究数据共享现状调查. 2015年科学研究数据共享现状调查(讨论版)[J/OL]. 中国科学数据, 2017. DOI: 10.11922/csdata.840.2017.0118.

下载