符合学术规范的学术服务

大数据时代科学数据共享伦理问题研究

分类:计算机职称论文 时间:2019-05-30

  摘要文章对国内外相关的文献进行了定量统计,解析了当前的研究热点,分析了大数据时代科学数据共享面临的新问题并预测了未来可能的研究方向。研究发现:科学数据共享伦理的研究热点主要集中在伦理理论、伦理困境、问题成因、治理措施等方面。在大数据时代,科学数据共享面临着数据边界扩张、数据结构多样、数据权益模糊等新的伦理问题,未来研究可以关注数据鸿沟、数据污染、数据隐私、数据异化等问题。

  关键词大数据,科学数据,数据共享,伦理,科学共同体

计算机研究与发展

  科学数据是在领域或学科知识指导下,对研究对象进行抽象和概念化后形成的、以科学证据形式存在的、并用于科学研究活动的原始和衍生数据等相关事实记录[1-2],被认为是证实科学发现或科学观点的事实、证据或者论证推理的基础[3]。随着数据获取、数据存储、数据分析处理等技术的发展,科技创新和科学研究也走向了以数据为基础的科学大数据时代,数据密集型科学与发现成为新的研究范式,出现了一批以数据为基础的新兴交叉学科[4]。

  在此背景下,一些组织机构开始呼吁或要求数据生产者将所拥有的科学数据以标准、规范的形式在科学共同体之间公开发布,供他人获取和重用,从而促进科学数据的交流共享,实现科学数据资源的最大化利用。但随着科学数据共享浪潮的推进尤其是大数据时代的到来,出现了数据造假、数据垄断、数据阉割、数据侵权、数据窃取等一系列问题,这些问题挑战着传统的人伦道德,给科学数据开放共享的美好蓝图蒙上了阴影。

  因此,如何恰当地解决科学数据共享伦理问题将决定着科学数据在大数据时代能否被安全、合规的共享利用,研究这一问题对于科学数据管理政策的制定和管理技术的研发具有重要意义。中国科学院已启动了科技伦理研究项目——“大数据的伦理问题及社会治理”,由多名院士级专家共同探讨适合我国国情的数据采集、分析研究和共享的伦理准则和政策。本文所探讨的科学数据共享伦理是指科研活动所产生的科学证据在科学共同体之间交流共享时所遵守的科学和社会道德准则。

  1相关研究工作

  伦理的产生与人类的生产和生活方式有关,对科学数据共享伦理而言,其与科学数据共享活动相关。为了了解国内外相关研究现状,笔者于2018年3月30日在CNKI和WebofScience数据库中分别以“数据共享+伦理”和“DataSharing+Ethics”为检索词进行了主题检索。自20世纪80年代,国外就开始有相关文献介绍数据共享的相关工作[5-7]。从论文数量来看,经历了研究初始期(2003年及以前)、稳步发展期(2004~2013年)、快速发展期(2013年以后)三个阶段;从文献类型看,主要以期刊论文为主(462篇),也有不少会议论文(36篇)。

  这些文章主要来自美国、英国、加拿大等国家的高校系统。具体而言,1990年的DataSharing:ADe⁃cliningEthic?一文拉开了科学数据共享伦理问题大讨论的序幕[8]。随后在生命医学领域出现了流行病学数据共享[9]、患者知情同意[10]、共享患者数据[11]、DNA数据共享[12]、共享基因数据伦理[13]、公共健康领域数据是否共享[14]等专门问题的文章。

  Sieber[15]提出了运用混沌理论理解和应对数据管理应该遵循哪些伦理原则、知识产权保护是否会增加共享的复杂性、如何优化数据共享伦理决策等问题的思路;根据eMERGE联盟的实践经验,McGuire等[16]从参与者、研究者和研究机构等利益相关者的角度出发探索了数据共享面临的伦理挑战;Dietrich等[17]从信息安全角度出发,勾画了研究数据共享的最佳实践模式:概念设计—数据采集—数据存储—数据分析—数据验证—数据传播—数据管理;Heeney[18]根据对英国生物医学研究机构49名成员的访谈记录描述了不同合作者在数据共享方面遇到的伦理困境;热带医学和全球卫生中心[19]认为数据共享促进了医学数据在不同网络之间的传播,这避免了由于数据分割存储而造成的数据孤岛。

  与国外较早的关注和丰富的研究成果相比,国内相关研究相对滞后且研究成果较少,也没有形成较为明显的研究阶段。检索到的29篇文献以期刊论文(20篇)和学位论文(8篇)为主,文章作者主要来自中国科学院、华中科技大学、北京协和医学院等。

  国内最早的文献是2000年刊登于《遥感学报》中的《空间数据共享及其面临的伦理挑战》一文[20],该文是路甬祥院士在“世界科学知识与技术伦理委员会”外空伦理分委会议上所做的特邀报告,文章分析了不同国家的数据政策特点,指出了空间领域科学数据共享在政治、经济、技术、所有权等多方面面临的伦理挑战;姜勇等[21]对医学数据共享与伦理的关系以及医学数据共享存在的伦理学问题进行了探讨,他还针对这些问题提出了相应的伦理学对策;罗敏[22]以生物医学信息学科为例,指出了科学数据的伦理争议性、原始数据的自然垄断性以及对原始数据的高依附性与知识产权保护之间的冲突。

  以上研究从不同方面探讨了科学数据共享的伦理方面问题。总体而言,这些成果主要集中在生物医学等特定领域而对其他学科或通用领域涉及较少,而且成果以实践经验较多而理论探讨较少。鉴于此,本文试图系统梳理已有研究成果,以期归纳科学数据共享伦理问题所涉及的关键问题和未来方向,为后续开展相关实践提供借鉴。

  2科学数据共享伦理研究热点

  通过对检索文献的主题分析,发现国内外学者主要关注科学数据共享的伦理理论、伦理困境、伦理问题成因和伦理问题治理等。

  2.1科学数据共享的伦理理论

  韦伯斯特大辞典[23]认为伦理是处理善与恶的道德规范,是指人与人或人与自然之间的关系以及处理这些关系的准则。具体到科学数据共享伦理问题上来,有关争论未曾停止。一种观点认为科学数据共享与伦理道德的进步是一致的[24]:科学数据共享加速了数据转化为知识的进程,改变了人们的思维方式,由此也产生了与科学数据共享相适应的世界观和道德观。

  另一种观点认为科学数据共享与伦理道德的进步是对立的[21]:我国在科学数据共享方面与国外还存在较大差距,这种发展不平衡的状态会对人的思维方式、行为方式、价值观、伦理道德等产生影响。此外,科学数据共享与知识产权之间的冲突也是争论的话题之一[22]:科学数据共享要求面向全球开放而知识产权往往具有一定的地域保护特性,共享全球性和地域保护之间存在冲突;科学数据具有可复制和无损耗的特点,而知识产权具有专有性(又称“垄断性”或“排他性”),专有性会阻碍科学数据的有效共享;知识产权保护具有一定期限,只有保护期满后才被准许进入公有领域,但科学数据的产生、扩散、转移速度较快且数据老化周期相对缩短,某些数据尚在保护期时就已经失去研究价值。

  2.2科学数据共享的伦理困境

  当科学数据打破地区和行业限制在科学共同体之间共享时,传统的伦理价值观遭到解构与破坏,社会秩序和人伦规范受到严重冲击[25],Schroeder等[26]认为人类的自主权已经被科学知识的增长所破坏。SpringerNa⁃ture调研发现[27],数包含敏感内容、知识产权模糊、组织政策文化阻碍、数据滥用、技术问题等都是共享数据的经常面临的困境。

  以医疗领域为例[28],在医学数据共享过程中会面临数据所有权、个人隐私保护、数据安全等诸多问题,贡献者的利益保护、研究数据伦理准入机制、样本资源商业化利用等都是敏感的伦理和法律问题。在智慧城市和城市科学研究过程中[29],各类监测网络、个人设备、智能穿戴产品、社交媒体等产生和获取的数据在处理传播过程中也存在着数据监控、数据预测、数据匿名、用户授权缺失等隐私侵犯问题。

  还有学者认为信息隐私权侵犯、网络人际缺乏诚信和网络技术滥用等都是典型的网络信息伦理失范行为[30]。此外,信息污染、信息破坏、信息泄露、信息侵权等问题也严重影响着个人信息安全,数据残缺、网络狂欢、数据窃取等问题挑战着社会伦理道德[31]。

  2.3科学数据共享伦理问题成因

  面对种种冲突,学者们从不同角度探索了根源所在。宋吉鑫等[32]认为数据没有好坏之分,其产生的原因皆是因为人类对数据的不合理使用,数据技术规则的缺乏也是数据伦理问题产生的原因之一。安宝洋等[33]也提出了类似的观点:虚拟人格异变是伦理缺失的主体根源,数据技术的负效应是伦理缺失的客观原因,规约机制匮乏是伦理缺失的社会背景。

  傅天珍等[34]从全局层面提出了影响科学数据共享的关键因素:个人利益权衡,开放获取的压力、技术和标准问题,文化和法律因素,利他心理因素等。由此可见,影响科学数据共享伦理问题的原因多样,但归结起来主要有三种:科学数据使用者自我约束力低下、数据共享技术滥用和相关规约机制缺失,其中网络主体自我管控不严是伦理失范的主体根源,网络技术肆意滥用是伦理失范的客观原因,外部规约缺失是伦理失范的社会背景。

  2.4科学数据共享伦理问题治理

  为了营造良好的科学数据共享氛围,不少组织机构和专家学者思索如何有效地管理科学数据。ACM于1992年提出了相关的数据共享规范[35],要求各成员做到:为社会和人类福祉做出贡献、避免伤害他人、诚实守信、公平无歧视、尊重知识产权、尊重他人隐私和尊重机密;国际干细胞论坛伦理工作组[36]提出人胚胎干细胞基因型的出版应该遵守自主、隐私、慈善和正义的基本伦理原则。

  美国国家教育统计论坛也提出了数据共享伦理三准则:数据完整性、数据质量、数据安全[37];FORCE11提出的FAIR原则得到了广泛认可,该原则倡议科研产出的数据在存储和管理时应该努力达到Findable、Accessible、Interoperable和Reusable[38-39],欧洲议会已在FAIR原则的指导下率先开放了欧洲科学云[40]。

  国内不少学者还从网络信息伦理角度提出了相应的治理措施:刘炎[41]认为加强网络主体道德建设、强化网络安全国家监管是应对科学数据伦理问题的有效手段;安保洋[42]认为大数据时代网络信息伦理治理应该遵循人道、无害、同意、公正和共济的治理原则;陈仕伟[43]认为既要制定相应的伦理新规范,又要制定从业者职业伦理规范。总体而言,建立健全相应的法律法规和伦理准则,提升网络维护的技术手段,加强行为主体的伦理道德教育是应对科学数据伦理问题的有效途径之一[44]。

  3大数据时代科学数据共享伦理面临的新问题

  随着科学数据管理和共享日益显著,传统的科学数据共享伦理问题依然存在,但在大数据时代下又出现了一些新的伦理问题。

  3.1数据边界扩张

  科学数据是一个很难定义的概念,因为数据本身是以多种实体和形式存在的。加拿大国家科学研究院[45]认为数据是指描述研究对象、研究方法、实验条件、实验状态和其他因素的事实、数字、文字和符号;美国国家科学院[46]认为数据包含的对象除了文献的数字化形式之外,还包括使用计算装置和辅助软件处理的各种数据和数据库。这些概念承认了数据来源的广泛性和存在方式的多样性,但在大数据时代下却使得科学数据的边界变得模糊不清。

  如在社交媒体上发布的个人信息行为、可穿戴设备采集的个人运动情况、导航软件搜集的个人移动轨迹等,如果按照传统定义来看它们应该不属于科学数据的范畴,但心理学、管理学、社会学、图书情报学等领域已经利用这些数据展开了用户行为研究。此外,物联网技术实现了万物互联,人工智能技术也能够快速实现图像识别、语音识别,这些技术都大幅拓宽了数据的边界,使得那些原本微不足道的对象成为重要的科学数据。这不禁让人对科学数据的边界产生疑惑:究竟什么样的数据应该算作科学数据?科学数据与其他数据有何异同?

  3.2数据结构多样

  科学数据开放共享的内涵是允许数据自由获取和使用,强调数据的可发现、可访问、可理解、可重用和可散布,满足不同系统或组织之间的协同合作[47]。伴随着数据边界的扩张,科学数据不再局限于传统的电子表格、文本文件、扫描图像、通用标记语言等格式。2006年,互联网之父TimBerners-Lee提出了发展数据网络的构思并指出其核心是关联数据,在2009年时他倡导科学家和科研机构将原始数据采用标准的、结构化的形式发布,在2010年时他又提出“五星”渐进标准评价开放数据的开放关联度[48]。

  因此,如何将程序源代码、网址链接甚至光源、电磁等新型科学数据与传统的文字、图片、音频、视频等相结合,以及设置怎样的数据标准来满足不同数据的接入需求,这些都需要科研工作者深入思考。科学数据的结构化问题不仅关系到科学数据如何有效利用,也关系到数据是否易获取、易提取、易混合,还影响到科学数据的来源,只有数据结构多样化时才能提供更多的数据准入接口进而扩大科学数据范围。

  3.3数据权益模糊

  大数据时代使得数据成为物质世界、精神世界之外的一种独立存在的客观存在,也成为一种新的资源,知情权、采集权、所有权、保存权、使用权等成为新的数据权益,而这些权益的滥用必然会引起新的伦理危机。如个人每天产生的各种数据应该归个人所有还是信息服务商所有?政府部门收集的公众生活数据是否可被纳税人知晓和使用?这种模糊的数据权益状态还会影响科学数据的合理引用,如产生数据引用过程中谁标引、谁引用、谁负责、谁受益等问题[49]。

  目前对数据的所有权问题还没有形成统一的认识,有观点主张使用者对数据享有优先财产权[50],赋予公民数据财产权以保护数据权利人直接支配其数据财产不受他人干涉;有观点认为所有者对数据拥有绝对所有权,由阿里云发起的数据保护运动倡议运行在云计算平台上的数据所有权属于开发者、公司、政府、社会机构等所有[51]。

  此外,在小数据时代个人隐私的传播速度、范围和查询便捷性都受到一定限制,只要对数据进行模糊化和匿名处理就可避免隐私侵犯,但在大数据时代这些举措已不再奏效,数据记忆已成为常态,某些曾经的污点信息由于难以删除而使得不少当事人失去了重新做人的机会,究竟由谁来决定数据的取舍成为关键。

  5结语

  如何认识并应对科学数据共享过程中的伦理问题,一直受到学界、业界和政府部门的关注。目前,国内关于科学数据共享伦理问题的研究较为零散,本文的主要贡献是系统梳理了这些研究成果。梳理发现现有研究主要围绕科学数据共享的伦理理论争论、面临的伦理困境、伦理问题产生原因、伦理问题治理措施等方面。在大数据时代,科学数据共享将会面临数据边界扩大、数据结构多样、数据权益模糊等新的伦理问题。未来研究应该积极关注数据鸿沟、数据污染、数据隐私侵犯、数据异化等方向。

  文章认为,伦理问题的规制最终要落脚在对人身的规制,对科学共同体的参与者而言:首先,保持开放心态,坦然接受大数据时代的来临;其次,坚持共享精神,让数据资源发挥最大价值;最后,增强伦理意识,既不侵犯他人数据权益也要保护自身数据权益。当然,加强国家数据立法也是科学数据共享伦理问题治理的必要途径,相信随着国家《科学数据管理办法》的颁布和科学共同体的努力,我国的科学数据共享环境将会极大改善。希望上述分析,尤其是对科学数据共享伦理问题未来研究方向的研判,能够为科学数据开放共享研究提供一定借鉴。

  参考文献

  [1]OECD.OECDPrinciplesandguidelinesforaccesstoresearchdatafrompublicfunding[R].OECD,2007:13.

  [2]SaxtonGD,OhO,KishoreR,etal.Rulesofcrowdsourcing:models,issues,andsystemsofcontrol[J].InformationSystemsManagement,2013,30(1):2-20.

  [3]黎建辉,沈志宏,孟小峰.科学大数据管理:概念、技术与系统[J].计算机研究与发展,2017,54(2):235-247.

  [4]BorgmanCL.Thedigitalfutureisnow:acalltoactionforthehumanities[J].DigitalHumanitiesQuarterly,2009,3(4):1-30.

  [5]NeuhauserD.Sharingresearchdata[J].MedicalCare,1986,24(10):879-880.

  [6]ZelenM,FienbergSE,MartinME,etal.Sharingresearchdata[J].JournaloftheAmericanStatisticalAssociation,1987,82(398):685-686.

  [7]AndersenRM.Sharingresearchdata[J].TheJournaloftheAmericanMedicalAssociation,1987,257(5):686-687.

  [8]MarshallE.Datasharing:adecliningethic?[J].Science,1990,248(4958):952-957.

  相关刊物推荐:《计算机研究与发展》刊登内容主要为计算机科学技术领域高水平的学术论文、最新科研成果和重大应用成果。本刊优先刊登国家基金项目(如国家自然科学基金项目、“八六三”、“九七三”等)、省部级基金项目等论文。本刊只接收中文稿,不受理英文稿。

  

获取发表周期短、审稿速度快、容易录用的期刊

* 稍后学术顾问联系您

学术顾问回访> 详细沟通需求> 确定服务项目> 支付服务金> 完成服务内容

SCI期刊

国际英文期刊

核心期刊

国外书号出书

国内纸质出书

2023最新分区查询