摘要:近年来,档案数据管理成为档案学研究中的一个新的关注点。本文从档案数据管理的内涵与对象、面临的困境、应对措施三方面对我国档案数据管理的研究成果进行评述,认为未来我国档案数据管理研究内容中需要关注以下几个问题:档案数据管理向档案数据治理的转变、档案数据化的技术体系与推进策略以及档案数据开放相关问题。同时在研究方法上注重多学科视角与跨领域合作。
关键词:档案数据;档案数据管理;数据管理
档案数据管理问题从20世纪90年代起就受到我国学者的关注,冯惠玲教授率先使用档案数据一词,探讨了档案计算机检索的数据准备问题。[1]此时,档案数据仅仅指代的是与档案相关的元数据。近年来,随着大数据浪潮下的新一代信息技术在档案工作前端与后端的同时发力,档案数据逐渐成为档案管理的新对象,档案数据也不再被认为是与档案相关的元数据,而是既包括元数据又包括内容数据的大规模档案数据。数据管理、数据治理等领域的研究成果开始渗透到档案管理当中,如何管理档案数据成为档案学研究当中的新问题。经文献调研,已有2篇相关综述,但其强调的是不同阶段档案数据的概念与档案数据治理的概念问题。为反映近年的研究关注热点,本文以相关文献较多且具有代表性的CNKI数据库收录的与档案数据管理相关的研究成果为基础,通过系统地整理和综述,揭示近十年来档案数据管理的研究进展,并对该问题提出研究展望,以期能够为后续研究提供参考。
1数据来源及统计结果
1.1数据来源
2011-2012年“大数据”概念的引入,使得我国档案数据管理研究内容产生了巨大改变。为了解近十年的档案数据管理研究现状,笔者以中国知网期刊全文数据库为文献来源,以主题为“档案数据”AND“管理”,检索年限为2011年—2020年,将期刊来源限定为北大核心与CSSCI,剔除不相关文献,同时补充“档案数据”AND“治理”等相关内容,最终选取180篇相关文献作为研究样本。
1.2统计结果
笔者借助Excel、EndNote以及SATI分析软件,通过定量分析与定性分析来对研究样本进行处理,从发文量、核心机构、核心作者、发文期刊四个角度来分析我国档案数据管理的研究现状。
1.2.1年度发文量
2011——2020年年度发文量见下表:
年度发文量往往体现一个领域对研究问题的关注程度。表1为筛选后的180篇相关文献年度分布情况,对2011-2020年关于档案数据管理的期刊年度发文量进行统计,得出此主题相关文献整体呈现迅速增长的态势,并在2020年达到31篇。就文献研究增长趋势看,此问题仍然有较大的发展空间与研究关注度。
1.2.2主要发文机构
2011——2020年主要发文机构见下表:
主要发文机构往往体现关注研究问题的单位分布情况。通过总结分析,从表2能够看出对档案数据管理问题关注的核心机构主要包括高校与国家档案机构两个群体。其中高校以上海大学图书情报档案系、中国人民大学信息资源管理学院为核心研究单位,档案机构中国家档案局、广东省国土资源档案馆、浙江省档案局、江苏省档案馆都对档案数据管理问题关注度较高。
1.2.3主要发文作者
2011——2020年主要发文作者见下表:
主要发文作者往往表现对研究问题关注度较高的学者分布情况。目前关注档案数据管理问题的作者呈现分散分布状态,其中发文量最多的是于英香学者与金波学者。刘永学者、周林兴学者等,多位学者都对此问题有研究。
1.2.4主要发文期刊
2011——2020年主要发文期刊见下表:
高频文献来源期刊能够体现关注此研究问题的期刊分布情况。笔者总结发现,对档案数据管理问题关注度较高的期刊皆为档案学领域期刊,其中《兰台世界》发文量最高,《中国档案》、《浙江档案》、《档案学研究》等期刊也刊登多篇相关文献,表明档案学领域整体对档案数据管理研究表现出高关注的现状。
由于档案数据管理研究处于尚处于初步发展阶段,在现有研究成果中档案数据管理与档案数据治理的研究内容多有交叉,本文统一用“管理”一词表达。文章采用定性分析将主题框架分为三个部分,一是档案数据管理相关概念的解读与辨析,主要包含档案数据概念、档案数据管理模式、档案数据管理工作对象。二是档案数据管理工作面临的困境,从管理思维、管理权限、管理能力三个层面进行分析。三是对已有文献对档案数据管理工作困境提出的解决对策进行总结归纳。
2关于档案数据管理相关概念的辨析
2.1关于档案数据概念的辨析
不同的学者对作为档案数据管理对象的“档案数据”的理解不尽一致。有学者从计算机存储的视角出发,认为凡是存储在计算机及相关存储设施当中的数字档案以及元数据都是档案数据。国家档案局发布的《基于文档型非关系型数据库的档案数据存储规范》指出档案数据包括电子档案的内容数据、传统载体档案数字化副本的内容数据以及两者的元数据(含目录数据);有学者认为档案数据除了包括数字档案,还包括与之相关的管理类数据。金波学者等人认为档案数据包括业务活动过程中形成的数据,管理及利用过程中工作人员与用户产生的数据[2][3];有学者认为新兴的具有档案属性的数据是档案数据。甚至有人说大数据是档案数据,有学者依据德里达与弗洛伊德的哲学认识,推知大数据都是档案[4]。网站数据、社交媒体数据、个人日志等网络数据也逐渐被纳入档案数据的范畴[5];还有学者指出,经过数据化处理后形成的数据态的档案称为档案数据。数据化后的档案资源才能进行下一步的档案数据利用[6]。钱毅学者提出部分行业文档管理已经呈现出数据态内容,需要关注数据本体、流程等问题[7]。对数据颗粒单元的档案管理,需要将档案数据化纳入企业信息化发展规划与绩效考核。[8]
相关知识推荐:天津市档案职称晋升政策
笔者认为,档案数据存在广义与狭义的区分,广义的档案数据认为所有系统中生成的具有档案属性的数据都应纳入档案数据管理范畴;狭义的档案数据指的是档案机构保存的数据资源及在管理过程中生成的有保存价值的管理数据。本文所讨论的档案数据处于狭义范围。
2.2关于档案数据管理模式的辨析
大数据浪潮推动档案行业开始探索档案数据管理这一问题,纵观学界对这一概念的研究,其内涵可以解释为:“档案数据+数据管理”与“档案+数据管理”两种模式。第一种模式“档案数据+数据管理”,指的是运用数据管理的方法对档案工作中的数据资源进行管理。于英香等学者将档案数据管理解构为:档案数据管理=档案数据+数据管理,指的是在数据管理范畴管理档案数据[9][10];刘越男学者认为档案也是一类数据,档案管理是数据管理的组成部分[11];谢国强学者等则认为数据属于档案,应将数据纳入档案管理范畴。[12]可见,对于档案数据管理当中档案与数据的关系档案界还存在分歧。第二种模式“档案+数据管理”是指档案部门参与数据管理,与数据管理部门协同治理大数据[13]。刘越男学者提出档案机构对业务上的文档和内容进行管理,与其他机构数据管理活动相辅相成,直接或间接的参与数据管理[14]。可以看出两种界定认为的管理对象存在着本质的不同。
笔者认为档案数据管理应该强调档案机构借助数据管理的方法与技术,在其管理范围内对档案数据资源进行管理。
2.3关于档案数据管理工作对象的划分
由于对于档案数据的不同理解,因此当前学界对于档案数据管理对象的认识也是五花八门。一是认为档案数据管理的对象源自档案馆内的原有数据以及生成的管理数据。例如周枫等学者就认为档案数据管理对象主要是档案馆藏资源、管理数据、利用数据[15];也有学者将档案数据分类为档案目录信息资源、档案内容信息资源、多媒体信息资源、应用信息资源、档案馆库信息资源[16]。二是认为档案数据管理的对象包括档案馆存储资源之外的大数据资源。例如有学者提出尚未纳入档案部门保管的数据,如政府公开数据、档案用户数据,甚至新型数据资源,感知数据、社交媒体交互数据等也是档案数据的来源[17]。笔者认为档案数据管理工作的对象首先应该在档案馆内,是从业务部门移交到档案馆内的数据资源。其次档案部门需要对业务部门的档案数据资源进行前端控制,提供管理支持,如数据格式、数据存储系统、数据内容的规范,以便后续对数据收集、保存、利用工作的开展。
综上,学界对于档案数据管理的相关概念并未达成统一,也缺乏对档案数据管理工作的系统解读。主要表现为:一是对档案数据的定义不明确,对于档案数据工作的对象与来源存在不同的认知,是否包括档案机构外部生成的大数据资源是主要矛盾。二是对数据管理与档案管理的关系解读存在分歧,到底是运用数据管理手段开展档案工作,还是档案部门参与数据管理工作,需要进一步的明晰。笔者认为,档案数据应当首先符合档案的基本属性,其次该档案是数据格式的档案。档案数据管理工作的对象应是在档案馆内部对数据格式的档案资源进行管理。
3档案数据管理工作面临的困境
档案数据管理工作处于起步阶段,多数机构的数字档案馆仅限于对半结构化成果(如PDF、图片等)进行管理,对于结构化的数据管理,在实际工作中仍有较大难度。通过对文献进行梳理,得出此困境的形成因素主要分布在档案机构旧有实践中思维的固化,数据浪潮带来的管理对象复杂化导致管理职能与权限的不明确,传统技术难以满足新的工作需求。
3.1管理思维固化
数据管理处于萌芽阶段,面对档案数据管理的转型,档案机构在思维上存在传统固化现象。对于档案管理对象,仍局限于传统的纸质档案管理;对于档案存储保管,存在管理思维上重数量、轻质量的倾向;对于档案开放,存在因害怕承担信息泄露、篡改等安全隐患的风险,而持有“不愿共享、不敢共享、不能共享”的心理[18]。这些固化的传统档案管理思维形成档案数据的存储保管、以及价值发挥工作的阻碍。
3.2管理权限模糊
由于对档案数据来源的不确定,其中认为包含政府数据、多媒体等大数据的划分方式,导致在档案数据管理职能划分上产生争议。由于档案部门自身管理权限的不明晰,使得具体职能未得到明确,导致档案部门与数据管理部门在管理对象上存在交叉,尤其在政务信息资源归档和开放等方面的职责划分不明[19]。在浙江省“最多跑一次”改革中,档案部门与业务部门在业务档案管理问题上权限不明,导致在实际档案收集工作难以开展[20]。面对数据管理大环境,档案部门还未加入已有43个国家部门和单位参与的促进大数据发展部际联系会议,表明档案部门已经在一定程度上失去对数据管理的话语权,无疑会影响到日后档案部门数据管理职能的发挥。
3.3管理能力局限
档案机构在开展档案数据管理工作时主要存在两方面的能力局限。一是技术方面。由于实践部门对档案数据深度分析能力尚浅,档案数据生态系统不健全,面对档案数据存量多、增长快、类型繁多、结构复杂的情况,传统的数据库不足以处理TB级别的数据,无法提供有力的解决措施[21]。对于防范档案信息的丢失、泄露等档案数据安全管理问题,更是存在技术上的缺陷。二是数据孤岛、数据难共享问题。在档案部门,没有标准统一的规范来管理不同全宗的不同系统中形成的不同格式的档案数据,导致档案数据资源的格式与内容存在差异。目前档案数据开放共享仅限于部分档案目录层级的开放共享,全内容数据的共享仍难以实现[22]。除此以外,在企业档案数据管理中信息孤岛现象也大量存在,数据标准不统一、数据质量差都是阻碍档案数据共享的重要因素[23]。
概言之,档案数据管理工作目前的困境分为两个方面,一是档案机构内部的管理思维与管理能力的局限。笔者认为,需考虑各级档案馆的现有数字档案馆建设水平,结合具体情况分析困境,不可采取“一刀切”的判断方式,应将不同档案馆的困境进行分类总结,再来寻找应对措施。二是档案机构与外部其他数据管理机构的权责不明确。笔者认为,面对数据资源的管理权限问题,档案机构不能急于全包全揽,而是明确与其他机构在实际工作中的矛盾,针对矛盾来划清权限,明确管理范围。——论文作者:何玲邢琳悦
* 稍后学术顾问联系您