摘要:本文为提升图书馆用户的智慧服务水平,结合我国智慧图书馆的发展现状,在收集智慧图书馆用户数据的基础上,构建基于聚类算法的智慧图书馆用户分析模型,利用SPSS软件对智慧图书馆的用户数据进行了K-means聚类分析, 将智慧图书馆的用户分为三类并归纳总结了各类型用户的行为特征,针对不同的用户提出了差异化的服务策略。
关键词:聚类分析;智慧图书馆;用户分类;K-means聚类
0 引言
大数据带来的信息革命已经渗透进了人们的工作、生活的各个行业,并带来了惊人的利益,数据对于行业的未来发展来说,有着推动创新、转型升级,随之提升行业活力的关键作用。在大数据时代,“数据驱动决策”是大势所趋,因而数据挖掘能力在各行各业的决策中显得尤为重要。
《大数据产业发展规划(2016-2020年)》提出利用大数据改造传统产业、培育新动能,这符合我国社会发展的客观需要,对实现创新驱动行业转型发展意义重大,前景广阔。《文化部“十三五”时期文化科技创新规划》中明确指出,图书馆要以自身的数据资源为主要内容,加强大数据采集、清洗、分析、共享、可视化的研发,提升大数据技术服务能力和应用开发水平,发展文化大数据。
对于图书馆行业来说,我国图书馆发展的重点已从资源建设转变为服务,提供差异化服务的智慧图书馆是未来图书馆发展的必然形态[1]。然而,差异化服务必须建立在了解用户的基础上,在大数据时代,需要对用户状态、行为的相关数据进行采集、分析和利用,才能更好地满足用户的需求,推动图书馆服务的创新和转型升级。因此,对用户的信息数据进行数据分析和挖掘,建立智慧图书馆用户分析模型,归纳总结用户的行为特征和行为模式,对用户的信息需求提供个性化的智慧服务,提升服务能力,实现图书馆转型升级,成为当前环境下图书馆面临的主要问题。
1 智慧图书馆的内涵与服务
“智慧图书馆”(Smarter Library)源于2009年IBM“智慧地球”(Smarter Planet)概念的提出。一般认为,智慧图书馆是大数据时代图书馆服务的一种状态,即可以认为提供智慧服务的图书馆就是智慧图书馆[2]。“智慧”是信息技术发展到一定阶段的一种自然属性,信息技术发展的高级状态就是智能化,一个拥有智能化服务的图书馆就表现为智慧图书馆[3]。图书馆的智慧服务通常是指在合适的时间、合适的地点以合适的方式向读者提供其所需的资源或服务,整个过程以一种自动化、人性化、个性化和交互式的方式提供,通过对用户数据、资源数据和相应的服务数据进行聚类,结合历史信息或其他尽可能利用到的数据进行挖掘分析而实现的自动化、个性化、智能化的读者服务[4]。
智慧图书馆的概念虽已提出多年,在学术界,从2011年起研究成果逐渐增多形成热点,研究成果丰硕,然而从目前的实践情况来看,智慧图书馆的发展仍处于初期探索阶段,在实践方面依然有很长的路要走。即使是在智慧图书馆实践方面走在前列的上海图书馆及上海交大图书馆能提供的智慧服务也比较有限。对于智慧图书馆需提供哪些具体的智慧服务,学术界尚没有统一的标准。
一般来说,智慧图书馆提供的智慧服务具备泛在化的特征,即通过多样化的方式让用户在任何地方、任何时间都能获得满意的服务。服务的界限扩大化、泛在化,应用网络信息技术实现图书馆资源定位、推送、定制和管理等智能化服务,以物联网技术为基础将图书馆资源、人员、设备等各要素整合起来,甚至可以引入虚拟现实和增强现实技术,实现服务空间的虚实结合,在计算机模拟的图书馆空间中为用户提供智慧化的信息资源[5]。
当然,智慧图书馆提供智慧服务的前提是对用户的深度了解。在大数据环境下,为更好地服务图书馆的用户,就必须要找出用户的特征,通过一些统计分析方法将用户隐藏在数据中的特征挖掘出来,从而对用户进行细分。分类用户服务是实现个性化服务的前期阶段,为进一步实现个性化服务作准备。
2 基于聚类算法的智慧图书馆用户分析模型构建
2.1 K-means聚类算法的基本思想
聚类是一种涉及数据点分组的数据分析技术,给定一组数据点,聚类算法可以将每个数据点分类到图像中的特定组中,同一组中的数据点应具有相似的属性和特征,不同组中的数据点的属性和特征差异度高。 当前数据科学家应用最广泛的聚类算法有K-means聚类、Mean-shift聚类、DBSCAM基于密度的聚类、EM聚类、层次聚类等。Kmeans聚类算法具有在代码中容易理解和实现的优点,可以处理大量数据集,具有很好的可伸缩性,且简单快速,是当前最知名的聚类算法。在对智慧图书馆的用户进行分类时,可采用K-means聚类算法尝试对用户进行分类,然后根据每类用户的特征,决定其服务策略。
K-means算法是一种较典型的逐点修改迭代的动态聚类算法,其算法的基本步骤如下:①从数据集中随机取k个元素,作为k个簇各自的中心;②分别计算剩下元素到k 个簇中心的相异度,将这些元素分别划归到相异度最低的簇;③根据聚类结果,重新计算k个簇各自的中心,计算方法是取簇中所有元素各自维度的算术平均数;④将数据集中全部元素按照新的中心重新聚类;⑤重复第4步,直到聚类结果不再变化;⑥输出结果[6]。
2.2 智慧图书馆用户分析模型构建
图书馆在长期的读者服务过程中,积累了大量的信息数据,包括用户的年龄、职业、学历、借阅量、借阅时长、流通借阅历史、电子文献下载量、微信图书馆访问量、移动图书馆上线天数、移动图书馆上线时长等。这些数据可以作为用户分类的依据来进行数据挖掘。分析模型如图1。
首先, 采集智慧图书馆用户群体的样本信息数据, 导入到数据处理软件中,进行简单的清洗。
其次,因为K-means聚类的变量要求必须是连续性变量,可选择对用户的年龄、借阅量、借阅时长、流通借阅历史、电子文献下载量、微信图书馆访问量、移动图书馆上线天数、移动图书馆上线时长等连续性的变量的数据进行“描述性统计”,将各变量的标准化得分另存为变量,即将原始数据标准化。标准化的作用是使各个变量之间具有综合性,避免不同变量数据本身的大小差异影响聚类结果。
再次,根据需要选取用户信息中合适的变量,要求必须是连续性变量,即在一定区间内可以任意取值的变量,其数值是连续不断的。
最后,设定K值,即需要的分类数,进行K-means聚类,输出聚类结果。
.3 智慧图书馆用户聚类案例分析
3.1 聚类的实现
以笔者所在江西经济管理干部学院图书馆的2017级学生用户为例,随机抽取100 位学生的信息来进行聚类分析。
SPSS为IBM公司推出的一系列用于统计学分析运算、数据挖掘、预测分析和决策支持任务的软件产品及相关服务的总称。 该研究采用当前最新版本的IBM SPSS Statistics软件来进行统计分析与数据挖掘。比如,以录取分数、年借阅量、移动图书馆上线天数为变量, 以学生编号为个案标注依据, 最大迭代次数设置为 100, 聚类数设置为3, 进行聚类分析。 其中录取分数为该学生高考进入大学的录取分数, 年借阅量为在图书馆管理系统中记录的2017年9 月1日至2018年8月30日的借阅图书的数量, 移动图书馆上线天数为该学生2017年9月1日至2018年8月26 日间在本校图书馆手机APP上线使用的天数累计。
首 先 使 用SPSS软 件 对 原 始 用户的“录取分数”、“年借阅量”、“移动图书馆上线天数”三列数据进行标准化,使用软件中的“描述性统计”—“描述”来操作,将标准化后的数据另存为变量,再对标准化后的数据进行“K均值聚类”操作。聚类结果如图2所示,100名用户被分为了三类,每一类的用户数目如图 3所示。
3.2 聚类结果分析
根据标准化值还原成原始数据,聚类中心点的高考总分、年借阅量、移动图书馆上线天数如图4所示。
第一类用户的聚类中心点 高考总分为374分,年借阅量为22本,移动图书馆上线天数为26天。这类用户的高考录取分数中等,且在图书馆借阅纸质书籍的数量中等,移动图书馆上线天数中等,人数在样本中所占的比例为33%,暂可以将这类用户归纳为智慧图书馆的普通型用户。
第二类用户的聚类中心点高考总分为285分,年借阅量为8本,移动图书馆上线天数为37天。这类用户的高考录取分数偏低,且在图书馆借阅纸质书籍的数量也较少,但移动图书馆上线天数稍多,人数在样本中所占比例为57%。这类用户阅读纸质书较少,但利用网络进行数字化阅读偏多,暂可以归纳为智慧图书馆的网络型用户。
第三类用户的聚类中心点高考总分为387分,年借阅量为35本,移动图书馆上线天数为142天。这类用户无论高考录取分数、图书馆书籍借阅量还是移动图书馆上线天数在三类用户中都是最高的,人数在样本中所占比例仅为10%。这类用户利用图书馆资源的频率最高,暂可以归纳为智慧图书馆的学术型用户。
4 智慧图书馆用户服务策略
对用户来说,智慧图书馆的用户服务水平主要取决于一系列智慧产品和智慧服务,智慧产品是指各种装备于图书馆的智慧型设备设施,如24小时自助图书馆、参考咨询机器人等;智慧服务则体现在新一代图书馆服务系统中,除了提供馆藏资源的智慧服务,智能化的空间服务也越来越重要,如自动用户感知和个性化推送等,已成为智慧图书馆服务的创新内容[7]。智慧图书馆服务体系主要由一系列智慧产品和智慧服务、图书馆业务管理系统和智能楼宇系统组成。
智慧服务强调的是针对用户的个性化服务。国内学者的研究中,智慧图书馆用户智慧服务的内容大致包括依靠RFID等室内、室外定位技术实现消息推送、馆内导览、读者行为分析、情景式信息素养培训和馆内导航等基于位置的服务,基于智能机器人等的智能化体验,基于移动智能终端的智慧图书馆移动信息服务,多种身份认证服务、数据库及挖掘服务、文件信息服务个性化服务等人性化服务[8]。
基于以人为本及个性化服务的思想,在身份认证和生物识别的基础上,对于不同类型的用户来说,智慧图书馆采取的服务策略应该是有所差异的,这也是用户细分的意义所在。
对普通型用户来说,学习成绩较好,对于纸质书的使用率处于中等水平,对于电子型信息资源的偏好性较低。智慧图书馆应在满足用户基本信息需求的基础上加强读书推广活动、知识讲座活动、技能培训活动的举办,提升读者的知识和技能。在图书馆大楼功能导航上较偏重于纸质书籍的阅读,对借阅书库、阅览室给予较优先排序。
相关论文推荐:高校智慧图书馆建设构想分析
摘要:我国高校图书馆经过数十年的建设,已基本完成了从传统图书馆向数字图书馆的转变,信息科学的快速发展,智慧图书馆正逐渐成为图书馆发展的新趋势。因此通过智慧图书馆的概念、特点及建设现状分析,提出如何通过智慧图书馆建设,更好的发挥高校服务功能的构想。
对网络型用户来说,对手机、电脑等电子产品的依赖性较高,人数在学生群体中占一半以上,这是因为随着网络技术、计算机技术的普及,手机、电脑、Pad等电子产品对于1995年后出生的大学生来说是最常用的生活、学习工具。对于这类用户,智慧图书馆应加强对趣味性知识、碎片化阅读知识内容的推送,组织的读书活动应尽量借助网络媒体为平台进行推广与举办。在馆内功能导航时可以给予电子阅览室、电子阅读机等优先排序。
对学术型用户来说,这类用户在学生群体中只占10%,属于精英型用户,在入馆时对借阅书库、阅览室有兴趣的概率更高,在图书馆功能导航时应给予优先排序。由于学习成绩优异、专业知识掌握较扎实,对专业性、学术性信息感兴趣的概率更高,可在微信图书馆、移动图书馆App等的信息推送中优先推送一些具有专业性、学术型的知识或活动消息。同时在微信图书馆、移动图书馆App及图书馆网站、数据库等所有网络型资源的页面上都可以对专业性的知识给予优先排序。
* 稍后学术顾问联系您