国际书号

大数据背景下的图书馆读者借阅行为分析

分类:综合论文 时间: 热度:171

  摘 要: 图书馆读者的数量大、借阅行为复杂多变,而传统图书馆读者借阅行为分析方法精度不高,且工作效率极低,无法满足现代图书馆管理的要求。为了更好地刻画图书馆读者借阅行为,提高图书馆读者借阅行为分析的准确性,设计了大数据背景下的图书馆读者借阅行为分析方法。首先,分析图书馆读者借阅行为的研究现状,对图书馆读者借阅行为分析数据进行聚类分析,并提取图书馆读者借阅行为分析特征;然后,采用大数据分析技术——最小二乘支持向量机对图书馆读者借阅行为变化特点进行拟合,构建图书馆读者借阅行为分析模型;最后进行图书馆读者借阅行为分析实例验证。结果表明,大数据背景下的图书馆读者借阅行为分析精度超过93%,而当前其他分析方法的精度均小于90%,同时,减少了图书馆读者借阅行为分析时间,所提方法分析速度明显加快,具有显著的优势。

  关键词: 借阅行为分析; 图书馆读者; 聚类分析; 特点拟合; 分析模型构建; 实例验证

大数据论文

  0 引 言

  图书馆是人们获取知识的重要场所,其对高校的教学质量、科研起着重要的作用,全国各地的高校均建立了自己的图书馆管理系统,大幅度提高了图书馆的管理水平,也减轻了图书管理员的工作量[1?3]。图书馆管理系统经过多年运营,积累了大量的历史数据,如图书数据、读者数据等,对这些数据进行深度挖掘,掌握读者的借阅行为习惯和规律,可以为读者提供更优的服务,因此,对图书馆读者的借阅行为进行研究,对于提高图书馆的管理水平具有十分重要的意义[4?5]。

  最初由于图书馆读者借阅行为的历史数据较少,通常采用人工方式对图书馆读者借阅行为进行简单的统计与分析,难以充分找到图书馆读者借阅行为的规律,馆藏资源利用率低[6]。随着自动化技术、信息处理技术的不断发展,出现了许多基于数据挖掘技术的图书馆读者借阅行为分析方法[7],如基于时间序列分析法的图书馆读者借阅行为分析方法[8],根据时间前后采集图书馆读者借阅行为,但是其无法全面、客观地描述图书馆读者借阅行为变化特点,使得图书馆读者借阅行为分析结果不可靠[9];基于关联规则算法的图书馆读者借阅行为分析方法,反映了图书馆读者与借阅活动之间的联系[10],但是其属于线性分析技术,而图书馆读者与借阅活动之间的联系具有随机性,即非线性,因此图书馆读者借阅行为分析误差大[11];有学者提出了基于流通日志的高校学生图书借阅行为分析方法[12],从流量日志找到读者图书借阅行为变化规律,但是由于当前流通日志数据量相当大,其图书馆读者借阅行为分析时间长,效率低[13?15]。

  为了更好地描述图书馆读者借阅行为变化特点,获得高精度的图书馆读者借阅行为分析结果,提出大数据背景下的图书馆读者借阅行为分析方法,并通过实例分析本文图书馆读者借阅行为分析方法的有效性和优越性。

  1 大数据背景下的图书馆读者借阅行为分析方法

  1.1 聚类分析算法

  对于[n]个图书馆读者借阅行为分析数据[X={x1,x2,…,xi,…,xn}],设有[k]个聚类,即有[k]个类别的图书馆读者借阅行为,聚类分析算法的工作原理为:从[n]个图书馆读者借阅行为数据中随机选择[k]个图书馆读者借阅行为数据为初始聚类中心,其他图书馆读者借阅行为数据根据其与聚类中心距离分别分配到最相似的类别中。

  1) [cj]表示第[j]类的图书馆读者借阅行为类的中心,那么[xi]和[cj]的距离为:

  [d(xi,cj)=(xi1-cj1)2+(xi2-cj2)2+…+(xid-cjd)2] (1)

  [xi]和[cj]之间的相似度计算公式为:

  [s(xi,cj)=1d(xi,cj)] (2)

  2) 对所有聚类中心进行更新,第[j]个类别的图书馆读者借阅行为分析样本集合为[{xj1,xj2,…,xjnj}],相应聚类中心为[cj=(c1j,c2j,…,ckj,…,cdj)],[ckj]为[cj]的第[k]个属性,具体如下:

  [ckj=xkj1+xkj2+…+xkjnjnj] (3)

  3) 不断重复上述步骤,直到更新后的类中心和更新前一致为止,采用均方差作为测度标准,即:

  [J=i=1kj=1ni(xij-ci)2(n-1)] (4)

  通过上述步骤,就可以得到一个图书馆读者借阅行为分析样本的相似历史样本数量,不用选择所有的图书馆读者借阅行为历史样本进行建模,减少了图书馆读者借阅行为分析样本数量,可以提高图书馆读者借阅行为分析效率。

  1.2 提取图书馆读者借阅行为分析特征

  每個图书馆读者借阅行为有自己的特征,可以根据这些特征来识别相应的图书馆读者借阅行为。本文从3个方面提取读者借阅行为特征:

  1) 读者借阅图书的月时间、周时间和时段;

  2) 读者专业、读者学历、读者的职业、读者的年龄段;

  3) 读者借阅书籍类型、读者借阅书籍数量。

  1.3 图书馆读者借阅行为分析算法

  由于图书馆读者的数量大、借阅行为复杂多变,结合该特点,本文采用大数据分析技术——最小二乘支持向量机对图书馆读者借阅行为变化特点进行拟合,构建图书馆读者借阅行为分析模型。给定[M]个图书馆读者借阅行为分析数据[{xi,yi}],[i=1,2,…,n],构造最优图书馆读者借阅行为分析数据决策函数:

  [f(x)=wTφ(x)+b] (5)

  式中:[b]为偏置量;[w]为权值向量。

  根据现代统计学理论得到满足式(5)的条件为:

  [yi-wTφ(x)+b≤εmin J=12wTw] (6)

  根据最小二乘支持向量机的工作原理将式(6)转换为:

  [minw,b,eJ(w,e)=12wTw+12γi=1ne2is.t. yi=wTφ(xi)+b+ei] (7)

  式中[γ]表示控制误差的惩罚程度。

  引入拉格朗日乘子法解决式(7),建立拉格朗日函数:

  [L(w,b,e,α,γ)=12wTw+12γi=1ne2i-i=1nαi(wTφ(xi)-b+ei-yi)] (8)

  式中[αi]表示拉格朗日乘子。

  根据优化条件[?L?w=0,?L?b=0,?L?ei=0,?L?αi=0],消除[w]和[e],定义核函数[K(xi,xj)=φT(xi)φ(xj)],得到图书馆读者借阅行为分析模型为:

  [yi=i=1nαiK(xi,xj)+b ] (9)

  1.4 大数据背景下的图书馆读者借阅行为分析原理

  推荐阅读:大数据挖掘的论文投刊指导

* 请认真填写需求信息,我们会在24小时内与您取得联系。

最新学术问答

高端学术 品质服务 符合规范 安全放心

点击咨询

首页新版北核目录SCI期刊目录
sci期刊目录