该技俩留心东说念主是深圳大学顾问学院的刘婷婷,技俩成员是陈晓虹。本技俩主要内容包括:1.以往计划多从合著汇集起程更正立时游走算法,但文件证实异质信息的加入会加多立时游走算法的准确度,因此本技俩将构建异构汇集,计划不同汇集之间的献媚法子。2.经典的立时游走算法适用于单一汇集,由于本技俩配置的是异构汇集,因此需要计划立时游走的更正算法,使其梗概在异构汇集中自动寻找最好旅途。3.不同的汇集领有不同的属性,是以构建异构汇集后需要进行属性的会通。本技俩将基于各汇集特色,计划提议一套评估候选节点的新机制。4.本技俩将提议新的保举鸠合造成法子,以得到保举契机的次数手脚评估候选节点的模样,并对该法子作念科学的解释。
本技俩的翻新之处主要体当今以下三个方面:1. 提议基于相助者汇集和机构网
络的异构汇集。现存对于相助者保举法子的计划大多基于单个汇集(相助者汇集),用于分析相助者相似性的特征并不充分。2. 联想一组评估节点之间相似度的机制。基于相助者汇集与机构汇集的异构汇聚积产生四种强度不同的邻居联系,因此需要基于邻居联系界说一组评估节点之间相似度的机制,从而率领立时游走的过程,尊严惩法用户已往的合魄力气和偏好。3. 提议更正游走框架的新式立时游走算法。已有的重发轫立时游走算法(RWR)的游走概率是固定的,无法跟着酬酢汇集联系进行动态改变,而利用动态游走概率能更好地描画节点之间的相似性传递,因此技俩还将提议一种变静态游走为动态游走概率的立时游走算法。
本技俩经结项验收,合乎结项要求。其最终摒弃为:论文:
1. HNRWalker: Recommending Academic Collaborators with Dynamic TransitionProbabilities in Heterogeneous Networks.
2. 会通语义和酬酢特征的电子文件资源保举法子计划。
会通语义和酬酢特征的电子文件资源保举法子计划1)
杨 辰 1,刘婷婷 1,刘 雷 1,牛 奔 1*,孙见山 2
(1. 深圳大学顾问学院,深圳 西风萝莉恋足5180601;2. 合肥工业大学顾问学院,合肥
230009)【摘抄】跟着学问爆炸期间的到来,电子文件数据库的负荷将急剧扩大,用户在库中搜寻所需资源也将愈发坚苦。因此,开荒电子文件资源保举系统从而提拔电子数据库的顾问受到计划者的平凡怜爱。协同过滤手脚时下数据库的常用保举本领,由于只是议论了用户对于著述的历史评分的相似度,忽略了用户在语义层面和酬酢联系的距离等伏击身分因而保举效果有限。为了在保举系统中融入这些影响身分,本文在基于用户的协同过滤的法子基础上引入了基于主题模子的文本相似度和两种社会化的用户相似度(用户标签相似度与用户群组相似度),利用非监督的会通战略对这些相似度进行了整合。本文提议的会通文本特征与社会化谋略的法子在确实数据集上展示了多源信息对于保举准确度的增强和提高效应,对于电子文件资源的顾问和传播具有较强的启示真理。
【裂缝词】文件资源;资源保举;协同过滤;主题模子;酬酢汇集
ANovel RecommendationApproach of Electronic Literature Resources Combining Semantic and Social Features Yang Chen1, Liu Tingting1, Liu Lei1, Niu Ben1*, Sun Jianshan2(1. College of Management, Shenzhen University, Shenzhen 518060; 2. College of
Management, Hefei University of Technology, Hefei 230009)
【Abstract】With the advent of knowledge explosion era, the load on the electronic literature databases will increase dramatically, and it becomes more and more difficult for users to search for the
基金技俩:国度当然科学基金技俩(71701134);汲引部东说念主文社科基金技俩(16YJC630153); 广东省当然科学基金技俩(2017A030310427)。
作家简介:杨辰,男,1989年生,博士,讲师,硕士生导师,主要计划规模:文本挖掘,保举系统。通讯作家:牛奔,男,1980年生,西宾,博士生导师,主要计划规模:智能顾问,智能方案;Email: drniuben@gmail.com。刘婷婷,女,1994年生,硕士生,主要计划标的:酬酢汇集分析。刘雷,女,1991年生,硕士生,主要计划标的:语义分析。孙见山,男,副西宾,硕士生导师,主要计划规模:保举系统。
required literatures. Therefore, the development of electronic literature recommendation system to assist the management of electronic databases has received extensive attention from researchers. Collaborative filtering is a commonly used recommendation technique for current literature databases. However, the traditional collaborative filtering algorithms, which only consider the similarity of users’ history scores, ignore some important factors, such as the users’ semantic similarity and social relationships. In this paper, we integrated the text similarity-based topic model and two kinds of socialized user similarities (user tag similarity and personal group similarity) into the user collaborative filtering recommender system by utilizing an unsupervised integration strategy. The experiment on the real data set shows that the multiple source features have an enhancement and promotion effect on the recommendation accuracy, which provides strong implications for related electronic literature resources recommendation research.
【Keywords】literature resources; resource recommendation; collaborative filtering; topic models; social networks
1 序论互联网本领的普及和赶快发展鼓励互联网功能从Web1.0期间向上到Web2.0期间。而Web2.0 期间的互联网用户在向互联网单纯“索求”的基础上又加多了“孝敬”的脚色。在这么的互联网布景下,数据量爆炸式增长而确实有用的信息被深深掩埋。文件资源手脚时下电子资源的伏击类型之一,一样面对着过载的压力。仅从学术论文的角度起程,把柄爱念念唯尔(Elsevier)SCOPUS 数据,2016年中国就发表了42.6万篇论文,发表总和量首超好意思国,成为全球第一。而出书社出书的电子典籍、汇集用户自觉孝敬的电子文件等更是多到难以统计。跟着时间和资源的累积,电子文件数据库将变得越来越渊博,并给读者带来巨大的文件搜索包袱。
现阶段处治信息过载的主要模样是搜索引擎与保举系统。搜索引擎常用的搜索战略是基于关
键词的信息检索,这不错在一定进度上处治信息超载的问题,但该法子不时忽略词语的语义层面,可能会导致较低的搜索摒弃准确度以及较大的裂缝词挑选坚苦性,尚无法傲气用户的多元化和个性化需求[1]。除了传统的信息检索外,能自动给用户进行资源推送的个性化保举系统亦然一个尽头有后劲的提高信息使用效率的法子。其把柄用户的偏好和需求,将用户感深嗜的居品或者信息保举给用户,比如电影、册本和新闻等。一个高效和准确的电子文件保举系统会主动向用户保举稳妥他们的内容,不仅不错大宗从简用户查找的时间,还能在系统与用户之间配置密切预计,让用户对保举产生依赖,从而造成良性轮回。
刻下常用的电子文件保举算法可分为基于图(汇集拓扑图)的保举、基于内容的保举
(Content-based,CB)和协同过滤保举(Collaborative filtering,CF)。手脚一种传统的推
荐本领,CF的基本念念想是先找出与用户深嗜摆布的“邻居”,然后利用这些邻居的偏好信息进行互补保举。比较于CB,CF只需利用已往的评分信息,而不需要对技俩有注重的形容。CF法子在学术界备受激情的原因,是因为它允许用户从其他东说念主的训诫中获取上风[2]。关联词,传统的协同过滤法子所依托的只是是用户物品(UI)矩阵的信息,未议论对影响保举摒弃的其他伏击身分,因此不错提议搀杂型法子从多个方面进行缺欠弥补。基于此不雅点,本文在协同过滤本领较为熟谙的矩阵相似度计较中引入三种多源保举布景信息,从而对传统的协同过滤法子的给以补充和增强效应。这三种信息诀别为:(1)基于主题模子的文本相似度;(2)著述阅读社区中的用户相似度;(3)基于著述评价短标签(tag)的用户相似度。说七说八,为了匡助用户更好地找到电子资源数据库中的所需资源,本文在传统的协同过滤保举框架下,通过非监督的Comb会通战略对三种不同维度的特征进行相似度的会通操作,然后利用多源信息搀杂的用户相似度计较最隔邻,提议了一种新式的电子文件资源保举法子。该法子对于电子文件资源的保举具有较强的表面真理,对高校数字化藏书楼修复和电子商务平台文件保举工作有伏击的实践真理。本文第四章所进展的基于在线著述阅读平台CiteULike的数据实验摒弃也考据了这种新式的保举法子的准确性和可靠性。
本文组织结构如下:第二章给出关联布景和文件回来;第三章提议基于协同过滤的电子文件资源保举法子;第四章先容实验摒弃和分析;第五章总结全文。
2 关联布景和文件回来 2.1电子文件资源保举的应用近况和趋势在全民阅读的期间布景下,电子资源的伏击性了然于目。把柄国际藏书楼协会集结会 (International Federation of Library Associations and Institutions, IFLA) 2012年发布的《电子资源馆藏发展的裂缝问题:藏书楼指南》[3],可将电子资源界说为需使用计较机看望的而已。而本文的计划对象是指其中的文件资源,举例学术论文、典籍、报纸等,不包括电子视频、图片和音像等。
从文件的角度看,电子文件资源保举应用最平凡的是学术论文保举和典籍保举。首个论文保举系统由Giles等东说念主于1998年推出[4],随后越来越多的论文保举系统被到手开荒。举例国内的百度学术,外洋的谷歌学术等。其中,百度学术的电子文件资源保举工作具体体当今论文页面的 “相似文件”一栏。这些文件是基于保举本领主动推送给用户的电子资源。而典籍保举系统则由于当下东说念主们在线阅读的风俗已慢慢养成,因而大宗应用在一些在线阅读平台(阿里巴巴的书旗、京东的校园阅读等)。奉陪数字化文件资源的激增,电子文件资源保举本领的应用将越来越受到怜爱,并成为电子文件系统不能阻隔的伏击功能。
从工作的提供方来看,电子文件资源保举本领被平凡应用于高校的数字化藏书楼和电子商务平台。跟着我国信息处理、存储与顾问本领的高速发展,越来越多的高校对藏书楼的文件资源扩凑数字化顾问,慢慢末端从传统的藏书楼向以检索为主的自动化藏书楼再到当今以用户需求为导向的数字化藏书楼的蜕变[5]。数字化藏书楼正成为当下民众藏书楼的主流样式,为读者提供越来越智能化和个性化的文件工作[6]。而对提供电子文件资源的电子商务平台来说,为顺应用户的阅读风俗,提高用户对平台工作的满足度,则不得不着力开荒电子文件资源的保举本领以傲气用户千般化和个性化需求。亚马逊公司恰是利用基于协同过滤的智能算法将电子文件资源保举给读者,从而为具有不同布景、不同深嗜偏好的读者自动保举傲气其需求的内容,既引诱了大齐量的读者客户,又大幅加多了其业务利润[7]。除此以外,一些在线阅读平台如新浪阅读、百度阅读、腾讯阅读和起程点汉文网等平台,主要接管的是基于关联模子和基于热度的名次榜保举[8]。保举的历程大多先获取用户的一些个性化数据,然后把柄群体脾气进行保举,尚无法简直末端个性化的智能保举。不管是从文件类型来看如故从工作的提供方来看,跟着全球信息化本领的持续发展、用户阅读意愿的显赫提高以及电子文件资源的数目激增,齐将促使电子文件的保举本领持续上前发展,并缓缓被普遍应用。
2.2构建电子文件资源保举工作的必要性把柄中国新闻出书计划院发布的《2017~2018中国数字出书产业年度泄露》涌现,2017年,互联网期刊、电子典籍、数字报纸的总收入高达82.7亿元,与2016年比较增长5.35%。其次,第四届(2018)中国数字阅读大会发布《2017年度中国数字阅读白皮书》统计告示我国2017年数字阅读用户已近4亿。这意味着我国电子文件在线阅读的需求极大。与此同期,学问爆炸期间中电子文件的大宗加多,导致电子资源数据库又正面对“量”的压力。因此,跟着用户在线阅读风俗的慢慢养成,电子文件资源高效顾问的伏击性愈发显赫。
履行上,高效的资源顾问毫不仅是对电子文件资源进行合理采集、处理、存储与整合,还应提供友好的资源呈现模样,从而实时准确地傲气用户在线获取电子资源的需求[9]。关联词,仅依靠用户检索的模样呈现资源是远远不够的。因为高新本领的发展、用户在线阅读需求的加多以实时间的齐人好猎,会导致电子文件系统承载的文件数据将越来越芜乱,用户文件的检索难度会越来越大。
因此,不管是对高校数字藏书楼修复和顾问如故电子阅读商务平台的运营和销售,齐需要利用电子文件资源保举工作提拔文件的检索工作。一方面该工作不错揭示平台内的文件资源,提高文件资源的最大利用率,另一方面最大化地傲气用户文件检索的准确度与时效性需求[5]。
2.3电子文件资源保举的法子综述电子文件资源保举本领是指汇集平台把柄用户的历史举止数据或个东说念主数据自动在平台内搜索对应资源并主动向用户呈现的实用本领[10]。它不仅能匡助读者快速地在藏书楼中找到所需的电子典籍,也能匡助科研东说念主员在容纳海量论文数据的科研学术平台中挖掘所需论文。当下,跟着电子文件的激增和用户电子阅读风俗的养成,电子文件资源的保举依然成为学者们要点激情的一个科研标的。刻下,主流的电子文件资源的保举法子分为三种[11]:(1)基于图(汇集拓扑图)的法子[12-13];(2)基于内容的算法[14-16];(3)协同过滤法子[19-21];
基于图的法子不议论用户和保举对象的内容特征,而是最初构建拓扑图,即物品或用户的内在预计所造成的图汇集。在图中,用户和保举对象齐被抽象化成汇集中的节点,通过节点之间的相似度来末端保举。常用的电子文件资源拓扑图举例基于援用联系的拓扑图,基于作家合著联系的拓扑图以及基于读者阅读联系的拓扑图等。已有计划举例Chakraborty等[12]在援用汇集中使用立时游走框架进行科技论文保举。Pan等[13]381-392基于援用汇集和内容汇集构建异构汇集,然后应用基于图的相似性学习算法末端论文保举。该类法子的特色是计较较其他算法方便,但劣势是准确率每每无法达到履行应用水平。
基于内容的保举本领在统统这个词保举规模中已较熟谙。这一类算法大多从保举对象的自身提取内容上的特征构建保举模子。举例Wang等[14]在基于内容的保举算法框架下,献媚学术资源的泰斗性、流行度和时效性等脾气为用户保举学术资源。陆璐[15]针对电子文本的高维度和难处理特色,接管拆分法变长文本为多个漫笔本,利用多维潜在语义算法模子,构造语义联系图矩阵来表征语义关联性最闭幕尾电子书保举。为了匡助文件顾问平台识别用户的潜在计划深嗜,曾子明等[16] 先基于内容的个性化过滤法子辨认用户的计划深嗜偏好,再利用社会汇集分析法搜寻数据库中对应的高影响力论文,从而末端个性化的著述保举。
协同过滤保举算法是履行互联网平台(酬酢平台、电商平台等)中应用最普遍、最到手的保举算法[17]。其基本表面是用户会可爱具有相似或沟通深嗜的用户可爱的东西。由于只利用已往的评分信息,平台的适合性相对更强,因此与基于内容的法子比较,协同过滤法子在学术界更受激情[18]。
电子文件资源保举的协同过滤算法计划也较多。举例,对于藏书楼学术资源信息过载问题,李默等[19]提议在协同过滤保举的框架下会通讯任度和用户特征的学术资源保举法子。曹斌等[20] 利用用户的阅读时长来权衡用户的阅读速率,提议献媚阅读速率感知模子和册本阅读权重模子的搀杂的速率-权重模子,从而基于用户的潜在反馈来填补评分矩阵,进行基于协同过滤的电子典籍保举。除此以外,王燕等[21]基于时间序列抽取用户看望URL的信息填补转换矩阵,然后基于余弦因子法找到N个办法对象的最近的邻居,临了把柄协同过滤保举法子末端学术资源的动态保举。
在电子文件资源保举规模,尽管协同过滤保举算法更受学者激情,但履行使用得却比基于内容的法子少,原因是电子文件资源用户的举止数据远少于电子文件资源自身的特征数据,是以单纯的协同过滤保举算法保举的能源不及,容易由于数据疏淡和特征不及导致准确率低[22]。为了处治这个问题,本文在协同过滤算法的框架下,接管作家主题模子模拟用户的专科学问,利用用户在著述阅读社区中的群组联系构建基于社区的用户相似度,然后利用J-S相似度进行基于用户的相似度匹配,最闭幕尾更准确的协同过滤保举。
3 协同过滤框架下多源信息会通的电子文件资源保举系统协同过滤法子是一种传统的保举本领,该法子合计用户会可爱与其相似的用户可爱的居品或工作。但传统协同过滤算法只是议论了用户历史评分矩阵中所反应的偏好信息,冷漠了用户已往的阅读深嗜偏好以及著述之间的主题相似度。而基于内容的保举虽会议论阅读的著述所抒发的读者阅读深嗜,但以往的计划多是使用基于裂缝词的信息检索法子来舍弃,对于文本内容的处理不够考究。
说七说八问题,本文在协同过滤的用户相似度计较框架基础上,接管对于文档主题抽取有较好效果的作家主题模子来进行著述的内容表征,况兼基于主题模子把柄不同文档的主题分散情况来计较文档间的相似度。除了内容相似度外,本文也引入了著述阅读社区中的用户相似度与基于著述评价短标签的用户相似度两种用户酬酢特征。临了,多源信息(基于主题模子的文本相似度、著述阅读社区中的用户相似度和基于著述评价短标签的用户相似度)将通过Comb法子会通在传统的协同过滤保举框架上。计划框架如图1所示,具体的保举过程是多源信息最初与协同过滤算法计较的用户相似度进行了会通,然后利用空洞后的用户相似度进行评分计较,临了生成保举列表。底下将最初先容本文所使用的基于用户相似度的协同过滤框架,并诀别先容三种相似渡过头会通的具体计较过程。
图1 多源信息会通的电子文件资源保举框架
3.1基于用户相似度的协同过滤本领一般来说,基于用户相似度的协同过滤包含三个主要阶段:
赤裸裸家政妇在线观看邻居造成阶段:找到和办法用户具有相似偏好的“邻居”群体。这里的邻居代表着从历史评分数据中挖掘出的一组志同说念合的用户,他们和办法用户可能并不虞识,然而对于办法事物的意识和偏好却很相似。
邻居遴荐阶段:计较出候选的邻居鸠合后,下一步即是选出k个最隔邻,来表征办法用户需要参考的对象。因为在全量用户鸠合上进行相似度的计较过于冗余,而且许多距离较远的用户参考价值也不够大,因此往常用k个最隔邻来代表邻居群体。
评分空洞阶段:该阶段是把柄第二步遴荐的k个邻居所评价过的技俩评分(该办法用户尚未评价过),进行相似度空洞,从而预计出办法用户对于这些技俩的评分。
由于本文在计较用户相似度时议论到了用户历史阅读著述的语义相似度,因此作家遴荐了基于用户的协同过滤法子。基于用户的协同过滤法子最初对于一个给定的用户找到最相似的邻居鸠合,然后空洞这些邻居的偏好进行保举。常用的基于偏好矩阵的用户相似度谋略Pearson相似度如公式(1)所示:
simu,v pP rui2 -ru rvi -rv 2 (1)
pP rui -ru * pPrvi -rv
其中rui代表用户u对于物品i的评分,ru代表用户u的历史评分均值,P是用户u和用户v 的有共同评分的物品鸠合。用户的评分减去其均值为去中心化操作,是为了去猬缩用户的评分程序的影响。
基于用户的保举框架会空洞邻居的相似度,该模子的界说如下:
predu,i ru vNsim(u,v)(rvi rv ) (2) sim(u,v) vN
其中, pred u,i是指用户u对于未评分的物品i的预计评分,N是给定用户u的最隔邻鸠合。
3.2基于主题模子的文本相似度传统的基于内容的著述保举计划中[16-18],常见的内容相似度计较法子有基于TF-IDF法子的余弦相似度等。这种法子对于语义的使用只是体当今裂缝词层面,无法捕捉到文档的语义特征,从而容易出现失配的问题。而作家主题模子往常被应用于信息检索和学问发现规模[23],它不错处治一词多义和同义裂缝词匹配的关联问题。因此本文拟使用作家主题模子来进行用户阅读文本的语义相似度计较。
作家主题模子[24]从LDA模子[25,26]发展而来。它的提议拓展了作家、裂缝词和潜在主题之间的联系。在该模子中,每一个文档齐被表征为一组裂缝词数的向量。在每一个主题上的词被假设盲从参数为ϕ的多项式分散,每一个作家的潜在主题被假设盲从参数为θ的多项式分散。假设有一组鸠合:D个文本,T个主题和K个作家。作家主题模子的概率图不错用图1默示,其中暗影部分代表给定样本的不雅察值。w是文本的词华集,ad是文本的作家鸠合。α和β诀别是θ和ϕ 的狄利克雷先验分散的参数。x和z 诀别代表作家变量和主题变量。对于给定的文本,作家、主题和词诀别把柄ad、Dir(α)和Dir(β)的立时候散进行抽样。临了,主题模子的参数不错把柄抽样的数据进行臆测。图2中的箭头默示变量间存在条目依赖[24-27]。
图2 作家主题模子的概率图模子[24]
利用作家主题模子来计较读者们历史阅读文件的文本相似度的语义相似度法子相对于信息检索规模的多数相似度计较法子来说,处治了传统信息匹配中可能会出现的裂缝词失配问题,对电子文件资源保举具有很好的提高效果。
在这项计划中,咱们疗养作家主题模子以更好模拟计划东说念主员的专科学问。咱们提议的这个保举系统的优点之一是作家主题模子梗概在线上环境进行动态更新,因而梗概捕捉最新的计划东说念主员的专科学问。为了末端对于著述主题的高脉络的匹配精度,需对用户的历史阅读著述档案进行语义分析。
模子配置与参数臆测
基于作家主题模子的假设,需要对两个未知参数进行臆测:θ(每个作家的主题分散)和ϕ (每个主题上的词分散)。正如Rosen-Zvi等[24]提议的法子,咱们接管马尔可夫链蒙特卡罗算法和吉布斯采样从后验分散进行参数臆测。
文本匹配度计较
在对作家主题模子进行学习后,计划东说念主员的专科学问不错默示为一系列主题的分散。
Rosen-Zvi等[24]也曾接管对称的Kullback-Leibler散度(SKL)来测量两个大众之间的专科知知趣似度。而Weng等[28]在其著述中接管的是Jensen-Shannon散度(JS)来度量概率分散之间的距离。同SKL比较,JS引入了平均值的念念想,且在数值上也更为安适[29]。因此,本文接管
JS散度进行关联匹配,具体计较模样如下:
v
DKL (Rj P Rk )=Rj (i)ln vj
i Rk (i)
(3)
v v
v v v R (i) v
DSKL (Rj P Rk )=i Rj (i)ln Rvkj (i) Rk (i)ln RRvkj ((ii))
(4)
v v R (i)
M = (Rj +Rk )
2
(5)
v v 1 v v v v
ToSu ,u =DJS (R j P Rk )= (DKL (R j P M )+DKL (Rk P M ))
(6)
1 v v
j k 2
v
其中,i是向量的维度下标,Rj 和Rk 默示之前从作家主题模子中得到的两个计划者的深嗜
v
v
分散。SKL散度不错由式(4)计较。M 是取Rj 和Rk 的平均。从式(6)不错看出,JS散度是
SKL散度的修改版。
3.3著述阅读社区中的用户相似度利用用户在著述阅读社区中配置的群组联系,不错构建基于社区的用户相似度。最初,团结个社区群组的用户对于著述的基本偏好较一致。此外,群组里的用户会被群组里进行的关联酬酢举止所影响,举例群组会对某一篇著述进行探讨或者对于某个主题进行分享与筹商,旷日遥远群组里的用户也会产生沟通的偏好与不雅点。因此,本文将基于用户深嗜群组计较得到的相似度也纳入了保举系统的框架。具体来说,群组的相似度不错用Jaccard法子进行计较,如公式(7)所示。
Nuj ,group INuk ,group
GSuj ,uk = (7)
Nuj ,group UNuk ,group
在公式(7)中,Nuj,group默示的是用户j在网上阅读社区所加入的群组鸠合,分式的上方表
示的用户j和用户k的群组鸠合的杂乱,分式的下方默示的是两个鸠合的并集。由于群组酬酢相似度的宗旨较为直不雅,因此本文接管的法子与他类似法子的效果无彰着差距。
3.4基于著述评价短标签的用户相似度在线的用户对阅读过的著述进行评价的时候,每每会接管短标签(tag)的模样,比如使用“写得精彩”、“保举系统论文”、“翻新性强”、“文本挖掘”等短语来抒发著述的基本内得意者其对于著述的看法。这些标签的分类对于阅读者的深嗜偏好也有一定的反应。深嗜偏好相似的用户对于团结篇著述所打的标签往常较为一致,而且其给出的标签(尤其是名词短语)基本也能反应出作家的即时深嗜,或者说对于这篇著述的激情点。以本文为例,激情本领的读者会接管“协同过滤”的标签,而对于资源保举感深嗜的用户则会接管“资源保举”的标签。Jiang等[30]就接管从CiteULike数据聚合提取的用户标签信息,并在LDA的基础上利用这些社会标签资源来计较摘抄间的问题相似度和法子相似度。
由于标签信息比较浅显和固定化,因此在履行处理中不需要进行长文本的语义分析。在进行了切分词处理和合并操作后,不错班师使用标签自身的共现联系进行处理。这些短标签的共现情况与用户的相似度是正关联联系。具体而言,短标签的处理也接管了类似于Jaccard法子的战略来基于用户的tag信息得到用户相似度的保举法子,具体公式如下:
Nuj ,tag INuk ,tag (8)
TaSuj ,uk =
Nuj ,tag UNuk ,tag
其中,Nuj,tag默示用户j已往阅读著述所给出的标签鸠合。
3.5用户相似度会通和保举在获取了三种不同维度的特征表征法子以后,下一步即是与传统的基于协同过滤的用户相似度进行会通。本文接管的黑白监督的Comb-MNZ法子进行相似度的会通操作。为了保证数据会通的可靠性,在会通前先利用最小-最大方法化法进行相似度分值的方法化。
会通过程如公式(9)所示。式中wn代表每个列表的权重,臆测法子为联想战略。此外,f=4,
诀别默示基于协同过滤的用户相似度(simuj,uk)、文本相似度(ToSuj,uk)、著述阅读社区中的相似度(GSuj,uk)和基于著述评价短标签的用户相似度(TaSuj,uk)。R 默示4个列表的候选邻居用户鸠合,h(i,R)默示候选择户i在R中出现的次数。
f
Scorefused_Comb_MNZ = h(i,R)* wn *Simnorm (i,rn ) (9) n=1
说七说八,本文议论了三种新式的电子文件资源保举中的特征,并议论将其会通到传统的协同过滤的保举框架中去,具有较强的表面和实践真理。把柄作家的综述情况,本文是初次提议将三种新颖的保举特征在著述保举的过程中进行空洞议论的著述,而本文第四节中基于确实阅读平台的数据实验摒弃也考据了这种新式的保举法子的准确性和可靠性。
4 实验和摒弃筹商 (1)数据集本计划使用的是基于CiteULike网站上的用户阅读数据集。CiteULike是一种坚毅的顾问和分享参考文件的社会标签系统用具。除了能给关联著述添加书签,CiteULike还提供酬酢化的功能,用户不错创建或者加入具有特定计划主题的计划小组。
在对原始数据鸠合进行预处理后,咱们删除近似和空缺文件,并去掉个东说念主文件库里少于10 篇著述的用户。临了得到的数据集里共有8479名用户,90233篇著述和243516个不雅察到的用户著述对。对于每一篇著述,咱们删除了停用词。同期,为了增强对于中枢词的筛选,咱们使用TF-IDF 法子筛选出了前15000个不同的单词手脚词汇,产生了一个1.1M 的语料库。临了,咱们按照1:3 的比例对实验数据鸠合进行立时切分,其中25%手脚测试集,75%为磨砺集。对比实验接管5折交叉法,取5次实验的谋略均值手脚比较摒弃。
(2)评价谋略本文接管了五种常见的物品保举系统的评价谋略,诀别是prcision准确率、recall调回率、
F-measure、MRR (Mean Reciprocal Rank) 和MAP (Mean Average Precision)。这五种谋略数值越大,则保举效果越好。关联计较公式不错在文件[31]和[32]找到,这里不再赘述。
(3)实验摒弃分析本计划将基于用户的协同过滤法子(下文简称为CF法子)、基于内容相似度的保举法子(以下简称CB法子)以及本文所提议的新法子(以下简称PM法子)在CiteULike数据集上进行了对比实验,其中准确率、调回率、F-measure、MRR和MAP谋略上的对比摒弃如图3-5所示。
图3 准确率和调回率的对比摒弃
图4 F-measure对比摒弃
图5 MAP和MRR对比摒弃
图3和图4可看出,在前3、6、9、12、15的保举列表长度上,准确率、调回率和F-measure 谋略齐在本文提议的PM法子上取得了最好效果,对比的CF法子效果也比较好,而CB法子效果最差。同期,从图5的MAP和MRR两个排序谋略摒弃也不错看出,本文提议的新法子取得了最好的效果。以上摒弃充分证实了本文提议战略的有用性,法子的联想念念路与履行数据相吻合。
5 结语电子资源个性化保举系统是现阶段缓解信息过载压力,提高信息使用效率的有用法子。因此,构建高效的电子文件资源保举系统对高校数字化藏书楼和在线阅读平台傲气用户多元化和个性化阅读需求具有伏击真理。关联词,尽管协同过滤保举法子对平台和资源的适合性较强,但由于使用的特征还存在较大局限性因而在电子资源保举规模还有很大的更正空间。本文为了弥补协同过滤法子在用户相似度的计较过程中对于著述语义和用户酬酢联系分析的不及,通过在传统的协同过滤保举的用户相似度矩阵中引入三种不同维度的特征,从而修正了相似度的计较过程。同期,本文将提议的PM法子和两种对比法子(基于用户的协同过滤CF法子和基于内容相似度的CB保举法子)在确实数据聚合进行了一系列的实验,实验摒弃标明该法子具有较好的适合性和较好的保举效果。本文提议的电子文件资源个性化保举法子对数字藏书楼规模的信息传播与学问扩散具有正面的率领真理,不错有用匡助计划者和业界东说念主士寻找到感深嗜的文件资源。在改日的计划中,作家将尝试把多维特征移植到汇集图中进行计较,利用汇集图中的旅途和邻居联系挖掘潜在的用户联系,进一步更正保举法子,从而构建更智能化和个性化的电子文件资源保举系统。
【参考文件】
毕强, 刘健. 基于规模本质的数字文件资源团员及工作保举法子计划[J]. 谍报学报, 2017, 36(05):24-32.
Adomavicius G, Tuzhilin A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering, 2005,17(6): 734-749.
赵艳, 肖曼, 鞠文红,等. 电子资源馆藏修复的裂缝问题:藏书楼指南[J]. 典籍谍报使命动态,2012(4):1-4.
Bollacker K D, Lawrence S, Giles C L. CiteSeer: an autonomous web agent for automatic retrieval and identification of interesting publications[C]// International Conference onAutonomousAgents, 1998, pp. 116–123.
黄义文. 大数据环境下藏书楼学术资源个性化保举工作计划[J]. 藏书楼学刊, 2016(7):78-80.
查先进, 李力, 严亚兰,等. 数字藏书楼环境下信息有用性和信息获取影响身分计划——信息获取自我遵循的
疗养效果[J]. 谍报学报, 2017, 36(7):669-681.
陈玉, 尹桂平. 移动阅读信息资源保举与利用战略[J]. 藏书楼学计划, 2017(1):69-72.
方磊. 基于移动互联网阅读平台的智能保举体系应用计划[D]. 南京:南京邮电大学,2016.
陈俊鹏, 虞为. 基于实时新闻分析的馆藏资源保举法子计划[J]. 中国藏书楼学报, 2015,41(6):86-96.
[10]李树青, 徐侠, 许敏佳. 基于读者借阅二分汇集的典籍可保举质料测度法子及个性化典籍保举工作[J]. 中
国藏书楼学报, 2013, 39(3):83-95.
Beel J, Gipp B, Langer S, Breitinger C. Research-paper recommender systems: a literature survey[J]. International Journal on Digital Libraries, 2016,17(4): 305-338.
Chakraborty T, Krishna A, Singh M, et al. FeRoSA: a faceted recommendation system for scientific articles[C]// Pacific-Asia Conference on Knowledge Discovery & Data Mining, 2016, pp. 528–541.
Pan L, Dai X, Huang S, et al. Academic paper recommendation based on heterogeneous graph[M]// Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data, 2015, pp. 381–392.
Liu X, Wang Z, Ye F. A recommendation system algorithm based on large scale internet environment[C]// Web Information Systems & Applications Conference, 2017, p. 112.
[15]陆璐. 基于内容的电子书和作家保举法子计划[D]. 哈尔滨:哈尔滨工业大学, 2016.
[16]曾子明, 周红. 科技文件中基于主题的社会化保举计划[J]. 谍报表面与实践, 2015, 38(3):71-76.
[17] Wang Z, Liu Y, Yang J, et al. A personalization-oriented academic literature recommendation method[J]. Data Science Journal, 2015, 14:1-9.
[18]孙梦婷, 袁小群. 我国粹术数据库协同过滤资源保举计划近况探讨[J]. 出书科学, 2017, 25(4):11-15.
[19]李默, 梁永全, 赵配置. 会通相似性评价、信任度与社会汇集的学术资源保举法子计划[J]. 谍报表面与实践,
2015, 38(5):77-81.
[20]曹斌, 彭宏杰, 侯晨煜, 等. 基于用户隐性反馈与协同过滤相献媚的电子册本保举工作[J]. 微型微型计较
机系统, 2017, 38(2):334-339.
[21]王燕, 欧莹元, 张继燕. 马尔科夫协同过滤模子在用户动态举止分析中的应用[J]. 无线互联科技,
2015(4):144-146.
[22]刘智超. 基于搀杂模子的学术论文保举法子计划[D]. 北京:北京邮电大学, 2015.
[23]徐戈, 王厚峰. 当然话语处理中主题模子的发展[J]. 计较机学报, 2011,34(8): 1423-1436.
Rosen-Zvi M, Griffiths T, Steyvers M, Smyth P. The author-topic model for authors and documents[C]. 20th conference on Uncertainty in artificial intelligence, 2004, pp. 487–494.
Blei D, NgA, Jordan M. Latent Dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022.
[26]蔡永明,长青.共词汇集LDA模子的汉文漫笔本主题分析[J].谍报学报,2018,37(03):305-317.
Rosen-Zvi M, Chemudugunta C, Griffiths T, Smyth P, Steyvers M. Learning author-topic models from text corpora[J]. ACM Transactions on Information Systems (TOIS), 2010,28(1): 4.
Weng, Jianshu, et al. TwitterRank: finding topic-sensitive influential twitterers[C]. 3th ACM International Conference on Web Search and Data Mining, 2010, pp. 261–270.
Huang, Xiangsheng, et al. Jensen-shannon boosting learning for object recognition[C]. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), vol. 2, 2005, pp. 144–149.
Jiang Y, Jia A, Feng Y, et al. Recommending academic papers via users’ reading purposes[C]. the Sixth ACM Conference on Recommender Systems, 2012, pp. 241–244.
[31]朱郁筱, 吕琳媛. 保举系统评价谋略综述[J]. 电子科技大学学报, 2012, 41(2):163-175.
[32]韩朝, 苗夺谦, 任福继, 等. 基于约略集学问发现的通达规模汉文问答检索[J]. 计较机计划与发展, 2018,
55(5):958-967.
HNRWalker: RecommendingAcademic Collaborators with DynamicTransition Probabilities in Heterogeneous Networks ChenYang1, Tingting Liu1, Xiaohong Chen1,Yiyang Bian2,*,Yuewen Liu3College of Management, Shenzhen University, Shenzhen, Guangdong, PR China
School of Information Management, Nanjing University, Nanjing, Jiangsu, PR China
School of Management, Xi’an Jiaotong University, Xi’an, Shaanxi, PR China
*Address for correspondence:
E-mail: bianyiyang@nju.edu.cn
Phone: 86-13652351061
FAX:86-075526534451
School of Information Management, Nanjing University
No. 163 Xianlin Rd, Qixia District, Nanjing, Jiangsu, PR China【Abstract】Multi-source information not only helps to solve the problem of sparse data but also improves recommendation performance in terms of personalization and accuracy. However, how to utilize it for facilitating academic collaboration effectively has been little studied in previous studies. Traditional mechanisms such as random walk algorithms are often assumed to be static which ignores crucial features of the linkages among various nodes in multi-source information networks. Therefore, this paper builds a heterogeneous network constructed by institution network and co-author network and proposes a novel random walk model for academic collaborator recommendation. Specifically, four neighbor relationships and the corresponding similarity assessment measures are identified according to the characteristics of different relationships in the heterogeneous network. Further, an improved random walk algorithm known as “Heterogeneous Network-based Random Walk” (HNRWalker) with dynamic transition probability and a new rule for selecting candidates are proposed. According to our validation results, the proposed method performs better than the benchmarks in improving recommendation performances.
【Keywords 】 Collaborator recommendation services; Heterogeneous networks; Random walk algorithms; Link prediction; Academic social platforms