摘 要:随着互联网的发展,以论坛进行交互式学习的方式逐渐被学习者所接受。论坛中的发帖回帖等行为数据,蕴含着学习者丰富的兴趣特征,对其进行深入分析具有明显的教育意义。本文将基于发帖回帖关系,分析教育类论坛中虚拟学习社区的识别方法,通过该方法可以对论坛中相似的学习资源进行聚类,对在线学习的发展具有一定的借鉴意义。
关键词:虚拟学习社区;社区识别技术;教育论坛
一、引言
当今时代信息技术飞速发展,“互联网+X”战略的提出使众多领域呈现出变革的发展趋势,教育行业同样如此。以往的观念对学习的理解通常会局限于教室里的课堂讲授,但是,在互联网蓬勃发展的今天,线上教育、碎片化学习、移动学习等概念使得学习的形式产生了颠覆性的转变。
在众多网络化学习方式中,基于教育论坛、博客等形式的非正式学习是传统学习方式的一种有益补充。这种自由的学习形式,使得学习者更容易以解决问题为导向,学习的目的更为明确。而且这种交互性的学习交流方式可以随时随地开展,进而突破了时间与空间的限制。人们熟知的科学网学习论坛、CSDN学习论坛等,就是目前较为著名的学术或学习交流论坛。
学习类论坛的推广为今天的学习活动带来了便利。论坛规模的扩大,也使得学习者能获得更多的学习资源。当面对规模过于庞大的信息时,人们有时不禁会产生这样的想法:“这些学习资源是否可以按照我们的兴趣聚集在一起,使我们查找起来更加便利呢?”在数据为王的互联网时代,如何充分利用好这些资源,真正体现出资源的价值就显得尤为重要。
二、虚拟学习社区识别的意义
在现实社会中,“物以类聚,人以群分”是人际交往的一个典型特点,人们往往倾向于与自己兴趣相似的人进行沟通。事实上,在虚拟的网络空间中,这种事物之间的聚类特性依然存在。在学习类论坛中,人们往往偏向于访问那些自己感兴趣的版块,其他版块则很少访问。如果仔细观察,甚至会发现有一些非常眼熟的用户ID时常出现在我们关注的帖子中,这就是一种典型的聚类特性,只不过这种特性是潜在的。
对于网络论坛中相似的学习资源或具有相近兴趣的学习者,如果能将其进行聚类,那么可以进一步促进人们的交流与学习。例如,如果将论坛中具有相似主题的帖子资源自动汇集在一起,那么人们寻找信息的将会更加便利(论坛中虽有版块划分,但往往粒度较大,无法做到知识点级别的归类)。又如,当人们在论坛中发出了寻求帮助的帖子时,如果这个帖子能在第一時间自动推送到与人们兴趣相似的用户,那么问题的解决和学习活动的交互将会变得更加有效,而将用户按照兴趣进行聚类,即是这种精准推送的基本前提。教育论坛中的这种帖子或用户的聚类,可以理解为一种虚拟学习社区结构。对虚拟学习社区结构进行识别,是社交网络分析在教育领域的应用,对于网络学习的发展具有十分重要的意义。
三、社区识别技术研究
(一)社区识别技术总体分析
识别论坛中的虚拟学习社区结构,一般有两类实现方式,即基于内容的识别法和基于关联关系的识别法。基于内容的识别法一般需要进行文本分析,涉及自然语言处理的相关技术,这种方法对于长文本一般具有较高的准确性。但论坛中往往存在大量短文本,这为基于“词袋”的方法造成了困难。此外,网络语言的广泛使用以及这类语言一词多义的特点,也限制了自然语言分析法的应用。而基于关联关系的识别法,主要考虑用户、帖子以及彼此之间的互动关系,如回帖、点赞等。通常情况下,这类体现关联关系的数据较易获取,且数据结构简单便于处理,因此关联识别法的抗干扰性较强,适用面也较广。鉴于论坛的具体数据特点,本文主要对基于关联分析的社区识别技术进行讨论。
(二)基于关联分析识别法的数据建模
当用户在论坛中发帖以及回帖时,所涉及的实体包含两类,即所发的帖子以及发帖回帖的用户。而对于发帖回帖行为,则可视为用户与帖子之间的交互关系。按照这种逻辑,论坛中的数据可以抽象为一种二分网络结构,网络中的两类节点就是帖子和用户,连边则代表发帖回帖关系。如果以用户节点为中心看待该网络,帖子节点就属于桥接节点,“用户-帖子”以及“帖子-用户”这两段连边,就使不同用户之间产生了一种间接的关联关系,用户兴趣的相似性就蕴含在这种间接连边之中。反之,如果以帖子为中心,用户就可视为连接不同帖子的桥接节点,对应的两段连边就可以体现帖子之间内容的相似性。这样就可以在无须进行文本分析的情况下,仅依靠网络关联信息对资源进行聚类。
在这种基于关联关系的聚类结构中,不管节点是帖子还是用户,都可以被称为虚拟学习社区。根据以上分析,如果要对这种虚拟学习社区进行识别,最基本的是要具备能体现回帖关系的二分网络。因此,对二分网络进行建模是利用关联分析法识别虚拟学习社区的前提。需要注意的是,为了保障社区识别的准确性,网络中的连边可以按加权的形式进行量化,权值的设定需要考虑论坛中的多种行为因素。例如,发帖者与该帖子的关系相较于跟帖者应该更为密切,因此它们之间连边的权值可以设置的略大一些;论坛中进行了文字跟帖的用户应该比仅仅点赞的用户更关注该帖子,因此权值也应该更大。此外,如果论坛系统能够提取用户在当前帖子上的停留时间、浏览次数或转载次数等信息,也可以按照一定的规则量化为连边的权值。对于这种二分网络,不管采用何种因素进行权值设定,都可理解为异质节点之间关系的强弱程度,因此在逻辑上具备较强的可解释性。
(三)虚拟学习社区识别算法
鉴于论坛的运行机制以及上述二分网络数据结构,可设计基于关联分析的虚拟社区识别算法。依据社区识别时所关注的范围,识别算法分为全局社区识别与局部社区识别。进行全局社区识别时,需要将所有节点及连边视为一个整体,将其作为程序的输入参与运算。全局社区识别属于全局优化算法,优化时将模块度作为目标函数,算法运算结束后能获取整个网络中所有的社区结构。算法中模块度设计的准则是社区内部的连边尽可能紧密,社区之间的连边尽可能稀疏。而局部社区识别算法运行时,无须获取完整的网络结构数据,可以仅从需要进行社区识别区域的大致位置作为起点,采取逐渐扩展的方式识别单个社区。
考虑到论坛中数据的规模可能较大,且这些数据处于一种动态更新状态,为了达到实时在线识别的目的,一般情况下更适合使用局部社区识别算法。进行局部社区识别的基本原则也是“高内聚,低耦合”,但与全局算法不同的是,对目标函数进行优化时仅区分当前社区与非当前社区。目标函数可设置为社区内外连边的密度比值,具体为社区内部的连边数与社区内外连边数的比值,可将该目标函数标记为fcommunity。程序流程可设计如下:
步骤一:构建二分网络。遍历论坛中的每一个帖子,将其作为A类节点加入节点集合NodeSetA。同时,对每一个帖子,将发帖者和回帖者作为B类节点加入节点集合NodeSetB,将连接关系加入连边集合LinkSet。節点集合NodeSetA、NodeSetB和连边集合LinkSet共同构成二分网络。
步骤二:对帖子节点进行社区结构识别。从需要识别社区结构的某个帖子节点出发,将其作为初始化节点加入社区节点集合Community。经桥接节点遍历所有的二段连边,寻找使得目标函数fcommunity增大的帖子节点,将其加入Community,同时在Community中找到使得目标函数减小的节点,将其剔出Community。重复该扩张过程,直至Community稳定,此时的Community即是需要识别的社区节点集合。
步骤三:对用户节点进行社区结构识别。从需要识别社区结构的某个用户节点出发,按照与步骤二类似的方式进行社区结构的构建,得到面向用户的社区结构。
步骤四:结束当前社区识别过程,或确定新的初始节点重复步骤二、步骤三。
上述伪代码描述了虚拟学习社区识别算法的大致思路,但在实际操作中,更多的需要考虑网络连边的权值量化问题。权值的量化需要针对论坛的具体特性加以分析,不同论坛所适应的量化准则可能并不相同,需要通过实践加以验证。
四、结语
在“互联网+教育”的背景下,基于教育论坛的学习以一种开放的形式扩展了教育的范畴。对于教育论坛中的学习资源或学习者,按照其相似性或兴趣接近程度进行聚类可对虚拟学习社区进行识别,具有较为明显的现实意义。本文从技术实现的角度,对虚拟学习社区识别的方法进行了初步探讨。笔者相信,随着技术的进步,网络学习定会涌现出新的形式,虚拟学习社区识别技术也一定会呈现新的应用价值。
参考文献:
[1]戴心来,刘聪聪.基于学习分析的虚拟学习社区深度交互研究[J].现代远距离教育,2019(5):51-58.
[2]张连峰,李慧,遆云鹤.基于虚拟学术社区的知识聚合模型构建研究[J].情报科学,2019(6):55-60,74.
[3]吴笛,李保强,蔡运荃.弱关系视角下的虚拟学习社区网络交互分析[J].中国远程教育,2017(11):16-21,30,79.
[4]卢潇,胡凡刚.基于教育大数据的教育虚拟社区交互设计研究[J].远程教育杂志,2017(5):84-92.
赞(0)
最新评论