基于大规模复杂网络社区发现的科研合著网络分析,武森,卢丹,针对基于极大团的社区发现算法,设计适应大规模数据的MapReduce并行计算框架,提出基于大规模复杂网络社区发现的科研合著网络分析算山国武花论文在丝节点的邻接点中序号比大的节点集合候选极大团的当前节点集合极大团的扩充侯选节点集合候选极大团候选极大团集合网络中的极大团网络中所有极大团集合包含节点的所有极大团的集合,以节点为中心的核心节点集网络中的所有核心集合节点与的距离算法过程木算法分为价段阶段和阶段在算法的阶段,以各个节点为搜索树的根节点,寻找网络中所有的极大团。输入键值对为根节点,为该根节点的邻接点与各邻接点的邻接点集合组成的键值对。这样每次过程都只需读入网络的很小一部分,大大节省了内存图示例网络以图所示的网络为例,以节点为根节点的输入为>(表示空节点)。若从节点出发进行极大团搜索,我们有首先选择序号最小的号节点,得出接着选择中序号较小的号节点,得出最后Q得到搜索树的叶节点。在搜索过程中,如果遇到非极大团的候选极大团,如山国武花论文在丝因为,所以=肯定不是极大团,在阶段对其进行剪枝,即减去图中虚线表示的部分,最终得到以节点为根节点的所有候选极大团。以节点为根节点的搜索树如图所示。同理,通过此方法可以得到网终中所有的候选极大团,并输阶段。44图以节点为根的搜索树在阶段,输入所有候选极人闭,删除不是极人閉的候选极人闭。如以节点为根节点时,会找到侯选极人闭,并非真正的极人闭,此时应把此类候选极大团删除,最终得到网络中所有的极大团,将这些极大团输出到阶段在阶段,输入所有的极大团,根据极大团找到网络核心,通过计算其他不在核心内的节点到各核心的距离,将这些节点划分到距离最近的核心中,最终完成社区结构的发现,输出划分好的社区结构。算法仍代码描述价段输入:为根节点,为该根节点的邻接点与各邻接点的邻接点集合组成的键值对输出为为以各节点为根节点的搜索树下的所有候选极大团集合2) foreach∈do←十山国武花论文在丝else if C7)elseelse阶段输入为为以各节点为根节点的搜索树下的所有候选极大团集合输出为为整个网络中所有的极大团集合2) foreach∈阶段输入:为整个网络中所有的极大团集合输出为为划分好的社区结构步骤一找到每个节点所在的所有极大团的集合1)initialization foreacho do2 foreachforeach∈步骤二寻找网络的核心。1)initialization foreach2)foreachd山国武花论文在丝if不是其他任一的子集foreacha0foreach∈d步骤三将每一个不属于任一核心集合的节点归入距离最近的核心中,形成网终的初始划分1)foreachforeach为了减少网络的社区结构划分中岀现的琐碎社区,在步骤四中,对初始社区结构进行调整,合并琐碎社区,得到最终的社区结构划分。1) foreach有边相连的与ca| culate△while并产生△的两社区并重新计算Δ矩阵实验分析算法正确性分析为了检验算法在框架下社区划分结果的正确忙,选取了空手道俱乐部社交网络数据集和海豚社会网络来进行实验。此算法对空于道俱乐部的社区划分结果图所示。虚线围起来的节点分属划分之后的两个社区,除了节点,社区划分结果与所发现的真实社区结果一致。其中,节点只有条边,同两个社区各连一边,木身就带有歧义性,这也与所发现的真实社区结果致。山国武技论文在丝1628图空手道俱乐部社交网络社区划分此算法对海豚社会网络的社区划分结果图所示。直线分开的两边表示被划分的两个社区。划分结果除节点外,同所研究观察的结果一致。15861-→46355939图海豚社会网络社区划分算法效率分析在集群环境中对算法进行测试,集群的组成包括个节点和个节点。集群中计算机的配置为内存。实验用虚拟机,虚拟机的内存为。操作系统为,编程语言为,所采用的版本山国武花论文在丝为所用的实验数据集为斯坦福大学发布的数据集有个节点和条边。由于设定一个节点,在不同节点数下算法的阶段运行速度一致,所以本文只比较阶段的运行效率。同时为了诚少误差,本次实验重复次,最终结果取平均值。结果表明,使用个节点时,处理时间为秒,而使用个节点时,处理时间为秒。由此可见,使用计算框架,在集群上运行算法能够提高算法的计算效率。应用分析数据采集及清理选择国家自然科学基金委员会管理科学部指定的《管理科学重要学术期刊表》中所收的《管珄科学学报》、《系统工程理论与实践》、《中国管理科学》、《系统工程学报》《系统L程埋论方法应用》、《管理L程学报》、《科研管理》、《管理科学》、《运筹与管理》和《科学学研究》共种管理科学与工程相关的类学术期刊,对中国知网上收录的这些学术期刊在年所收录的全部科技论文作者合著数据进行收集。中国知网收录的《情报学报》期刊的文章只到年,所以未收集该期刊数据。为避免可能出现的重复或不准确数据,对数据进行清理,删除非学术性文章。本次研究将作者姓名和单位两项内容结合,以此来区别同名作者。另外,同一作者在不用单位发表文章,将其视为同一节点。最终确定采集到的文章信息有条,作者有人以作者为节点,将有过合著关系的作者间连边,得到合著网终,包含个节点,条边。合著网络社区划分结果分析通过实验,最终将整个合著网终划分成个子社区,其中最大的社区有个节点,此外,其他的社区节点数及网络个数如表所示。表社区划分结果统计社区中节点数日社区数日14198765431113348626128总计245山国武花论文在丝以三个比较有代表性的社区结构为例,如图图所示。013●573鲁4718费1203●1012110,11083036341105198Q17章381●818816图子社区的结构7834677827841035464468图子社区的结构975403-301图子社区的结构山国武花论文在丝山实验结果可以看出,管理科学与工程领域有在很多零散的小社区,节点数在以下的子社区数量几乎占所有子社区数量的。另外,从图中可以看出,在节点数日最多的子社区中,可以清楚地看出号节点所代表的作者汪寿阳先生和号节点所代表的作者寇纲先生影响力较大,不仅节点度大,而且成为连结整个子社区的核心节点。此外,号作者土钰和号作者彭怡节点度也较大,合著范围也较广。可以看出,这些学者在管理科学与⊥程领域有相当的影响力。同时,通过合作关系,使得本领域许多学者之间的联系更为紧密。从图所示的子社区的结构进行分析,除节点外,该子社区内所有节点代表的作者所属单位均为南京航空航天大学。可以看出,南京航空航天大学在管理科学与工稈领域的科研工作中,内部合作较为紧密,而与其他单位合作强度则有待加强分析图所示的子社区的结构可以发现,该社区除节点外,其他节点代表的作者所属单位均为中国科学院,但号节点与其他节点连线较多,合作关系也比较多。号节点所代表的作者梁橛则是这个子社区内较为核心的节点。可以看出,中国科学院的儿位学者之间合作紧密,同时也与其他单位作者之问有较紧密的合作关系,显示出中国科学院在管哩和学与⊥程领域的科硏合作方面影响很大结论本文利用并行计算框架,提出了基于人规模复杂网络社区发现的科研合著网络分析算法,拓展了基于极大团的社区发现算法。实验结果表明,利用并行计算框架的社区发现算法可以在保证正确性的同时提高计算效率并行计算框架为复杂网络社区发堄算法的效率改进提供了新途径。此外,针对我国管理科学与匚程领域合著网络社区结构的实证分析硏究衣明:○我国管理科学与工程领域合著网络中零散的社区很多,说眀很多科硏团队科硏合作范围较小;○我国管理科学与工程领域的合著网络中汪寿阳、寇纲、梁樑等是影响力较强的作者;○我国管理科学与工程领域合著网终中,有些单位内部科研人员形成小团体,与其他单位科研人员联系较少,可能会限制其科研工作的发展。针对以上问题,对我国管理科学与工稈领域的和研合作提出以下建议:○提供更多的交流机会和交流平台,加强科硏人员之间的联系,提供更广泛的科硏合作机会;○注重科研人员能力的培养,扩大其影响力,促进科研人员之间的交流和合作;○积极改善以作者单位为群体的小团体现象,打破作者所属单位的限制,促进不同单位之问科研人员的交流和合作。参考文献韩些王娟王慧改进的算法对加权网络社团结构的划分计算机工程与应用王立敏高学东马红权基于最大节点接近度的局部社团结构探测算法讣算机工程