提出了基于K-means的四叉树与R-link树的混合结构树,提高了R-link树的查询性能,在K-means中采用均值—标准差确定初始聚类中心,提高了收敛速度,通过距离准则函数来优化K值,避免K值的
在分析AVS-M帧内预测模式选择原理的基础上,提出了一种基于边缘方向信息和时空相关性的帧内预测模式快速选择算法。该算法的I帧编码时间可降低17%~21%,而PSNR和输出码率均无明显变化,有效地降低A
针对目前聚类算法对大数据集的聚类分析中存在时间花费过大的问题,提出了一种基于最近邻相似性的数据集压缩算法。通过将若干个相似性最近邻的数据点划分成一个数据簇并随机选择簇头构成新的数据集,大大缩减了数据的
现代信息系统的突出特征是基于海量数据的分布式应用集群。优化海量数据的存储布局,以提升存储资源的利用率和应用执行的速度,是一个重要研究课题。由于数据与数据之间存在关联性,只考虑负载均衡的布局算法缺乏实用
针对FCM(FuzzyC-Means)算法对于初始聚类中心敏感,并只适合于发现球状类型簇的缺陷,提出采用冗余聚类中心初始化的方法降低算法对初始聚类中心的依赖,并先暂时将大簇或者延伸形状的簇分割成用多个
计算句子的相似度在机器问答、机器翻译、文本分类等系统中有着非常重要的作用。该文对基于相同关键词的句子相似模型作了进一步的改进,包括关键词抽取,以及在句子相似度的定义中引入同义词以及近义词的情形。并以此
Research on Web Text Mining System and Clustering Algorithm
DBSCAN聚类算法在数据业务监控中的应用研究,常琳,王芳,为快速有效的监控移动业务,通过剖析移动业务数据特点,提出采用基于密度的DBSCAN算法发现移动业务数据存在的异常,并对算法进行改
针对网络安全领域中的协议规范挖掘问题,通过对近十年相关文献的研究,将此问题进行了规范的形式化定义,根据协议规范的作用域将其分为两个层面:报文内部的格式、语义规范挖掘与报文之间的协议行为规范挖掘。针对每
近年来国内外学者对关联规则进行了大量的研究,为深入理解关联规则挖掘技术,掌握其研究现状与发展趋势,首先介绍了关联规则相关定义与分类方法;其次从串行和并行两个角度总结了关联规则挖掘的一般方法,概述并分析