摘 要: 提出了一种改进的会话识别方法。该方法基于访问站点的首页和导航页,以首页或导航页作为新会话开始的标识。选取真实的Web日志,用PL/SQL编程实现改进的会话识别方法,并与现有方法进行比较。实验结果证明,改进的会话识别方法比现有方法识别会话更有效。 Web挖掘是针对包括Web页面内容,页面之间的结构,用户访问信息等在内的各种Web数据源。在一定基础上应用数据挖掘的方法以发现有用的隐含的知识的过程。Web挖掘与传统的数据挖掘相比有其自身的特点。Web本身是半结构化或无结构的数据,缺乏机器可理解的语义,Web挖掘的对象是大量,异质,分布的Web文档,对Web服务器上的日志、用户信息等