文本数据挖掘中的一个关键问题是如何从连续到达的文档流中提取有意义的结构。电子邮件和新闻文章是典型的文档流,它们的特点是某些主题在一段时间内突然出现并逐渐消失。类似的现象也可以在特定研究领域的文献中观察到。本文提出了一种形式化的方法来对这种“突发现象”进行建模和识别,通过将文档流建模为一个无限状态自动机,并通过状态转换来表示突发现象的出现。基于该方法,我们设计了一个高效的算法,可以从文档流中识别出突发现象,并提供了一个组织框架来分析其内容。实验证明,该算法在电子邮件和研究文献的应用中具有良好效果。