针对传统知识库表示的局限性,通过分解和重组领域知识,建立扩展树状结构的知识库,其中叶结点对应具体知识实例,称为原子知识,非叶结点只对应知识概念。同时提出相关的数据清洗算法,根据用户的选择,自动提取原子知识进行分析,消除重复,按照处理权重建立原子知识序列,然后逐一对数据进行清洗。实验表明,该算法能有效优化用户的请求,减少对海量数据的遍历次数,海量数据的清洗效率明显提高。