一个基于概念格的小型信息检索系统,彭韬,陈光,互联网上信息爆炸式的增长,使得传统的搜索引擎很难让用户精准且快速地定位信息。文中提出一种基于概念格的方法,将检索结果更好山国武技记文在线http://www.paper.edu.cn(1,2,345}.必)({1:23}{a}(1,2.43纸5{b)1235}9)(1,2ac-(2, 31.a,gi2)+++[ c, f, IN((13,(8, c, f, h))-f2Ka,d/g, i)) ((3Na, d, gi)) ([43,hc, f, h1)({5es})(0, la, b, c,d, e, f, g, h, i]图2图1例子形式背景对应的概念格系统详细设计通过图3的流程图我们可以看见,该信息检索系统主要分为三个大模块,即接收用户查询,网络文档预处理,建立概念格返回扩展结果。(1)用户于界面输入询词,系统接收(2)对 query进行处理,分词,去停用词;(3)通过调用搜索引擎(百度,谷歌,雅虎等)对 query的结果,并提炼出网页中显示的相关链接;(4)多线程进行T作,抓去前n个目标链接(5)同一网页的编码方式到 Unicode,方便在内存中操作(6)对抓取回来的内容进行去标签操作,并进行中文分词(7)对分词过后的文章进行特征提取;(8)将文章与特征组织成为形式背景,建立概念格;(9)分析挖掘概念格中的规则;(10)通过规则返回用户査询词的查询扩展。其中(1)(3)属于接收用户査询模块,(4)(⑦)属于文档预处理模块,(8)~(10)属于建立慨念格及返回扩展结果模块山国武技记文在线http://www.paper.edu.cn接收用户 queryquery预处理获取搜索引擎对query的返冋结果抓取前个网页统一编码方式中文分词去停用词生成文章特征建立概念格分析概念格生成耷询扩展建议图3基于概念格的信息检索模型流程图山国武技记文在线http://www.paper.edu.cn结论在互联网上信息爆炸式増长的环境中,快速、精确地定位所需信息,是搜索引擎口前所血临的最大挑战。在加入概念柊的简易搜索引擎系统里,我们已经看到了概念格对“概念”层次展小的强大作用,包括査询扩展和结果展小,都能够很好地修正用户的用词,并在短时间内引导用户到正确的信息点。文中提出的小型检索系统,也将适用于各种信息检索领域的相关研究,使得个人能够在有限的硬件资源下,最大限度的参与进来。这也符合下·代搜索引擎“个人化,智能化”的宗旨。参考文献1 Ganter B, and wille R Formal Concept Analysis: Mathematical Foundations, Springer-Verlag: Berlin. 1999[2]唐俊基于概念格的个性化信息检索研究四川:西华人学。2005。[3]http://toscanaj.sourceforge.net/14 Wang 7. Research on extended rough set model. Doctoral dissertation. I lefei, University of Technology. 1998PegTao, Chen guanSchool of Information Engineering, Beijing University of Posts and Telecommunications, Beijing(100876)Today, information on the internet has grown rapidly. It is more difficult to get the correct informationby using the traditional search engine than before. In this paper, we present a novel method based onConcept Lattice which can guide users lo achieve the in formation more correclly and quickly. To buildup a search engine is very expensive and time consuming, we present a portable information retrievalsystem to make it possible to do research even in our labinformation retrieval, concept lattice, search engine