融合文本和视觉信息进行图像检索可避免图像低层视觉特征与高层语义之间的语义鸿沟,但在提高检索质量的同时难以保证检索效率。为此,针对基于文本和内容的混合图像检索,通过结合曼哈顿哈希、倒排索引和R树等技术,设计一个新型的索引结构CAT树和相应的top-k检索算法,并由此提出三段式图像检索方案。在基准图像数据集上的实验结果表明,该方案可以在保持准确率的前提下,显著提升图像检索的效率