论文研究 有判别力的话题字典动态生成方法.pdf
话题字典是话题的描述特征子集,有判别力的话题字典可以在降低特征维数的同时提高对话题描述的准确性,进而提高话题识别与追踪的综合性能。以互信息为研究基础,提出了确定话题初始字典规模的目标函数,并采用坐标下降法对其求解,考虑到新闻话题是随时间动态变化、发展的,给出了融合时间信息的话题字典动态更新方法,最终得到有辨别力的话题字典。实验在TDT语料上,以漏报率、误报率为评价标准,比较了增量式TF-IDF方法与提出的话题字典生成方法的性能。实验结果显示,提出的话题字典生成方法的性能较优。
暂无评论