1)研究背景:生物医学文本挖掘在处理不断增长的生物医学自然语言文本数据时具有重要作用,通过从中提取特定的信息,主要涉及到生物实体,如基因、蛋白质、药物、疾病之间的关系。这对于构建全面的生物知识网络、预测生物体关系以及新药研发等方面具有关键性意义。 2)典型应用及应用方法2.1.1命名实体识别1)研究背景生物命名实体识别的目标是从生物医学文本中识别指定类型的名称,如基因、蛋白质、核糖核酸、脱氧核糖核酸、疾病、细胞、药物的名称等。由于生物医学文献规模巨大,包含各种专有名词,同义词众多,同时存在大量缩写词,人工识别耗时费力。因此,命名实体识别的准确性是其他文本挖掘技术(如信息提取或文本分类)的先决条件。 2)典型应用及应用方法目前,生物命名实体识别采用多种方法,包括基于启发式规则、词典匹配和机器学习方法,如支持向量机(SVM)、最大熵、条件随机场(CRF)以及隐马尔科夫(HMM)等。
暂无评论