背景:基因表达谱分析技术已逐渐成为临床应用的社区标准工具。 例如,已经对基因表达数据进行了分析,以揭示新的疾病亚型(类别发现),并将特定样本分配给定义明确的类别(类别预测)。 在过去的十年中,已经针对个人应用提出了许多有效的方法。 但是,仍然迫切需要一个可以揭示样本之间复杂关系的统一框架。 结果:我们提出了一个新颖的凸优化模型,以在统一的框架中执行类发现和类预测。 设计了一种有效的算法,并开发了名为OTCC(用于聚类和分类的优化工具)的软件。 在模拟数据集中的比较表明,我们的方法优于现有方法。 然后,我们将OTCC应用于急性白血病和乳腺癌数据集。 结果表明,我们的方法不仅可以揭示那些癌症基因表达数据的细微结构,而且可以准确地预测未知癌症样品的类别标签。 因此,我们的方法有望鉴定出新的癌症亚型并改善诊断。 结论:我们为分类发现和分类预测提出了一个统一的计算框架,以促进癌症细微亚型的发现和预测。 我们的方法通常可以应用于多种类型的测量,例如基因表达谱分析,蛋白质组学测量和最新的下一代测序,因为它只需要样本之间的相似性即可作为输入。