可靠地从不受信任的来源中学习 介绍 该git存储库包含ICML 2019论文用于实验的代码。 尤其是所用的功能,用于运行大型实验的脚本以及用于从纸上创建绘图和表格的Jupyter Notebooks(包括在内)。 该代码易于执行,只要将“具有属性2的动物”实验的数据集和提取的特征存储在适当的目录中即可。 我们的论文提供了一个从多个来源学习的框架,这些来源就其提供的数据而言是不可靠的。 假设可以访问质量不同的多个批次数据和一个受信任的小型数据集,我们的算法会根据与干净数据集之间的适当距离度量,自动为这些批次分配适当的权重。 然后,该算法将继续基于加权经验风险最小化找到预测变量。 可以在本文中找到更多信息,该文件也在此处提供。 数据 本文的实验是在以下数据集上进行的: [1]-各种Amazon产品的评论数据集。 目标任务是情感分析-评论是正面还是负面? [2]-各种动物的图像的数据集,以