神经机器翻译 介绍 在这个项目中,将探索和比较两个用于神经机器翻译的数据集。 新闻评论数据集: 从新闻评论网站检索新闻评论数据集。 该网站包含以13种不同语言平行翻译的新闻句子的数据集。 数据集可在此处下载。 Yandex NLP数据集: Yandex提供了俄语和英语平行句子的数据集。 此数据集的句子计数超过了“新闻评论”数据集的大小。 文字分析 新闻评论数据集 数据集包含280984对句子; 每对包含两个句子:句子的英语和俄语版本。 数据集中的一些样本: Yandex数据集 Yandex数据集包含一百万对成对的英语-俄语句子。 Yandex数据集包含更多数据点,并且在其句子中涵盖了更多主题。 数据集中的一些样本: corpus_yandex_en每个句子的corpus_yandex_en 有关数据集的更多分析,请参考data_exploration/news_commentar