RLFromHumanPrefrences 通过通过人的偏好学习,从人的偏好中加强学习,以产生与环境奖励不符的行为。 工具。 要求 Python 3(它可能与Python 2兼容,但我没有对其进行测试) 为了安装要求,请遵循: # PyTorch conda install pytorch torchvision -c soumith # Baselines for Atari preprocessing git clone https://github.com/openai/baselines.git cd baselines pip install -e . # Other requi