RLFromHumanPrefrences:加强从人类偏好中学习以产生与预期不符的行为并通过Garner工具通过人类偏好进行学习 源码
RLFromHumanPrefrences 通过通过人的偏好学习,从人的偏好中加强学习,以产生与环境奖励不符的行为。 工具。 要求 Python 3(它可能与Python 2兼容,但我没有对其进行测试) 为了安装要求,请遵循: # PyTorch conda install pytorch torchvision -c soumith # Baselines for Atari preprocessing git clone https://github.com/openai/baselines.git cd baselines pip install -e . # Other requi
文件列表
RLFromHumanPrefrences-main.zip
(预估有个35文件)
RLFromHumanPrefrences-main
.ipynb_checkpoints
reward_predictor-checkpoint.py
6KB
pref_db-checkpoint.py
7KB
evaluation.py
2KB
baselines
main.py
7KB
wandb
run-20201119_204157-3ouumq8n
wandb-summary.json
188B
暂无评论