RLFromHumanPrefrences:加强从人类偏好中学习以产生与预期不符的行为并通过Garner工具通过人类偏好进行学习源码

compel_42031 13 0 ZIP 2021-02-22 07:02:21

RLFromHumanPrefrences 通过通过人的偏好学习,从人的偏好中加强学习,以产生与环境奖励不符的行为。工具。要求 Python 3(它可能与Python 2兼容,但我没有对其进行测试) 为了安装要求,请遵循: # PyTorch conda install pytorch torchvision -c soumith # Baselines for Atari preprocessing git clone https://github.com/openai/baselines.git cd baselines pip install -e . # Other requi

文件列表

RLFromHumanPrefrences-main.zip (预估有个35文件)

RLFromHumanPrefrences-main

.ipynb_checkpoints

reward_predictor-checkpoint.py 6KB

pref_db-checkpoint.py 7KB

evaluation.py 2KB

baselines

main.py 7KB

wandb

run-20201119_204157-3ouumq8n

wandb-summary.json 188B

requirements.txt 7KB

wandb-history.jsonl 616KB

config.yaml 151B

wandb-events.jsonl 4KB

wandb-metadata.json 783B

run-20201119_204621-2ohukqv8

wandb-summary.json 136B

requirements.txt 7KB

wandb-history.jsonl 717KB

config.yaml 151B

wandb-events.jsonl 20KB

wandb-metadata.json 783B

requirements.txt 15B

main-old.py 8KB

training.ipynb 13KB

LICENSE 1KB

reward_predictor.py 6KB

README.md 1KB

pref_db.py 7KB

download.gif 209KB

Garner-python

pref_work.ipynb 19KB

.gitignore 1KB

a2c_ppo_acktr

kfac.py 8KB

arguments.py 5KB

utils.py 2KB

model.py 7KB

__init__.py 0B

storage.py 10KB

a2c_acktr.py 3KB

envs.py 8KB

distributions.py 3KB

用户评论

暂无评论

模拟无监督张量流通过对抗训练从模拟和无监督图像中学习的TensorFlow实现源码

TensorFlow中的模拟+无监督(S + U)学习中TensorFlow实现。要求 Python 2.7 0.12.1 用法生成综合数据集: 运行 ,将resolution更改为640x48

9 2021-02-06
人类面临的主要环境问题教案紫云中学张帆

地理必修2第四章人类与地理环境的协调发展第一节人类面临的主要环境问题天津市塘沽区紫云中学地理组张帆一.课标要求:根据有关资料,归纳人类所面临的主要环境问题。二.教材的地位和作用:地理必修2

13 2021-01-30
PythonOpenAI收集用户真实反馈的用户偏好深度增强学习包

OpenAI：收集用户真实反馈的用户偏好深度增强学习包

32 2019-09-09
LearningFromData_从数据中学习

机器学习经典外文原版图书电子版

23 2019-04-30
DenseDepth通过转移学习进行高质量单眼深度估计源码

( 和彼得·旺卡( Peter Wonka) 官方Keras(TensorFlow)实现。如果您对代码有任何疑问或需要更多帮助,请联系第一作者。 [更新]我们的最新方法具有更好的性能,可以在这里找到

3 2021-02-08
node tdd通过Jest学习TDD以进行具有JWT身份验证的节点应用程序源码

node-tdd:通过Jest学习TDD,以进行具有JWT身份验证的节点应用程序

6 2021-02-26
卫星图像深度学习通过卫星和航空影像进行深度学习的资源源码

卫星图像深度学习:通过卫星和航空影像进行深度学习的资源

18 2021-02-09
GoogleLogin通过Google登录使用学习源码

Google登录使用Google SDK,React和Python Flask通过Google登录学习。前端 react Frontend使用GoogleLogin组件来处理登录和请求OAuth令

10 2021-04-26
FalCAuN通过自动学习伪造CPS源码

法尔肯这是FalCAuN的源代码存储库-通过自动机学习伪造CPS。用法症候 ./falcaun [OPTIONS] --stl=[STLFormula] --input-mapper=[Inpu

5 2021-04-06
DartProgramming通过Google学习Dart语言源码

Dart编程通过Google学习dart语言和面向对象编程,并构建简单的程序和项目控制台应用程序。 :copyright:比利·弗朗斯科

10 2021-02-23

RLFromHumanPrefrences:加强从人类偏好中学习以产生与预期不符的行为并通过Garner工具通过人类偏好进行学习 源码

文件列表

用户评论

推荐下载

RLFromHumanPrefrences:加强从人类偏好中学习以产生与预期不符的行为并通过Garner工具通过人类偏好进行学习源码