海防环境的导弹目标选择任务 流程介绍:敌方舰艇以固定阵型排列,我方18枚导弹依次选择攻击目标并以直线轨迹攻击,攻击过程中若进入防御舰艇的防御长度内则有一定几率被拦截,舰艇被攻击一定次数后死亡,同样的,可以根据任务需求,通过改变不同类型的舰艇艇的价值来调整导弹攻击的侧重点,综上,需要合理选择攻击目标和攻击并以预期的伤害最大化 状态空间定义为18个导弹的目标选择,初始化为[-1] * 18,每进行一个步骤填进去一个动作(攻击目标)动作空间定义为可以选择的舰艇数量,如果有7个舰艇则动作空格〜[0,6],只能取整数 固定阵型默认类型,如下所示,可在配置文件夹中设计新的阵型 导弹双重两种攻击方式: 位置攻击:18个导弹排成两排,位置固定,按照编号顺序选择攻击目标 角度攻击:每个导弹首先选择攻击目标,然后根据角度偏向确定自己的发射位置 文件:train.py:训练文件,负责训练DQN生成指定环境指定