高斯拉姆达 elmo式学习のlambda设定の高斯化による学习の最适化 elmo式学习のlambda设定の高斯化とは何か? elmo式学习のlambdaは0で教师の胜败结果のみから学习し(Q-learning),1で浅い探索の评価値を胜率変换したものから教师の深い探索の评価値を胜率変换したものを引いたものだけを学习します。(Rootstrap) 诘み寸前の局面では胜败结果だけあれば十分で,仅か十数手先の探索结果など有意义した场合,长手数の顿死の危険性もあるかもしれません。逆に平手开始局面では,探索不可能な百几十手先の未来の胜败结果はあまり影响を大きくすべきでは无いのではと疑问に思います。指し