多武装强盗问题 js中的epsilon-greedy和softmax算法的实现。 基于约翰·迈尔斯·怀特(John Myles White)的《 的 》一书。