流媒体服务器需要经常从本地磁盘获取数据。由于磁盘的读写速度比随机存取存储器(RAM)低得多,因此良好的RAM缓存策略可以有效地减少磁盘I / O。传统技术是使用基于0-1背包问题模型的贪婪和次优算法。在本文中,我们针对缓存问题提出了部分可观察的马尔可夫决策过程(POMDP)模型。基于该模型,将基于事件的优化方法应用于最优随机策略的搜索。磁盘I / O作为Markov链的长期平均性能指标,通过应用策略梯度算法进行了优化。仿真结果表明,采用该方法可以较好地预测需求数据,降低磁盘I / O量。