在JavaScript中,数据流的异常值检测是通过实现多元正态分布模型来预测数据集中的异常值。这些数据可以分为两类:异常值和正常数据。假设这些数据遵循高斯分布,我们可以通过选择一个阈值来截断分布的尾部,以此来识别异常值。该算法是对称的,因此可以同时考虑数据的两个极端(即高值和低值)异常。为了估计阈值,可以通过交叉验证在测试数据集上进行训练。
这个库使用了Sylvester.js库来构建,包中的HTML文件展示了其实际应用。index1.html文件中的演示适用于3维数据,但通过修改outlier.js中的mergeArrays
方法,该库可以扩展以支持任意数量的维度。具体来说,通过附加批量数据并调整几行代码,这个算法就可以适应不同的维度数据。这种灵活性得益于算法严格遵循不混合训练集和测试集的原则,即在设置分类器后,训练集的数据不会再被用于训练,而是将新数据馈送给分类器进行分析。
暂无评论