目前典型的NetFlow分析系统多为基于私有架构或平台的第三方系统,面临扩展性较低、开放性不足、扩容代价大、分析时延长等问题。大数据技术的快速发展尤其是内存式计算平台如Spark的出现为集中处理大规模NetFlow数据提供了可能,本文提出了基于Spark的NetFlow分析系统,验证了核心算法(如流量应用构成统计)在Spark平台的性能。实验表明,基于Spark的NetFlow分析系统具有很高的性能和很强的扩展能力,较之Hadoop MapReduce有显著的性能提升。