目录 一、理论依据 二、代码测试wordCount 1、代码 2、测试数据 3、结果展示 一、理论依据 1、在流式计算中通常会有状态计算的需求,即当前计算结果不仅依赖于目前收到数据还需要之前结果进行合并计算的场景,由于sparkstreaming的mini-batch机制,必须将之前的状态结果存储在RDD中并在下一次batch计算时将其取出进行合并,这就是updateStateByKey方法的用处。 2、updateStateByKey操作,可以让我们为每个key维护一份state,并持续不断的更新该state。 (1)、首先,要定义一个state,可以是任意的数据类型; (2)、其次,要定义