Resilient Distributed Datasets (RDD) é o conceito central da plataforma Spark. Foi desenvolvido para suportar o armazenamento de dados na memória e distribuído em um cluster, que implementa sua tolerância a falhas, devido, em parte, ao seu rastreamento de dados brutos ou processamentos. O RDD é uma funcionalidade permite que usuários da plataforma ou software R utilizem funções ou funcionalidades Spark de maneira mais usual. O Spark Streaming aproveita a capacidade de processamento rápido do Spark Core para executar os processamentos. Permite a execução e transformações RDD (Resilient Distributed Datasets) nesses pades menores de dados e lotes de processamento.