Apache Spark 是用于大规模数据处理的统一分析引擎。它提供 Java、Scala、Python 和 R 语言的 API,以及对执行图进行优化的引擎。它还支持丰富的高级组件,包括用于 SQL 和结构化数据处理的 Spark SQL 、用于机器学习的 MLlib 、用于图形处理的 GraphX,以及用于增量计算和流处理的结构化流引擎SparkStreaming和StructedStreaming。
Spark官网:Apache Spark™ - Unified Engine for large-scale data analytics