(1) BigDataBench
最新版本的BigDataBench 5.0提供了13个具有代表性的真实数据集和27个大数据基准。基准测试涵盖六种工作负载类型,包括在线服务、离线分析、图形分析、数据仓库、NoSQL 和来自三个重要应用领域的流式传输、互联网服务(包括搜索引擎、社交网络、电子商务)、识别科学和医学科学。基准测试套件包括微基准测试(每个基准测试都是单个数据基元)、组件基准(由数据基元组合组成)和端到端应用程序基准测试(组件基准的组合)。同时,数据集对工作负载行为和运行性能有很大影响。因此,数据种类与整个数据类型一起考虑,包括结构化、半结构化和非结构化数据。目前,包含的数据源是文本、图形、表格和图像数据。数据生成器 (BDGS) 使用真实数据集作为种子,通过缩放种子数据来生成合成数据,同时保留原始数据的数据特征。
项目主页: /BigDataBench/
(2) TPCx-BB (BigBench)
TPCx-BB(事务处理性能委员会的BigBench)基准套件是由事务处理性能委员会(TPC)设计的标准化性能评估测试,用于衡量大数据系统的能力。该基准测试包括一组模拟真实大数据处理任务的工作负载,例如数据引入、数据转换和数据分析。TPCx-BB由一套30个查询和工作负载组成,模拟客户行为分析、社交网络分析和文本处理等真实大数据场景。该基准测试使用全面的数据集(包括结构化和半结构化数据)来测试系统处理各种数据类型和格式的能力。TPCx-BB是评估大数据系统性能、可扩展性和性价比的基准。
项目主页: https://www.tpc.org/tpcx-bb/
(3) HiBench
HiBench是英特尔开发的基准测试套件,用于评估大数据框架的性能。它旨在对大数据应用程序中常见的各种工作负载的系统性能进行全面评估。HiBench基准测试套件包括一组微观和宏观基准测试,用于测试系统在数据生成,数据排序,机器学习,图形处理和Web搜索等领域的性能。这些基准测试旨在模拟实际工作负载,并提供一种标准化方法来比较不同大数据系统的性能。
项目主页: https://github.com/Intel-bigdata/HiBench
(4) CloudSuite
CloudSuite 是云服务的基准套件。第四个版本包含八个第一方应用程序,这些应用程序是根据它们在当今数据中心中的受欢迎程度选择的。基准测试基于真实世界的软件堆栈,并代表真实世界的设置。
项目主页: https://github.com/parsa-epfl/cloudsuite
(5) CALDA
CALDA是一个针对MapReduce系统和并行DBMS的基准测试工作。它的工作负载来自原始的MapReduce论文[34],并添加了四个复杂的分析任务。
Reference: https://www.cs.cmu.edu/~pavlo/papers/benchmarks-sigmod09.pdf
(6) YCSB
雅虎发布的YCSB是数据存储系统的基准测试,仅包括在线服务工作负载,即Cloud OLTP。工作负载是读/写操作的混合,以覆盖广泛的性能空间。
项目主页: https://github.com/brianfrankcooper/YCSB
(7) AMP Benchmarks
AMP基准测试是加州大学伯克利分校提出的大数据基准测试,专注于实时分析应用。此基准测试测量少数关系查询的响应时间:扫描、聚合、联接和 UDF,跨不同的数据大小。
项目主页: https://amplab.cs.berkeley.edu/benchmark/
(8) SPEC Cloud® IaaS 2018
SPEC Cloud® IaaS 2018 基准测试解决了基础架构即服务 (IaaS) 云平台的性能问题。IaaS 云平台可以是公共的,也可以是私有的。