测试基准与标准 | 国际测试委员会

Big Data

(1) BigDataBench

最新版本的BigDataBench 5.0提供了13个具有代表性的真实数据集和27个大数据基准。基准测试涵盖六种工作负载类型，包括在线服务、离线分析、图形分析、数据仓库、NoSQL 和来自三个重要应用领域的流式传输、互联网服务（包括搜索引擎、社交网络、电子商务）、识别科学和医学科学。基准测试套件包括微基准测试（每个基准测试都是单个数据基元）、组件基准（由数据基元组合组成）和端到端应用程序基准测试（组件基准的组合）。同时，数据集对工作负载行为和运行性能有很大影响。因此，数据种类与整个数据类型一起考虑，包括结构化、半结构化和非结构化数据。目前，包含的数据源是文本、图形、表格和图像数据。数据生成器（BDGS）使用真实数据集作为种子，通过缩放种子数据来生成合成数据，同时保留原始数据的数据特征。

项目主页： /BigDataBench/

(2) TPCx-BB (BigBench)

TPCx-BB（事务处理性能委员会的BigBench）基准套件是由事务处理性能委员会（TPC）设计的标准化性能评估测试，用于衡量大数据系统的能力。该基准测试包括一组模拟真实大数据处理任务的工作负载，例如数据引入、数据转换和数据分析。TPCx-BB由一套30个查询和工作负载组成，模拟客户行为分析、社交网络分析和文本处理等真实大数据场景。该基准测试使用全面的数据集（包括结构化和半结构化数据）来测试系统处理各种数据类型和格式的能力。TPCx-BB是评估大数据系统性能、可扩展性和性价比的基准。

项目主页： https://www.tpc.org/tpcx-bb/

(3) HiBench

HiBench是英特尔开发的基准测试套件，用于评估大数据框架的性能。它旨在对大数据应用程序中常见的各种工作负载的系统性能进行全面评估。HiBench基准测试套件包括一组微观和宏观基准测试，用于测试系统在数据生成，数据排序，机器学习，图形处理和Web搜索等领域的性能。这些基准测试旨在模拟实际工作负载，并提供一种标准化方法来比较不同大数据系统的性能。

项目主页： https://github.com/Intel-bigdata/HiBench

(4) CloudSuite

CloudSuite 是云服务的基准套件。第四个版本包含八个第一方应用程序，这些应用程序是根据它们在当今数据中心中的受欢迎程度选择的。基准测试基于真实世界的软件堆栈，并代表真实世界的设置。

项目主页： https://github.com/parsa-epfl/cloudsuite

(5) CALDA

CALDA是一个针对MapReduce系统和并行DBMS的基准测试工作。它的工作负载来自原始的MapReduce论文[34]，并添加了四个复杂的分析任务。

Reference: https://www.cs.cmu.edu/~pavlo/papers/benchmarks-sigmod09.pdf

(6) YCSB

雅虎发布的YCSB是数据存储系统的基准测试，仅包括在线服务工作负载，即Cloud OLTP。工作负载是读/写操作的混合，以覆盖广泛的性能空间。

项目主页： https://github.com/brianfrankcooper/YCSB

(7) AMP Benchmarks

AMP基准测试是加州大学伯克利分校提出的大数据基准测试，专注于实时分析应用。此基准测试测量少数关系查询的响应时间：扫描、聚合、联接和 UDF，跨不同的数据大小。

项目主页： https://amplab.cs.berkeley.edu/benchmark/

(8) SPEC CloudÂ® IaaS 2018

SPEC Cloud® IaaS 2018 基准测试解决了基础架构即服务（IaaS）云平台的性能问题。IaaS 云平台可以是公共的，也可以是私有的。

项目主页： https://www.spec.org/cloud_iaas2018/

AI

(1) AIBench Training

AIBench 培训采用平衡的 AI 基准测试方法，考虑全面性、代表性、可负担性和可移植性。该方法广泛调查人工智能任务和模型，并在最大程度上涵盖了算法级、系统级和微架构级因素空间。从算法层面考虑常用的构建块、模型层、损失函数、优化器、FLOP、不同尺度参数大小;从系统层面考虑收敛速率和热函数。从微架构层面，考虑了不同的计算和内存访问模式。AIBench 培训涵盖 19 项具有代表性的 AI 任务，采用最先进的模型来保证多样性和代表性。此外，还提供了两个AIBench培训子集：RPR和WC子集，以实现可负担性。

项目主页： /aibench/training/index.html.

(2) AIBench Inference

通过深入分析搜索引擎、社交网络、电子商务三大互联网服务的核心场景，AIBench 推理提供了 19 个工作负载，每个工作负载代表一个具有代表性的 AI 任务。

项目主页： /aibench/inference/index.html.

(3) AIGCBench

AIGCBench是一个全新且全面的基准测试，旨在评估最先进视频生成算法的能力。我们的AIGCBench分为三个模块：评估数据集、评估指标和待评估的视频生成模型。为了构建一个更全面的评估数据集，我们通过我们提出的生成流水线扩展了图像-文本数据集。此外，为了对视频生成模型进行全面评估，我们引入了一组评估指标，包括11个跨四个维度的指标。这些指标既包括依赖参考视频的指标，也包括不依赖参考视频的指标，充分利用了我们提出的基准测试。我们还采用了人工验证来确认我们提出的评估标准的合理性。

项目主页： /AIGCBench/.

(4) ScenarioBench

ScenarioBench 不是使用实际应用程序或从头开始实现成熟的应用程序，而是提出基本任务的排列作为场景基准。目标是确定实际方案的关键路径和主要模块，因为它们消耗最多的系统资源，并且是系统设计和优化的核心焦点。每个场景基准都提炼了行业规模应用程序的关键属性，并减少了后者在巨大的代码大小、极端的部署规模和复杂的执行路径方面的复杂性的副作用。

项目主页： /scenariobench/

(5) AI Matrix

AI Matrix是对阿里巴巴内部使用的深度学习应用程序进行全面调查的结果，旨在涵盖占阿里巴巴数据中心GPU使用率90%以上的典型DL应用程序。收集的基准主要分为三类：计算机视觉、推荐和语言处理，它们构成了阿里巴巴中大多数的深度学习应用程序。

项目主页： https://aimatrix.ai/en-us/, https://github.com/alibaba/ai-matrix

(6) Dcbench

Dcbench旨在提供一种标准化的方法来评估以数据为中心的AI开发的工具和系统。

项目主页： https://github.com/data-centric-ai/dcbench

(7) DAWNBench

DAWNBench 是一项基准测试和竞赛，专注于端到端训练时间，以达到最先进的精度水平，以及具有该精度的推理时间。

项目主页： https://dawn.cs.stanford.edu/benchmark/

(8) Fathom

Fathom 是用于研究的八个原型深度学习工作负载的集合。这些模型中的每一个都来自深度学习社区的开创性工作，从Krizhevsky等人熟悉的深度卷积神经网络，到Facebook人工智能研究小组的更奇特的记忆网络。

项目主页： https://github.com/rdadolf/fathom

(9) MLPerf Training Benchmark

MLPerf 训练基准测试衡量系统将模型训练到目标质量指标的速度。它包含 8 个工作负载，每个工作负载由数据集和质量目标定义。

项目主页： https://mlcommons.org/en/training-normal-21/

(10) MLPerf Inference Benchmark

MLPerf 推理基准测试提供了评估 ML 推理系统的基准测试方法，并规定了一组规则和最佳实践，以确保具有截然不同架构的系统之间的可比性。

项目主页： https://mlcommons.org/en/inference-datacenter-21/

(11) TPCx-AI

TPCx-AI是由TPC开发的端到端AI基准标准。该基准测试衡量端到端机器学习或数据科学平台的性能。基准开发侧重于模拟与当前生产数据中心和云环境相关的代表性行业 AI 解决方案的行为。

项目主页： https://www.tpc.org/tpcx-ai/default5.asp

(12) AISys-IQ

AISys-IQ 是一套标准化的基准评测规范及方法体系，用于评估智能系统的智能水平（IQ）。该框架构建了两个层级的 IQ 评测：分别面向智能算法与智能系统。

项目主页：/aisys-iq/

说明文档：/aisys-iq/AISys-IQ.pdf

HPC AI

(1) HPC AI500 V3.0

HPC AI500 V3.0 是一个可扩展且可定制的框架，用于 HPC AI 基准测试。HPC AI500 V3.0 的方法允许用户以打包方式集成现有的 AI 基准测试，这是一种具有固有高并行性的集成学习元算法，从而实现可扩展的基准测试。HPC AI500 V3.0的装袋管理和模型并行管理使用户可以灵活地控制模型集成的大小和模型并行度，从而实现从系统和算法层面进行各种优化。HPC AI500 V2.0 基于 HPC AI500 V3.0，解决了等效性、代表性、可负担性和可重复性问题，提供了完整的 HPC AI 基准测试框架。

项目主页： /aibench/hpcai500/index.html

(2) HPL-MxP

HPL-MxP 基准测试旨在突出高性能计算（HPC）和人工智能（AI）工作负载的新兴融合。HPL-MxP的创新在于在整个求解过程中放弃了64位计算的要求，而是为LU选择了低精度（可能是16位）精度，并通过复杂的迭代来恢复因式分解中丢失的精度。

项目主页： https://hpl-mxp.org/

(3) MLPerf HPC

MLPerf HPC是由MLCommons协会推动的大规模科学机器学习训练应用程序的基准套件。

项目主页： https://mlcommons.org/en/training-hpc-20/

(4) AIPerf

AIPerf 是利用自动化机器学习（AutoML）的端到端基准测试套件。它代表真实的 AI 场景，并自动适应各种规模的机器。

项目主页： https://aiperf.org/, https://github.com/AI-HPC-Research-Team/AIPerf

AI for science

(1) SAIBench

科研界正在采用基于人工智能的解决方案，以针对易于处理的科学任务并改善研究工作流程。但是，此类解决方案的开发和评估分散在多个学科中。SAIBench将科学AI基准问题正式化，并试图统一努力，实现新学科的低摩擦入职。SAIBench 使用特定于领域的语言将研究问题、AI 模型、排名标准和软件/硬件配置解耦为可重用模块。

项目主页： https://www.computercouncil.org/SAIBench/

SNN

Spiking Neural Networks (SNN) in AI

(1) SNNBench

SNNBench是第一个覆盖训练和推理阶段的端到端的针对脉冲神经网络（SNN）的基准测试，将模型训练到目标精度。它考虑了包括不同领域、训练范式、学习规则、脉冲神经元和连接类型在内的各个方面。它包含图像分类和语音识别负载，并且SNNBench根据训练/推理速度、训练稳定性和准确性对不同的学习规则进行比较。此外，它提供了SNN中基础算子占比的详细负载特征刻画，并评估了SNN的可扩展性。

项目主页： /SNNBench/

(2) Benchmark from SNABSuite

这个基准测试专注于不同硬件后端的推理阶段，特别是神经形态硬件。然而，它不包括训练阶段，只包含图像分类负载，但包含不同的网络架构。此外，它提供了一种扫描策略，以寻找适用于资源受限硬件（如低内存硬件）的最佳网络参数配置。

项目主页： https://github.com/hbp-unibi/SNABSuite

(3) Benchmark from Kulkarni et al

这个基准测试由包含机器学习的几个工作负载组成，涵盖了不同的学习规则，包括反向传播、Resevoir和Evolutionary。然而，它只模拟了训练过程的一部分，并没有进行完整的训练会话，因此不包含准确率相关的信息。该项目目前还没有开源。

项目主页： https://www.sciencedirect.com/science/article/pii/S0925231221003969

Spiking Neural Networks (SNN) in computational neuroscience

(1) Simulation of networks of spiking neurons: A review of tools and strategies

这个项目提供了对脉冲神经模型仿真工具的详细评估，并提出了一个基准测试套件，其中包含四个负载和不同的脉冲神经模型，包括漏电整流-放电模型（LIF）和复杂的霍奇金-胡克斯利（HH）模型。

(2) Software for Brain network simulations: a comparative study

该项目提出了两个基准测试，其中包括一个由漏电整流-放电神经元构成的经典金字塔间神经元伽玛（PING）网络，以及一个由霍奇金-胡克斯利神经元构成的抑制后反弹-间神经元伽玛（PIR-ING）网络。它提供了BRAIN、NEURON和NEST仿真器的实现。

项目主页： http://senselab.med.yale.edu/ModelDB/showModel.cshtml?model=222725

Edge, IoT and mobile

(1) Edge AIBench V3.0

Edge AIBench V3.0是IoT-Edge-Cloud系统的场景基准测试，它提出了一套用于复制自动驾驶汽车场景的提炼规则，以提取具有相互交织交互的关键任务。捕获基本的系统级和组件级特性，同时显著降低系统复杂性，以便用户可以快速评估和查明系统和组件瓶颈。此外，Edge AIBench V3.0 实现了可扩展的架构，用户可以通过该架构评估具有不同大小工作负载的系统。

项目主页： /aibench/edge-aibench/index.html

(2) AIoTBench

AIoTBench专注于移动和嵌入式设备的推理能力评估。考虑到模型和框架的代表性和多样性，AIoTBench涵盖了三个典型的重量级网络：ResNet50，InceptionV3，DenseNet121，以及三个轻量级网络：SqueezeNet，MobileNetV2，MnasNet。每个模型都由三个流行的框架实现：Tensorflow Lite，Caffe2，Pytorch Mobile。对于 Tensorflow Lite 中的每个模型，我们还提供了三个量化版本：动态范围量化、全整数量化、float16 量化。

项目主页： /aibench/aiotbench/index.html

(3) IoTBench

IoTBench是一个以数据为中心和可配置的物联网基准套件。它涵盖了物联网应用中常用的三种算法：矩阵处理、列表运算和卷积。

项目主页： /iotbench/

(4) Flet-Edge

Flet-Edge 是一个完整的生命周期评估工具，用于边缘深度学习框架。为了描述边缘框架的全生命周期性能，提出了一个全面的指标集PDR，包括三个全面的子指标：编程复杂性、部署复杂性和运行时性能。Flet-Edge 支持以可视化方式自动收集和呈现 PDR 的指标。

项目主页： /FletEdge/, https://github.com/Jxyzzu/Flet-Edge

(5) UL Procyon AI Inference Benchmark

UL Procyon AI 推理基准测试使用 NNAPI 衡量 Android 设备的 AI 性能。基准测试分数反映了设备上推理操作的速度和准确性。借助 Procyon AI 推理基准测试，您不仅可以测量 Android 设备中专用 AI 处理硬件的性能，还可以验证 NNAPI 实施质量。

项目主页： https://benchmarks.ul.com/procyon/ai-inference-benchmark

(6) MLMark

EEMBC MLMark® 基准测试是一种机器学习（ML）基准测试，旨在衡量嵌入式推理的性能和准确性。开发此基准测试的动机源于分析 ML 性能所需的环境缺乏标准化。MLMark 针对嵌入式开发人员，并试图澄清环境，以便不仅促进对当今产品的性能分析，而且随着时间的推移跟踪趋势以改进新的 ML 架构。

项目主页： https://www.eembc.org/mlmark/

(7) AI Benchmark

AI Benchmark 在手机上测试几个关键的 AI 任务，并专业地评估其性能。

项目主页: AI Benchmark tests several key AI tasks on the phone and professionally evaluates its performance.

(8) MLPerf Tiny Benchmark

MLPerf Tiny 测量机器学习推理的准确性、延迟和能量，以正确评估超低功耗微型机器学习（TinyML）系统之间的权衡。

项目主页： https://mlcommons.org/en/inference-tiny-10/

(9) MLPerf Mobile Inference Benchmark

MLPerf 移动推理基准测试作为移动应用程序提供，用于不同的计算机视觉和自然语言处理任务。该基准测试还支持非智能手机设备，例如笔记本电脑和移动PC。

项目主页： https://mlcommons.org/en/inference-mobile-21/

(10) EDLAB

EDLAB 是一种基准评估工具，用于自动评估不同的边缘深度学习平台。

项目主页： https://github.com/HPInc/EDLAB

NLP and Big Language Models

(1) BIG-bench

超越模仿游戏基准（BIG-bench）是一个协作基准测试，旨在探索大型语言模型并推断其未来功能。

项目主页： https://github.com/google/BIG-bench

(2) HELM

语言模型（LM）正在成为几乎所有主要语言技术的基础，但它们的功能、局限性和风险尚未得到很好的理解。语言模型的整体评估（HELM）有两个层次：（i）场景和指标的抽象分类法，用于定义语言模型评估的设计空间;（ii）一组具体的已实现场景和指标，这些场景和指标被选择用于优先考虑覆盖范围（例如不同的英语变体），价值（例如面向用户的应用程序）和可行性（例如有限的工程资源）。

项目主页： https://crfm.stanford.edu/helm/v1.0 https://github.com/stanford-crfm/helm

(3) SuperGLUE

用于预训练和迁移学习的新模型和方法推动了一系列语言理解任务的显着性能改进。一年前推出的GLUE基准提供了一个单一数字指标，总结了各种此类任务的进展，但基准测试的表现最近接近非专家人类的水平，这表明进一步研究的空间有限。

项目主页： https://super.gluebenchmark.com/

(4) EleutherAI LM Evaluation Harness

EleutherAI LM Evaluation Harness项目提供了一个统一的框架，用于在大量不同的评估任务上测试自回归语言模型（GPT-2，GPT-3，GPTNeo等）。它实现了 200+ 个任务，并支持 GPT-2、GPT-3、GPT-Neo、GPT-NeoX 和 GPT-J，具有灵活的标记化无关接口。

项目主页： https://github.com/EleutherAI/lm-evaluation-harness

HPC

(1) Linpack

Linpack 基准测试是计算机浮点执行率的度量。它是通过运行一个计算机程序来确定的，该程序可以求解密集的线性方程组。多年来，基准测试的特征发生了一些变化。事实上，Linpack 基准报告中包含三个基准。

项目主页： https://www.top500.org/project/linpack/

(2) HPCC

HPC 挑战赛是测量一系列内存访问模式的基准测试套件。HPC 挑战基准测试基本上包括 7 个测试：HPL、STREAM、PTRANS、RandomAccess、FFT 以及通信带宽和延迟。

项目主页： https://hpcchallenge.org/hpcc/

(3) SPEChpc 2021

HPC 系统的构建具有更高的异构性。多种类型的加速器带来了巨大的额外计算能力，同时在性能评估和表征方面带来了巨大的挑战。SPEChpc 2021 基准测试套件通过提供一组应用程序基准测试套件来应对这些挑战，这些套件使用对最先进 HPC 系统的实际性能的全面衡量。它们提供精心挑选的科学和工程代码，这些代码代表了 HPC 工作负载，并且可以跨 CPU 和加速器移植，以及某些公平的比较性能指标。

项目主页： https://www.spec.org/hpc2021/

(4) NAS Parallel Benchmark

NAS 并行基准测试（NPB）是一小组程序，旨在帮助评估并行超级计算机的性能。基准测试源自计算流体动力学（CFD）应用程序，由原始“铅笔和纸”规范中的五个内核和三个伪应用程序组成。

项目主页： https://www.nas.nasa.gov/software/npb.html

CPU and Accelerators

(1) WPC

WPC 是一种全面的工作负载表征（简称 WPC）方法，也是集成了依赖于微体系结构、独立于微体系结构和独立于 ISA 的特征描述方法的工具。它对跨中间表示（IR）、ISA 和微体系结构的分层配置文件数据执行全貌分析，以总结固有的工作负载特征并了解数字背后的原因。

项目主页： /WPC/

(2) BENCHCPU

项目主页： /benchcpu/

(3) SPEC CPU

SPEC CPU 2017 基准测试包包含 SPEC 的下一代、行业标准化的 CPU® 密集型套件，用于测量和比较计算密集型性能，对系统的处理器、内存子系统和编译器施加压力。

项目主页： https://www.spec.org/cpu2017/, https://www.spec.org/cpu2006/

(4) PARSEC

普林斯顿共享内存计算机应用程序存储库（PARSEC）是由多线程程序组成的基准测试套件。该套件专注于新兴工作负载，旨在代表芯片多处理器的下一代共享内存程序。

项目主页： https://parsec.cs.princeton.edu/

(5) iMLBench

iMLBench是一个针对CPU-GPU集成架构的机器学习基准套件。它提供机器学习工作负载，包括线性回归（LR）、K 均值（KM）、K 最近邻（KNN）、反向传播（BP）、二维卷积神经网络（2DCNN）、2D 卷积神经网络（3DCNN）、多层感知器（MLP）和 Winograd 卷积（Winograd）。

项目主页： https://github.com/ChenyangZhang-cs/iMLBench

(6) DeepBench

DeepBench的主要目的是对不同硬件平台上的深度学习很重要的操作进行基准测试。DeepBench 包括对训练和推理都很重要的操作和工作负载。

项目主页： https://github.com/baidu-research/DeepBench

(7) DPUBench

DPUBench是应用驱动的可扩展基准测试集。它将DPU应用分为网络、存储、安全三个场景，并且包含一个涵盖各个场景的算子集以及真实数据中心环境下的端到端评测负载组成的可扩展框架。

项目主页： /DPUBench/

Databases

(1) OLxPBench

OLxPBench 是一个复合混合事务/分析处理（HTAP）基准测试套件，它强调实时查询、语义一致的架构和特定于域的工作负载在基准测试、设计和实现 HTAP 系统时的必要性。OLxPBench提出：（1）混合交易的抽象，在在线交易之间执行实时查询，以模拟广泛观察到的行为模式——在咨询实时分析的同时做出快速决策;（2）语义一致的模式来表达OLTP和OLAP模式之间的关系;（3）将特定领域基准和一般基准相结合，以表征具有不同资源需求的不同应用场景。

项目主页： /olxpbench

(2) mOLxPBench

HTAP 数据库在微基准测试方面存在明显缺失，现有环境下尚缺乏开源的微基准测试工具。针对这一问题，我们设计并实现了一种面向 HTAP 数据库的微基准测试，能够精准调控新鲜数据的生成速率及其访问粒度。该能力构成了本微基准测试的显著特征，使其区别于传统的 HTAP 基准测试。值得特别指出的是，对 HTAP 数据库的有效评估，离不开宏基准测试与微基准测试的有机结合。

项目主页： /mOLxPBench

(3) TPC-C

TPC 基准测试 C 是一个在线事务处理（OLTP）基准测试。TPC-C 比以前的 OLTP 基准测试（如 TPC-A）更复杂，因为它具有多种事务类型、更复杂的数据库和整体执行结构。TPC-C涉及五个不同类型和复杂性的并发事务的混合，这些事务要么在线执行，要么排队等待延迟执行。该数据库由九种类型的表组成，具有广泛的记录和人口大小。TPC-C 以每分钟事务数（tpmC）为单位进行度量。

项目主页： https://www.tpc.org/tpcc/default5.asp

(4) TPC-E

TPC 基准测试E是一个在线事务处理（OLTP）基准测试。TPC-E比以前的OLTP基准（如TPC-C）更复杂，因为它的事务类型多样，数据库和整体执行结构更复杂。TPC-E涉及十二个不同类型和复杂性的并发交易的混合，要么在线执行，要么由价格或时间标准触发。该数据库由 33 个表组成，这些表具有广泛的列、基数和缩放属性。TPC-E 以每秒事务数（tpsE）为单位进行度量。

项目主页： https://www.tpc.org/tpce/default5.asp

(5) TPC-H

TPC-H是一个决策支持基准。它由一套面向业务的即席查询和并发数据修改组成。已选择填充数据库的查询和数据具有广泛的行业相关性。此基准测试说明了决策支持系统，这些系统检查大量数据，执行高度复杂的查询，并为关键业务问题提供答案。TPC-H 报告的性能指标称为 TPC-H 每小时复合查询性能指标（QphH@Size），反映了系统处理查询能力的多个方面。

项目主页： https://www.tpc.org/tpch/default5.asp

(6) TPC-DS

TPC-DS是一个决策支持基准，它对决策支持系统的几个普遍适用的方面进行建模，包括查询和数据维护。该基准作为通用决策支持系统提供了对绩效的代表性评估。基准测试结果测量单用户模式下的查询响应时间、多用户模式下的查询吞吐量以及受控、复杂的多用户决策支持工作负载下给定硬件、操作系统和数据处理系统配置的数据维护性能。

项目主页： https://www.tpc.org/tpcds/default5.asp

(7) LinkBench

LinkBench是一个数据库基准测试，用于评估类似于Facebook生产MySQL部署的工作负载的数据库性能。它可以重新配置以模拟各种工作负载，并且可以编写插件来对其他数据库系统进行基准测试。

项目主页： https://github.com/facebookarchive/linkbench

Power Systems

(1) PowerSystemBench

项目主页： /electricity.html