YD T 3944-2021 人工智能芯片基准测试评估方法.pdf
《YD T 3944-2021 人工智能芯片基准测试评估方法.pdf》由会员分享,可在线阅读,更多相关《YD T 3944-2021 人工智能芯片基准测试评估方法.pdf(16页珍藏版)》请在麦多课文档分享上搜索。
1、 ICS 31.200 L56 YD/T YD/T 中 华 人 民 共 和 国 通 信 行 业 标 准 钓鱼网站监测与处置系统 企业侧系统能力要求 人工智能芯片基准测试评估方法 Evaluation method for artificial intelligence chip benchmark (报批稿) -发布 -实施 中 华 人 民 共 和 国 工 业 和 信 息 化 部 发 布 XX/T XXXXXXXX II 目 次 前 言 .III 引 言 .IV 人工智能芯片基准测试评估方法 .1 1 范围 .1 2 规范性引用文件 .1 3 术语、定义和缩略语 .1 3.1 术语和定义 .1
2、 3.2 缩略语 .2 4 基准测试方案概述 .2 4.1 基准测试框架 .2 4.2 评测对象 .3 4.3 基准测试的评测原则 .3 4.4 基准设置的主要方案 .4 5 测试场景 .4 5.1 图像分类 .4 5.2 目标检测 .4 5.3 超分辨率 .4 5.4 图像语义分割 .4 5.5 人脸识别 .4 5.6 机器翻译 .5 6 评估方法 .5 6.1 评估方法概述 .5 6.2 测试环境 .5 7 人工智能芯片训练任务基准测试度量指标及评估方法 .6 7.1 度量指标 .6 7.2 基准测试说明 .6 7.3 参考实现 .6 7.4 测试方法 .6 8 人工智能芯片推理任务基准测
3、试度量指标及评估方法 .8 8.1 度量指标 .8 8.2 基准测试说明 .9 8.3 参考实现 .9 8.4 测试方法 .10 YD/T XXXXXXXX 前 言 本文件按照 GB/T 1.1-2020 给出的规则起草。 本标准由中国通信标准化协会提出并归口。 请注意本标准的某些内容可能涉及专利。本标准的发布机构不承担识别这些专利的责任。 本标准起草单位 : 中国信息通信研究院、南京新一代人工智能研究院、西安交通大学人工智能与机器人 研究所 、 华为技术有限公司 、 深圳市腾讯计算机系统有限公司 、 阿里云计算有限公司 、 深圳鲲云信息科技有 限公司、清华大学、安谋科技 (中国 )有限公司、
4、中科寒武纪科技股份有限公司、赛灵思电子科技(北京)有 限公司 、 英特尔 (中国 ) 有限公司 、 颖脉信息技术 (上海 ) 有限公司 、 上海海思技术有限公司 、 北京百度网 讯科技有限公司、上海燧原科技有限公司、北京地平线机器人技术研发有限公司 本标准主要起草人:张蔚敏、刘硕、张哲煜、孙明俊、任鹏举、关贺、于潇宇、张龙、游亮、潘逢治、 刘建航 、 杜子东 、 汪玉 、 葛广君 、 叶挺群 、 沈林杰 、 牛昕宇 、 郑魁 、 张亚军 、 高剑林 、 章恒 、 方绍峡 、 王凯 、 李亿、徐剑威、石恒、罗航、曾洪博、程智锋。 YD/T XXXXXXXX 引 言 基准测试作为一种客观的评价方式
5、 , 在计算机体系架构的发展中扮演着重要的角色 , 有效地推动着 面向不同方向的硬件和软件设计的演进。 专用的 AI 加速芯片或其它一些拥有强大计算能力的 IP 应用越发广泛 , 成为人工智能时代不可或缺 的一环, 因此迫切需要一套方法能够横向对比这些 AI 加速芯片或整个 AI 解决方案的优劣。并且,基 于清晰指标体系的技术评测能够去伪存真 , 推动相关产业健康发展 。 人工智能芯片基准测试越来越受到 业界的关注 , 但目前国际上还没有成熟的相关技术规范和标准 。 人工智能芯片基准测试体系与方法的建 立 , 能够明确评测指标 , 客观反映当前 AI 加速器能力现状 , 并从技术层面进行客观比
6、对 。 为芯片企业 提供第三方评测结果的同时,也为应用企业提供选型参考。 本标准通过制定通用方法来衡量用于训练或推理任务的人工智能软硬件的最佳性能 。 因相关人工智 能芯片技术正在快速发展,本文件仅作为评估参考。随着技术的发展,还将制定后续的相关规范。 YD/T XXXXXXXX 1 人工智能芯片基准测试评估方法 1 范围 本文件规定了人工智能芯片基准测试框架 、 评测指标及评估方法 , 主要包括基本信息披 露和技术测试。 本文件适用于芯片厂商或检测机构对具有人工智能算法加速能力的处理器或加速器的 基准测试工作。 2 规范性引用文件 下列文件对于本文件的应用是必不可少的 。 凡是注日期的引用文
7、件 , 仅所注日期的版本 适用于本文件 。 凡是不注日期的引用文件 , 其最新版本 (包括所有的修改单 ) 适用于本文件 。 GB/T 5271.28-2001 信息技术 词汇 第 28部分:人工智能 基本概念与专家系统 ISO/IEC TR 29119-11:2020(en) Software and systems engineering Software testing Part 11: Guidelines on the testing of AI-based systems 3 术语、定义和缩略语 3.1 术语和定义 下列术语和定义适用于本文件。 3.1.1 人工智能 Artific
8、ial Intelligence 表现出于人类智能(如推理和学习)相关的各种功能的功能单元和能力。 来源: GB/T 5271.28-2001, 28.01.02 3.1.2 深度学习 Deep Learning 机器学习中一种基于对数据进行 表征 学习的方法 , 通过组合低层特征形成更加抽象的高 层表示属性类别或特征,以发现数据的分布式特征表示。 来源: ISO/IEC TR 29119-11:2020(en), 3.1.26 3.1.3 基准测试 Benchmark 通过设计科学的测试方法 、 测试工具和测试系统 , 实现对一类测试对象的某项性能指标 进行定量的和可对比的测试。 3.1.4
9、 YD/T XXXXXXXX 2 工作负载 Workload 用于测定和评价人工智能芯片的基准测试任务,即包含特定 AI任务的基准测试程序。 3.1.5 度量指标 Metrics 用于评价人工智能芯片完成基准测试任务的具体指标。 3.1.6 测试集 Test Set 独立的数据集,用于在模型经由验证集的初步验证之后测试模型。 来源: ISO/IEC TR 29119-11:2020(en), 3.1.75 3.1.7 前 N 正确率 Top-N 图像识别算法给出前 N 个答案中有一个是正确的概率, N 常取值为 1 或 5。 3.1.8 交并比 IoU 模型所预测的检测框和真实标注信息 (gr
10、ound truth)的检测框的交集和并集之间的比例。 也被称为 Jaccard 指数。 注: IoU=监测框和标签框的交集面积 /监测框和标签框的并集面积 3.1.9 批次大小 Batch size 单次处理时输入的样本(如图像,时间序列等)数量。 3.1.10 模型计算量 Model operations 输入单个样本 , 模型进行一次完整的计算所发生的运算个数 。 (如果是浮点操作数 , 则 单位 为 FLOPs,如果是定点操作数,则单位 为 OPs)。 3.2 缩略语 下列缩略语适用于本文件。 AI 人工智能 Artificial Intelligence BLEU 双语评估替补 Bi
11、lingual Evaluation Understudy DUT 被测设备 Device Under Test FLOPs 浮点运算数 floating point of operations FPS 每秒处理帧数 Frame Per Second MAC 乘累加单元 Multiply and Accumulate YD/T XXXXXXXX 3 mAP 均值平均精度 Mean Average Precision NMS 非极大值抑制 Non-maximum Suppression OPs 操作数 OPerations ROC 受试者工作特征曲线 Receiver operating cha
12、racteristic curve SDK 软件开发工具包 Software Development Kit SSIM 结构相似性 Structural SIMilarity 4 基准测试方案概述 4.1 基准测试框架 基准测试框架如图 1所示。 图 1 基准测试框架 4.1.1 工作负载 为指定测试场景下,使用神经网络模型完成训练或推理任务的测试例。 4.1.2 AI 框架 用于实现相关人工智能方法的软件框架 , 包含 TensorFlow、 PyTorch 等这样的深度学习 框架, 以及面向移动端或推理任务的框架如 TensorFlow Lite、 TensorRT 等。这些框架使得 我们
13、能够建立深度学习模型完成训练或推理任务。 4.1.3 硬件调度 SDK 硬件调度 SDK 即向上能支持 AI 框架, 向下能提供调度和使用包括 CPU、 GPU、 DSP、 NPU 等人工智能计算所需的硬件资源。 4.1.4 处理器硬件系统 搭载人工智能芯片的计算物理设备, 呈现形态包括 CPU、 GPU、 ASIC、 FPGA 等芯片, 及其构成的计算服务器和移动终端设备等。 4.2 评测对象 YD/T XXXXXXXX 4 AI 加速器或计算卡,即专门用于处理人工智能应用中的大量计算任务的模块。呈现形 态包含但不局限于 GPU 、 FPGA 、 ASIC。按任务可分为训练和推理两类。 4.
14、3 基准测试的评测原则 4.3.1 实用性 基准测试方法应该能够产生积极效果。 4.3.2 公平性 基准测试方法应该通过指定规则和指标来提供公平的比较。 4.3.3 公正性 基准测试在评测过程中,始终以客观的科学的检测数据为依据。 4.3.4 可复测性 在不同的检测环境对同一被检测的量进行检测时,确保其测量结果的一致性。 4.4 基准设置的主要方案 基准测试方案采用测试处理器在完整的人工智能任务下的性能。以深度学习任务为例, 即只考察处理器对整个深度神经网络执行端到端的任务的能力。 5 测试场景 不同的参数量 /计算量对于处理器的计算、存储和通讯都有所不同,因此制定面向通用 的神经网络处理器的
15、测试用例时 , 这些典型网络都值得选取 , 下述场景为评估参考建议场景 与网络模型 。 考虑版本技术迭代 , 及被测对象差异性 , 测试场景选取应根据实际测试情况做 适当调整。 5.1 图像分类 任务描述:任务为准确识别图像中的物体类别。 参考实现:代表 模型为 MobileNet_v1, MobileNet_v2, ResNet_50 或 ResNet_101, Inception_v4, 数据集为 ImageNet。 准确率: 计算指定精度下的分类任务的 top1、 top5 正确率。 5.2 目标检测 任务描述:任务为在给定的图像中精确找到物体所在位置、并标注出物体的类别。 参考实现:代
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
5000 积分 0人已下载
下载 | 加入VIP,交流精品资源 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- YD 3944-2021 人工智能芯片基准测试评估方法 3944 2021 人工智能 芯片 基准 测试 评估 方法
