跳转到内容

張量浮點-32

维基百科,自由的百科全书

张量浮点-32(TensorFloat-32)是用来表示浮点数的一种资料型别,在计算机中占据19比特大小,专为在某些 Nvidia GPU 上运行的 Tensor Core 而设计。

格式

[编辑]

张量浮点-32格式具有:

  • 符号位:1位
  • 指数部分:8位
  • 尾数部分:10位 (由于省略了首位必定存在的“1”,实际上为11位)

虽然与普通的 32 位 IEEE 754 浮点数相比精度较低,但计算速度要快得多,在 A100 上最多可达 8 倍(与使用 FP32 的 V100 相比)。[1]

参见

[编辑]
  1. ^ NVIDIA TF32 — DeepRec latest documentation. deeprec.readthedocs.io. [2025-07-31]. 

參閱

[编辑]