張量浮點-32
外观
浮点数运算 计算机数值编码 |
---|
IEEE 754 |
其它 |
高精度计算 |
张量浮点-32(TensorFloat-32)是用来表示浮点数的一种资料型别,在计算机中占据19比特大小,专为在某些 Nvidia GPU 上运行的 Tensor Core 而设计。
格式
[编辑]张量浮点-32格式具有:
- 符号位:1位
- 指数部分:8位
- 尾数部分:10位 (由于省略了首位必定存在的“1”,实际上为11位)
虽然与普通的 32 位 IEEE 754 浮点数相比精度较低,但计算速度要快得多,在 A100 上最多可达 8 倍(与使用 FP32 的 V100 相比)。[1]
参见
[编辑]- ^ NVIDIA TF32 — DeepRec latest documentation. deeprec.readthedocs.io. [2025-07-31].