Bfloat16格式
外观
浮点数运算 计算机数值编码 |
---|
IEEE 754 |
其它 |
高精度计算 |
Bfloat16格式(brain floating point)是一种计算机数字存储格式,在计算机内存中占用16位。此格式是 32 位 IEEE 754 单精度浮点格式 (binary32) 的缩短(16位)版本,旨在加速机器学习计算。它通过保留 8 位指数位来保留 32 位浮点数的范围,但仅支持 8 位精度,而不是32位浮点数格式的 24 位有效精度。与标准的 IEEE 16位浮点数相比,Bfloat16 有更多的指数位与更少的尾数位,可以用于减少存储需求并提高机器学习算法的计算速度。[1][2]
格式
[编辑]Bfloat16格式具有:
- 符号位:1位
- 指数部分:8位
- 尾数部分:7位 (由于省略了首位必定存在的“1”,实际上为8位)
bfloat16 二进制浮点指数使用偏移量二进制表示进行编码,零偏移量为 127。因此,为了获得真正的指数,必须从指数字段的值中减去 127 的偏移量。
参见
[编辑]- ^ BFloat16: The secret to high performance on Cloud TPUs. Google Cloud Blog. [2025-07-31] (美国英语).
- ^ Cutress, Dr Ian. Intel’s Cooper Lake Plans: The Chip That Wasn’t Meant to Exist, Fades Away. www.anandtech.com. [2025-07-31].