Bfloat16格式

Bfloat16格式(brain floating point)是一种计算机数字存储格式，在计算机内存中占用16位。此格式是 32 位 IEEE 754 单精度浮点格式（binary32）的缩短（16位）版本，旨在加速机器学习计算。它通过保留 8 位指数位来保留 32 位浮点数的范围，但仅支持 8 位精度，而不是32位浮点数格式的 24 位有效精度。与标准的 IEEE 16位浮点数相比，Bfloat16 有更多的指数位与更少的尾数位，可以用于减少存储需求并提高机器学习算法的计算速度。^[1]^[2]

格式

Bfloat16格式具有：

符号位：1位
指数部分：8位
尾数部分：7位 (由于省略了首位必定存在的“1”，实际上为8位)

bfloat16 二进制浮点指数使用偏移量二进制表示进行编码，零偏移量为 127。因此，为了获得真正的指数，必须从指数字段的值中减去 127 的偏移量。

参见

^ BFloat16: The secret to high performance on Cloud TPUs. Google Cloud Blog. [2025-07-31] （美国英语）.
^ Cutress, Dr Ian. Intel’s Cooper Lake Plans: The Chip That Wasn’t Meant to Exist, Fades Away. www.anandtech.com. [2025-07-31].

參閱

[1] BFloat16: The secret to high performance on Cloud TPUs. Google Cloud Blog. [2025-07-31] （美国英语）.

[2] Cutress, Dr Ian. Intel’s Cooper Lake Plans: The Chip That Wasn’t Meant to Exist, Fades Away. www.anandtech.com. [2025-07-31].

[1]

[2]

查论编数据类型
无解释的	位元字节三进制位三进制字节字
数值	整数符号性有符号数无符号数定点数浮点数双精度扩展精度（英语：Extended precision）半精度迷你浮点数八精度四精度单精度有理数复数任意精度算术区间（英语：interval arithmetic）
文本	字符字符串
指针	記憶體位址物理地址虚拟地址參照
组合	代数数据类型广义（英语：generalized algebraic data type）数组关联数组类串列对象元对象可选类型积类型（英语：Product type）记录集合元组联合体标签
其他	布尔型底层类别（英语：Bottom type）容器枚举类型异常头等函数不透明数据类型（英语：Opaque data type）递归数据类型信号标字串流顶类型（英语：Top type）类型类類型系統单位类型（英语：Unit type） Void 不定型別
相关议题	抽象資料型別数据结构介面种类（英语：Kind (type theory)）元类对象类型（英语：Boxing (computer programming)）原始型別与複合型別协议子类型 C++模板型別構造器参数多态