bfloat16格式

bfloat16（英語：brain floating point）是一种计算机数字存储格式，在计算机内存中占用16位，简称BF16。此格式是32位IEEE 754单精度浮点格式的缩短版本，旨在加速机器学习计算。它通过保留8位指数位来保留32位浮点数的范围，但仅支持8位精度，而不是32位浮点数格式的24位有效精度。与标准的IEEE16位浮点数相比，bfloat16有更多的指数位与更少的尾数位，可以用于减少存储需求并提高机器学习算法的计算速度。^[1]^[2]

格式

bfloat16格式具有：

符号位：1位
指数部分：8位
尾数部分：7位 (由于省略了首位必定存在的“1”，实际上为8位)

bfloat16二进制浮点指数使用偏移量二进制表示进行编码，零偏移量为127。因此，为了获得真正的指数，必须从指数字段的值中减去127的偏移量。

参见

^ BFloat16: The secret to high performance on Cloud TPUs. Google Cloud Blog. [2025-07-31] （美国英语）.
^ Cutress, Dr Ian. Intel’s Cooper Lake Plans: The Chip That Wasn’t Meant to Exist, Fades Away. www.anandtech.com. [2025-07-31].

參閱

[1] BFloat16: The secret to high performance on Cloud TPUs. Google Cloud Blog. [2025-07-31] （美国英语）.

[2] Cutress, Dr Ian. Intel’s Cooper Lake Plans: The Chip That Wasn’t Meant to Exist, Fades Away. www.anandtech.com. [2025-07-31].

[1]

[2]

查论编数据类型
无解释的	位元字节三进制位三进制字节字
数值	整数符号性有符号数无符号数定点数浮点数迷你浮点数 bfloat16格式半精度单精度双精度扩展精度（英语：Extended precision）四精度八精度有理数复数任意精度算术区间（英语：interval arithmetic）
文本	字符字符串
指针	記憶體位址物理地址虚拟地址參照
组合	代数数据类型广义（英语：generalized algebraic data type）数组关联数组类串列对象元对象可选类型积类型（英语：Product type）记录集合元组联合体标签
其他	布尔型底层类别（英语：Bottom type）容器枚举类型例外头等函数不透明数据类型递归数据类型信号标字串流顶类型（英语：Top type）类型类類型系統单位类型（英语：Unit type） Void 不定型別
相关议题	抽象資料型別数据结构介面种类（英语：Kind (type theory)）元类对象类型（英语：Boxing (computer programming)）原始型別与複合型別协议/接口子类型 C++模板型別構造器参数多态