雪球目录网免费收录优秀网站,为了共同发展免费收录需做上本站友情链接,雪球目录网的工作人员才会审核收录,不做链接提交一律不审核,为了避免浪费时间:收录必看!!!
  • 收录网站:127
  • 快审网站:10
  • 待审网站:96
  • 文章:24556
当前位置:主页 > 新闻快讯 > “ARM将BF16深度学习数据样式带到ARMv8”

“ARM将BF16深度学习数据样式带到ARMv8”

发布时间:2021-06-11 11:15:02 阅读次数:

arm将bfloat16支持添加到项目三重ml平台下的armv8-a体系结构的下一个版本中。 这标志着一个新的重要里程碑,年轻的数据风格席卷了深度学习社区,并得到广泛应用。 本文将详细探讨这种风格的起源和效益。

数字样式

这看起来很明显,但如果从一开始就尝试构建计算机芯片,一个基本问题就是如何表示数字。 整数时,处理起来非常简单。 采用与十进制数同等的二进制数。 忽略负数,为了简化硬件内的计算,设计稍微多一些复杂的方案。 )但是,有理数不需要担心非合理的数量,需要进一步观察。

“ARM将BF16深度学习数据样式带到ARMv8”

处理方法是在计算机科学中采用“二进制”科学的表现形式,即浮点数。 用科学计数法将数字表示为有理数-尾数-,将其尾数乘以底数得到指数。 请注意,尾数在此时之前只包含一个数字。 这是因为此二进制科学计数法的第一个数字始终为1。 这是因为它实际上没有存储在计算机中。 一个例子是1.11 * 21111。 其值为1.75 * 215或57,344。 尾数的计算结果为1.75。 因为这一点之后的第一个数字表示值0.5,第二个数字表示值0.25。 因为这个二进制数1.101等于十进制数的1.625。

“ARM将BF16深度学习数据样式带到ARMv8”

总之,这样的数字包括三条新闻。 其符号、其尾数(其尾数可以为正或负)、指数。 为了简单起见,ieee将其中一些浮点型式标准化为电脑用。 其中最常用的是binary32 (或fp32 )和binary64 )。 数字是用于表示数字的位数总数,大多数数字是指定给尾数的。 这是为了提供更高的精度。 这些也被称为单精度( sp )和双精度) dp )。 如前所述,尾数的第一位始终为1,因此不包括在模式中。

“ARM将BF16深度学习数据样式带到ARMv8”

关于芯片的性能,有每秒浮点运算和flops的说法。 这一般是指单精度。 在高性能计算( hpc )中,例如在经典的top500列表中,双精度性能备受关注。 但是,在移动图形,特别是最近的深度学习中,中精度( fp16 )也成为了时尚。 英伟达很早就注意到了这一趋势,当时可能得到了移动技术的支持。 而且,每年在maxwell引进了吞吐量为fp32两倍( flops )的半取景器支持。 由于精度和范围降低,这是一种小型的数字风格,但已被证明对深度神经互联网来说是实现更高性能的实用折衷。

“ARM将BF16深度学习数据样式带到ARMv8”

b浮点16

当然,在尾数和指数之间如何分割比特大致可以自由选择。 在指数中采用越来越多的比特,意味着可表达的数字的动态范围更大或更小,在尾数中采用越来越多的比特,将提高表达的准确性。 后者一般是优选的。 例如,要尽可能在浮点表示中近似pi,必须在尾数中使用大量位。

“ARM将BF16深度学习数据样式带到ARMv8”

因此,需要用ieee标准对尾数和指数位数之间的这一分类进行标准化。 它还用于在硬件之间一致地解决舍入、上溢、下溢等异常。 sp的位数增加了一倍。 增加了16位数。 但是,其中只有三个给了指数。 但这确实使最大值从65,000大幅增加到了〜1038。 从fp16到fp32的机械精度提高了约10,000倍。 下图显示了单精度和中精度样式以及新的bfloat16样式。

本文:《“ARM将BF16深度学习数据样式带到ARMv8”

免责声明:雪球目录网免费收录各个行业的优秀中文网站,提供网站分类目录检索与关键字搜索等服务,本篇文章是在网络上转载的,本站不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,本站的工作人员将予以删除。