更新时间:2023-12-24 18:11
单精度数是指计算机表达实数近似值的一种方式。VB中Single(单精度浮点型)变量存储为 IEEE 32 位(4 个字节)浮点数值的形式,它的范围在负数的时候是从 -3.402823E38 到 -1.401298E-45,而在正数的时候是从 1.401298E-45 到 3.402823E38 。
符号位S(sign) - 1bit
首位0代表正号,首位1代表负号。(只有+0,没有-0)
指数位E(exponent) - 8bit
E的取值范围为0-255(无符号整数),双精度为11位,扩张型大于等于15位,实际数值e=E-127。
尾数位M(mantissa) - 23bit
M也叫有效数字位(significant)、系数位(coefficient),甚至被称作“小数”。
在一般情况下,m=(1.M)2,使得实际起作用范围为1≤尾数<2。
为了对溢出进行处理,以及扩展对接近0的极小数值的处理能力,IEEE 754对M做了一些额外规定,参见后文介绍。
对于内部存储数据(00111111)2:
符号位
(最左侧)S=0。这表示是个正数
指数
(左侧第2-9位)E=(01111110)2=(126)10,所以e=E-127=-1。
尾数
(最后的23位)M=(11001100110)2,m=(1.M)2=(1.7999999523162841796875)10
该二进制小数转为10进制的计算方式为1 + (1/2+1/4) + (1/32+1/64) + (1/512+1/1024)……
实际值
N=1.7999999523162841796875*2^-1=0.89999997615814208984375
(其实,这个数据是0.9的单精度浮点数的实际内部存储,可以看到有一定的误差)
这里继续给出另外几个数字的实例:
使用竖线|将各个段位分隔显示
实际值 | 符号位 | ;指数 | ;尾数
1 |
2 |
-6.5 | 1 | 10000001 | 10100000000
最大表示范围:单精度浮点数可以表示的范围为±3.40282 * 10^38(1.1111...1×2^127)
接近于0的最小值:单精度浮点数可以表示1.175 * 10-38(1.00...0×2^-126)的数据而不损失精度。
当数值比以上值小的时候,将会由于尾数的有效位数减少而逐步丧失精度(IEEE 754的规定),或者有的系统则直接采用0值来简化处理过程。
单精度浮点数的实际有效精度为24位二进制,这相当于 24*log102≈7.2 位10进制的精度,所以平时我们说“单精度浮点数具有7位精度”。(精度的理解:当从1.000...02变化为1.000...12时,变动范围为2^23,考虑到因为四舍五入而得到的1倍精度提高,所以单精度浮点数可以反映2^24的数值变化,即24位二进制精度)
浮点数以有限的32bit长度来反映无限的实数集合,因此大多数情况下都是一个近似值。同时,对于浮点数的运算还同时伴有误差扩散现象。
特定精度下看似相等的两个浮点数可能并不相等,因为它们的最小有效位数不同。
由于浮点数可能无法精确近似于十进制数,如果使用十进制数,则使用浮点数的数学或比较运算可能不会产生相同的结果。
如果涉及浮点数,值可能不往返。值的往返是指,某个运算将原始浮点数转换为另一种格式,而反向运算又将转换后的格式转换回浮点数,且最终浮点数与原始浮点数相等。由于一个或多个最低有效位可能在转换中丢失或更改,往返可能会失败。
单精度浮点数用4字节存储,双精度浮点数用8字节存储,分为三个部分:符号位、阶和尾数。阶即指数,尾数即有效小数位数。单精度格式阶占8位,尾数占24位,符号位1位,双精度则为11为阶,53位尾数和1位符号位。
细心的人会发现,单双精度各部分所占字节数量比实际存储格式多了一位,的确是这样,事实是,尾数部分包括了一位隐藏位,允许只存储23位就可以表示24位尾数,默认的1位是规格化浮点数的第一位,当规格化一个浮点数时,总是调整它使其值大于等于1而小于2,亦即个位总是为1。例如1100B,对其规格化的结果为1.1乘以2的三次方,但个位1并不存储在23位尾数部分内,这个1是默认位。
阶以移码的形式存储。对于单精度浮点数,偏移量为127(7FH),而双精度的偏移量为1023(3FFH)。存储浮点数的阶码之前,偏移量要先加到阶码上。前面例子中,阶为2的三次方,在单精度浮点数中,移码后的结果为127+3即130(82H),双精度为1026(402H)。
浮点数有两个例外。数0.0存储为全零。无限大数的阶码存储为全1,尾数部分全零。符号位指示正无穷或者负无穷。
下面举几个例子:
单精度浮点数
十进制 ;规格化 ;符号 ;移阶码 尾数
-12 -1.1x2^3 1 1000001
0.25 1.0x2^-2 0 01111101
所有字节在内存中的排列顺序,intel的cpu按little endian顺序,motorola的cpu按big endian顺序排列。
0值
以指数E、尾数M全零来表示0值。当指数位S变化时,实际存在“正0”和“负0”两个内部表示,其值认为都等于0。
接近于0的数值
当指数E为0时,IEEE 754规定:m=(0.M)2 e=-126。通过这个规则,将扩大对0值附近数据的表示能力。
几个实例:
符号S 指数E 尾数M 代表意义 对应10进制 相对误差 0 00000000.12*2-126 5.87e-39 2-23
000000000 0.012*2-126 2.94e-39 2-22
…… ;…… ;…… ;……
.0000...12*2-126=2-148 2.80e-45 50%
0 1.40e-45 100%
(注:部分系统不支持此类数据,而直接进行0值处理)
单精度浮点数应广泛,而一些低成本的单片机系统中不具备数学运算的协处理器硬件,因而在在不同系统中,根据硬件特性对浮点数的软件实现进行了相应调整和简化。存在如下一些IEEE 754常见变形:
高低位的字节顺序不同
即高字节在先的big endian和低字节在先的little endian。后者在Intel、Motorola等的CPU中大量使用。
指数部分被单独存为一字节
独立字节比较便于处理。此类系统会把符号位与尾数结合起来存放。
此外,不同系统中对于下列特性可能有细微差异:
无穷大、NaN的规定和处理
这可能会影响到溢出特性
非归一化数据的处理
有可能为了简单,而将无法归一化的小数值直接以0来处理;有的则直接采用(0.M)2方案表示全域尾数,以牺牲1位二进制精度的代价换取算法的同意。
以上两部分的改变,对大多数的应用情形影响不大。
当指数E为全1时,IEEE 754规定此类存储作为特别使用,而不是普通数据。
E=255 M=0时,用作无穷大(或Infinity、∞)。根据符号不同,又有+∞、-∞。
无穷大可以由算术运算得出,下面是有关无穷大的几个运算示例:
1/∞ = 0,-1/∞ = -0,1/0 = ∞,-1/0 = -∞
NaN
E=255、M不为0时,用作NaN(Not a Number,“不是数”之意)。
当对数据进行非法运算(例如对-1开平方)时,结果出现NaN。
运算时含有NaN时,结果也必定是NaN。
注意:NaN<>NaN!对NaN进行相互比较是无意义的。
(NaN还有QNaN和SNaN的用法,用于程序捕获某些例外状态。参见NaN条目)
单精度和双精度数值类型最早出现在C语言中(比较通用的语言里面),在C语言中单精度类型称为浮点类型(float),顾名思义是通过浮动小数点来实现数据的存储。这两个数据类型最早是为了科学计算而产生的,他能够给科学计算提供足够高的精度来存储对于精度要求比较高的数值。
但是与此同时,他也完全符合科学计算中对于数值的观念:
当我们比较两个棍子的长度的时候,一种方法是并排放着比较一下,一种方法是分别量出长度。但是事实上世界上并不存在两根完全一样长的棍子,我们测量的长度精度受到人类目测能力和测量工具精度的限制。从这个意义上来说,判断两根棍子是否一样长丝毫没有意义,因为结果一定是False,但是我们可以比较他们两个哪个更长或者更短。这个例子很好地概括了单精度/双精度数值类型的设计初衷和存在意义。
基于上述认识,单精度/双精度数值类型从一开始设计的时候,就不是一个准确的数值类型,他只保证在他这个数值类型的精度之内是准确的,精度之外则不保证,比方说,一个数值5.1,很可能存储在单精度/双精度数值中的实际值是5.1或者5.09999999999999。导致这个现象的原因我们可以通过两种方式来解释:
你可以尝试在任何一个控件的属性面板中,设定他的宽度为:3.2CM,当你输入完毕后,你会发现值自动变成了3.199cm,无论你怎么改,你都无法输入3.200CM,因为实际上在电脑中存储的并不是CM为单位的数值,而是“缇”为单位的数值,而“缇”和CM之间的比值,是个很难被除尽的数,因此你输入完毕后,电脑自动转换成了最接近的“缇”值,然后再转换成厘米显示到属性面板上,这一乘一除,两次四舍五入,误差就出来了。单精度/双精度也是类似的原理,其实在二进制存储的时候,单精度/双精度都采用了类似相近分数的方法,而这样的存储是不可能做到准确的。
通过解剖单精度数值的二进制存储格式,我们可以清楚看到,实际上单精度/双精度的存储,都要通过乘法和除法,其中必有舍入,如果恰好你的数值在除法中被舍入了,那么你赋的初值就很可能与你最终存储的值不完全相同,其中的微小差异,并不与单精度/双精度的设计目标相违背。
当我们在数据库中或者VBA代码中使用一个单精度/双精度数值的时候,也许你从界面上看不到区别,但是在实际的存储中,这个差别却真真切切地就在那里,当你对其进行相等比较的时候,系统只是简单地作二进制的比较,界面上无法体现的微小差异,在二进制比较面前却无处遁形,于是,你的等于比较返回了一个意料之外的False。