浮点数的二进制表示学习笔记
发布时间:2021-06-10
发布时间:2021-06-10
浮点数的二进制表示
浮点数的二进制表示学习笔记
目前C/C++编译器标准都遵照IEEE制定的浮点数表示法来进行float,double运算。这种结构是一种科学计数法,用符号、指数和尾数来表示,底数定为2——即把一个浮点数表示为尾数乘以2的指数次方再添上符号。下面是具体的规格:
符号位 阶码 尾数 长度 float 1 8 23 32 double 1 11 52 64 例一:已知:double类型38414.4,求:其对应的二进制表示。
分析:double类型共计64位,折合为8字节。由最高到最低位分别是第63、62、61、 、0位:最高位63位是符号位,1表示该数为负,0表示该数为正;62-52位,一共11位是指数位;51-0位,一共52位是尾数位。
把整数部和小数部分开处理:
整数部分直接化为二进制:(38414)D=(1001011000001110)B。
小数部分的处理:0.4=0.5*0+0.25*1+0.125*1+0.0625*0+ ,实际上这永远算不完!这就是著名的浮点数精度问题。所以直到加上前面的整数部分算够53位就行了。隐藏位技术:最高位的1不写入内存(最终保留下来的是52位)。
手工算到53位应该是:
38414.4(10)=1001011000001110.0110011001100110011001100110011001100, 科学记数法为:1.0010110000011100110011001100110011001100110011001100×2^15,于是来看阶码,按IEEE标准一共11位,可以表示范围是-1024—1023。因为指数可以为负,为了便于计算,规定都先加上1023(2^10-1),在这里,阶码:15+1023=1038,二进制表示为:10000001110;符号位:因为38414.4为正对应 为0;合在一起(注:尾数最高位的1隐藏):
01000000 11100010110000011100110011001100110011001100110011001100 例二:
已知:整数3490593(16进制表示为0x354321)。 求:其对应的浮点数3490593.0的二进制表示。 解法如下:
先求出整数3490593的二进制表示: