浮點數是如何存儲的
⑴ 浮點數在計算機裡面的存儲問題
浮點數在計算機中按階碼和尾數兩部分來存。就是說把一個數化成二進制數的指數表示即0.1…X2的n次方,n即是階碼,0.1…即為尾數。
⑵ 單片機里浮點數是怎麼存放的
可以這么說:任何存儲器,無論是pc機,單片機,甚至內存卡的基本存儲模塊都是一樣
的結構(當然是對於ram而言),都是一個存儲單元對應地址線的一種組合相應存儲一個位元組,物理結構是裡面的八個觸發器,每個觸發器對應一個位元組。至於浮點數和整型數理論上沒什麼區別了把,就在多一個位元組存放小數點吧。
⑶ 計算機是如何存儲浮點數的(工作原理,實現方式)
計算機用二進制來表示數字,浮點數也是如此:
首先了解如何用二進製表示小數(也就是如何把十進制小數轉化為二進製表示):
舉一個簡單例子,十進制小數 10.625
1)首先轉換整數部分:10 = 1010b
2)小數部分0.625 = 0.101b
(用「乘2取整法」:0.625*2=1.25,得第一位為1,0.25*2=0.5,得第二位為0,0.5*2=1, 得第三位為1,餘下小數部分為零,就可以結束了)
3)於是得到 10.625=1010.101b
換個表示方式更加深入理解:
1*(10^1)+0*(10^0)+6*(10^-1)+2*(10^-2)+5*(10^-3) =
1*(2^3) + 0*(2^2) + 1*(2^1) + 0*(2^0) + 1*(2^-1) + 0*(2^-2) + 1*(2^-3)
4) 類似十進制可以用指數形式表示:
10.625=10625*(10^-3)
所得的二進制小數也可以這樣指數形式表述:
1010.101b=1010101 * (2^-3)
也就是用有效數字a和指數e來表述: a * (2^e)
用一個32bit的空間(bit0~bit31)來存儲這么一個浮點數,如此分配存儲空間:
bit0 ~ bit22 共23bit,用來表示有效數字部分,也就是a,本例中a=1010101
bit23 - bit30 共8個bit,用來表是指數,也就是e,范圍從-128到127,實際數據中的指數是原始指數加上127得到的,如果超過了127,則從-128開始計,所以這里e=-3表示為124
bit31 為符號位,1表示負數,這里應該為0
把上述結果填入32bit的存儲器,就是計算機表示小數10.625的形式。
注意這個例子的特殊性:它的小數部分正好可以用有限長度的2進制小數表示,因此,而且整個有效數字部分a的總長度小於23,因此它精確的表示了10.625,但是有的情況下,有效數字部分的長度可能超過23,甚至是無限多的,那時候就只好把後面的位數截掉了,那樣表示的結果就只是一個近似值而非精確值;顯然,存儲長度越長,精度就越高,比如雙精度浮點數長度為64位,1位符號位,11位指數位,52位有效數字。
⑷ 誰能解釋浮點數在內存是怎樣存儲的嗎比如-3.14159如何存儲
以32位浮點數為例:
-3.14159轉化為二進制為-11.xxxx,後面的xxxx我就算了,你自己算,不管怎樣,小數點後面始終精確到第23位
也即-1.1xxxx*2^1,
現在開始計算:符號位是1,階碼是1+127,尾數是1xxxx
至於小數點前面那個1,不存儲,該浮點數參與計算的時候默認加上即可
看明白規律了嗎?
將其二進制形式按符號位、階碼、尾數的形式順序存入內存中的一個4位元組空間里
⑸ C/C++浮點數在內存中是怎麼存儲的
把浮點數的絕對值的二進製表達的小數點移動到從左至右數第1個「1」之後,捨去1和小數點,把剩餘的原碼二進制0、1序列從左至右截取23(float型)或52(double型)位作為尾數。
在尾數前添加8(float型)或11(double型)位用移碼表示「製造」尾數時小數點移動的位數,叫階碼;階碼的最左那一位表示小數點移動的方向。
在階碼前添加1位表示整個浮點數的正負,0表示大於等於0,1表示小於0。
把這一串0、1序列在小端機上由右至左存儲在某個地址開始的連續內存單元中,這「某個地址」就是承載這個浮點型數據的變數的地址。若在大端機上則將這一串0、1序列由左至右存放。
⑹ 浮點數在計算機裡面的存儲
這個問題比較難..其實在實際運算過程中或寫程序中我們要求的浮點數都有一定的精度,大多數情況下存成文件等形式我們一般會讓他*10^n次方來存儲去掉小數位.下面說正題.
何數據在內存中都是以二進制(0或1)順序存儲的,每一個1或0被稱為1位,而在x86CPU上一個位元組是8位。比如一個16位(2 位元組)的short int型變數的值是1000,那麼它的二進製表達就是:00000011 11101000。由於Intel CPU的架構原因,它是按位元組倒序存儲的,那麼就因該是這樣:11101000 00000011,這就是定點數1000在內存中的結構。
目前C/C++編譯器標准都遵照IEEE制定的浮點數表示法來進行float,double運算。這種結構是一種科學計數法,用符號、指數和尾數來表示,底數定為2——即把一個浮點數表示為尾數乘以2的指數次方再添上符號。下面是具體的規格:
````````符號位 階碼 尾數 長度
float 1 8 23 32
double 1 11 52 64
臨時數 1 15 64 80
由於通常C編譯器默認浮點數是double型的,下面以double為例:
共計64位,摺合8位元組。由最高到最低位分別是第63、62、61、……、0位:
最高位63位是符號位,1表示該數為負,0正;
62-52位,一共11位是指數位;
51-0位,一共52位是尾數位。
按照IEEE浮點數表示法,下面將把double型浮點數38414.4轉換為十六進制代碼。
把整數部和小數部分開處理:整數部直接化十六進制:960E。小數的處理:
0.4=0.5*0+0.25*1+0.125*1+0.0625*0+……
實際上這永遠算不完!這就是著名的浮點數精度問題。所以直到加上前面的整數部分算夠53位就行了(隱藏位技術:最高位的1 不寫入內存)。
如果你夠耐心,手工算到53位那麼因該是:38414.4(10)=1001011000001110.(2)
科學記數法為:1.001……乘以2的15次方。指數為15!
於是來看階碼,一共11位,可以表示範圍是-1024 ~ 1023。因為指數可以為負,為了便於計算,規定都先加上1023,在這里, 15+1023=1038。二進製表示為:100 00001110
符號位:正—— 0 ! 合在一起(尾數二進制最高位的1不要):
01000000 11100010 11000001 11001101 01010101 01010101 01010101 01010101
按位元組倒序存儲的十六進制數就是:
55 55 55 55 CD C1 E2 40
⑺ float變數在內存當中是怎樣存儲的或是怎樣的一種存儲格式
浮點型變數在計算機內存中佔用4位元組(Byte),即32-bit。遵循IEEE-754格式標准。
一個浮點數由2部分組成:底數m 和 指數e。
±mantissa × 2exponent
(注意,公式中的mantissa 和 exponent使用二進製表示)
底數部分使用2進制數來表示此浮點數的實際值。
指數部分佔用8-bit的二進制數,可表示數值范圍為0-255。但是指數應可正可負,所以IEEE規定,此處算出的次方須減去127才是真正的指數。所以float的指數可從 -126到128.
底數部分實際是佔用24-bit的一個值,由於其最高位始終為 1 ,所以最高位省去不存儲,在存儲中只有23-bit。
到目前為止, 底數部分 23位 加上指數部分 8位 使用了31位。那麼前面說過,float是佔用4個位元組即32-bit,那麼還有一位是幹嘛用的呢? 還有一位,其實就是4位元組中的最高位,用來指示浮點數的正負,當最高位是1時,為負數,最高位是0時,為正數。
浮點數據就是按下表的格式存儲在4個位元組中:
Address+0 Address+1 Address+2 Address+3
Contents SEEE EEEE EMMM MMMM MMMM MMMM MMMM MMMM S: 表示浮點數正負,1為負數,0為正數
E: 指數加上127後的值的二進制數
M: 24-bit的底數(只存儲23-bit)
主意:這里有個特例,浮點數 為0時,指數和底數都為0,但此前的公式不成立。因為2的0次方為1,所以,0是個特例。當然,這個特例也不用認為去干擾,編譯器會自動去識別。
通過上面的格式,我們下面舉例看下-12.5在計算機中存儲的具體數據:
Address+0 Address+1 Address+2 Address+3
Contents 0xC1 0x48 0x00 0x00 接下來我們驗證下上面的數據表示的到底是不是-12.5,從而也看下它的轉換過程。
由於浮點數不是以直接格式存儲,他有幾部分組成,所以要轉換浮點數,首先要把各部分的值分離出來。
Address+0 Address+1 Address+2 Address+3
格式 SEEEEEEE EMMMMMMM MMMMMMMM MMMMMMMM
二進制 11000001 01001000 00000000 00000000
16進制 C1 48 00 00
可見:
S: 為1,是個負數。
E:為 10000010 轉為10進制為130,130-127=3,即實際指數部分為3.
M:為 10010000000000000000000。 這里,在底數左邊省略存儲了一個1,使用 實際底數表示為 1.10010000000000000000000
到此,我們吧三個部分的值都拎出來了,現在,我們通過指數部分E的值來調整底數部分M的值。調整方法為:如果指數E為負數,底數的小數點向左移,如果指數E為正數,底數的小數點向右移。小數點移動的位數由指數E的絕對值決定。
這里,E為正3,使用向右移3為即得:
1100.10000000000000000000
至次,這個結果就是12.5的二進制浮點數,將他換算成10進制數就看到12.5了,如何轉換,看下面:
小數點左邊的1100 表示為 (1 × 23) + (1 × 22) + (0 × 21) + (0 × 20), 其結果為 12 。
小數點右邊的 .100… 表示為 (1 × 2-1) + (0 × 2-2) + (0 × 2-3) + ... ,其結果為.5 。
以上二值的和為12.5, 由於S 為1,使用為負數,即-12.5 。
所以,16進制 0XC1480000 是浮點數 -12.5 。
上面是如何將計算機存儲中的二進制數如何轉換成實際浮點數,下面看下如何將一浮點數裝換成計算機存儲格式中的二進制數。
舉例將17.625換算成 float型。
首先,將17.625換算成二進制位:10001.101 ( 0.625 = 0.5+0.125, 0.5即 1/2, 0.125即 1/8 如果不會將小數部分轉換成二進制,請參考其他書籍。) 再將 10001.101 向右移,直到小數點前只剩一位 成了 1.0001101 x 2的4次方(因為右移了4位)。此時 我們的底數M和指數E就出來了:
底數部分M,因為小數點前必為1,所以IEEE規定只記錄小數點後的就好,所以此處底數為 0001101 。
指數部分E,實際為4,但須加上127,固為131,即二進制數 10000011
符號部分S,由於是正數,所以S為0.
綜上所述,17.625的 float 存儲格式就是:
0 10000011 00011010000000000000000
轉換成16進制:0x41 8D 00 00
所以,一看,還是佔用了4個位元組。
下面,我做了個有趣的實驗,就是由用戶輸入一個浮點數,程序將這個浮點數在計算機中存儲的二進制直接輸出,來看看我們上面所將的那些是否正確。
有興趣同學可以到VC6.0中去試試~!
#include<iostream.h>
#define uchar unsigned char
void binary_print(uchar c)
{
for(int i = 0; i < 8; ++i)
{
if((c << i) & 0x80)
cout << '1';
else
cout << '0';
}
cout << ' ';
}
void main()
{
float a;
uchar c_save[4];
uchar i;
void *f;
f = &a;
cout<<"請輸入一個浮點數:";
cin>>a;
cout<<endl;
for(i=0;i<4;i++)
{
c_save[i] = *((uchar*)f+i);
}
cout<<"此浮點數在計算機內存中儲存格式如下:"<<endl;
for(i=4;i!=0;i--)
binary_print(c_save[i-1]);
cout<<endl;
}
好了,我想如果你仔細看完了以上內容,你現在對浮點數算是能比較深入的了解了。
⑻ 計算機浮點數的儲存原理
浮點是以單元形式儲存在內存上的,但每個單元內存有限,所以比如你想輸入1/3的話,你以為是1/3了,實際上不足1/3,而是0.3333333333333333,所以計算時,會以0.3333333333333333的形式去計算,而不是1/3,因此出現了本來是0.6的,而輸出卻是0.599976.建議把浮點精度變大
⑼ 浮點數在計算機中的存儲方式
應該是: 在一個為32bit的存儲空間中存儲浮點數,bit0~bit22存儲有效數字部分;bit23~bit30存儲指數部分;bit31存儲符號位。 在一個為64bit的存儲空間中存儲浮點數,bit0~bit51存儲有效數字部分;bit52~bit62存儲指數部分;bit63存儲符號位。 還一種 在一個為80bit的存儲空間中存儲浮點數,bit0~bit62存儲有效數字部分;bit63~bit78存儲指數部分;bit79存儲符號位。 只有這三種了,其他都不支持的 未來可能還有128位浮點數
⑽ 浮點數的存儲問題
一個16位或32位浮點數,一部分位數用來儲存10的指數部分,其他位數用來儲存有效數字,還有正負號,如果10的指數部分很大,有效數字部分不夠用,就會舍棄一部分,當然不能精確存儲了。不過大多數應用下都可以保證精度。