歸一化演算法
Ⅰ 歸一化的計算公式和方法,是什麼啊
wi=mi/(m1+m2+…+mn)×100%
Ⅱ 歸一化互相關匹配演算法
歸一化互相關匹配演算法[6]是一種經典的統計匹配演算法,經常寫為NC(Normalized Correlation)演算法。
歸一化積匹配就是根據已知的模板圖像到另一幅圖像中尋找相應位置的處理方法。簡單而言,模板就是事先給定的一幅小圖像,歸一化積匹配就是在一幅大圖像中尋找該模板圖像,也即已知該大圖像中有要查找的目標,且該目標與模板具有相同的方向或者存在較小角度的旋轉,我們可以通過一定的演算法在圖中找到該目標,並確定其坐標位置。
Ⅲ 各種歸一化方法的不同點及其使用范圍如何
歸一化大體分為兩大類:一類是把數值映射到(0,1)的區間,一類是把有量綱的轉化為無量綱的,以便於計算和應用,這個主要是用到概率統計分布領域。前者又有好多種方法,比如線性變換,對數變換,反餘切變換;而後者的變換方式更多,主要還是看實際應用效果,沒有統一的標准
求採納
Ⅳ 數學歸一化處理
歸一化,就是把原來數據范圍縮小(或放大)到 0 和 1 的范圍。
例如 RGB(紅綠蘭)顏色,原來范圍 紅綠蘭 分別是 十六進制 0 到 0xFF.
歸一化,變 到 0 到 1 的范圍,只要分別 除以 0xFF,就可以了。
另一種RGB歸一化,是把RGB變 HSV / HSL。顏色可以用色度 0到1來表示。(有公式計算)。
再例如,屏幕上1點位置,你可以用x,y幾何尺寸表示,可以用x,y,pixel表示。歸一化,就是把位置坐標變成0到1表示。
只要把 原 x 除以屏幕寬度 w, 原 y 除以屏幕高度 H, 就可以了。
數學上 歸一化,就是物理上 「無因次化」。
Ⅳ 數據歸一化方法對比
地下水功能評價的要素指標多達30組項,彼此相互聯系、相互補充,又具有層次性和結構性,是一個有機整體。但是,30多個要素指標中,類型多樣,既有漸變規律的點源監測數據,又有斑塊狀高度均化的區片統計數據,還有通過地下水資源評價獲取的分區成果數據,以及不連續、不全、無規律的數據。既有反映單一變數數據,又有抽象或相關分析數據,例如「比率」和「關聯度」等。如何使這些復雜的數據服務於地下水功能評價,反映地下水功能及不同次屬性的時空特徵或狀況,既要容納較齊全的信息量,又要求最大限度地降低重疊度和減小混沌度,同時還要明顯地反映出不同層次的狀況等級特徵,反映地下水的資源、生態、環境功能方面的30個指標量綱不一致,反映問題的角度不同。為使這些指標之間具有可比性,從而完整地組合到一起,實現對研究區各功能和屬性較准確地描述或表達,唯一辦法是將不同單位表示的指標作無量綱化處理,同時還不能改變原指標的數據排序和等級關系,保證變數的信息不失真。因此,需要對所有指標歸一化[0,1]的標准化處理。
指標無量綱、歸一化的方法很多,各有其特點。哪一種方法適宜地下水功能評價的數據歸一化,這是一個需要重視的問題,否則會影響最終的評價結果。本節通過對不同類型的數據採用不用方法對比和分析,確定了比較適宜地下水功能評價數據最後合適的標准化方法。
(一)數據狀況
地下水功能評價與區劃指標體系是針對我國北方地區。在西北、華北或東北不同地區開展地下水功能評價與區劃,需要根據工作區實際情況從34個指標選取或增補。包括地下水的補給資源佔有率、儲存資源佔有率、可利用資源佔有率、補儲更新率、補給可用率、補采平衡率、降水補給率、水位變差補給比、水位變差開采比、水位變差降水比、可采資源模數、可用儲量模數、資源質量指數、資源開采程度、天然植被變化與地下水關聯度、綠洲變化與地下水關聯度、土地鹽漬化與地下水關聯度、土地質量與地下水關聯度、地面沉降與地下水關聯度、海咸侵與地下水關聯度、地下水質量與地下水關聯度和地下水補給變率與水位變差比。涉及包含的變數有區內獲取補給資源模數、儲存資源模數、可動用地下水儲存資源量、近5~12年年均開采量、近5~12年年均水位變差、近5~12年年均降水量、地面沉降量、實際開采量、天然植被變化(面積或其他指標)、綠洲變化(覆蓋率或其他指標)、土地鹽漬化程度情況和地下水質量等級共12組。
根據上述變數的表達形式,分為「數值型」和「非數值型」兩類指標。「數值型」指標是具體的數據,「非數值型」是相對等級的指標。「數值型」指標能夠直接代入「標准化公式」進行運算,然後比較和驗證,「非數值型」指標只能憑借專家意見給出評分。
(二)標准化計算公式
1.統計標准化法
這是廣泛使用的方法,公式為
區域地下水功能可持續性評價理論與方法研究
式中:Zi為標准化後數值;Xi為原始數據;
2.極值標准化法
極值標准化方法是將一列數據的最小值和最大值作為[0,1]的界限值,然後通過式(5-2)轉換,使該列所有數據轉變成[0,1]之間數據,並保持原有的位置和相對大小等級特徵。
區域地下水功能可持續性評價理論與方法研究
式中:min(Xi)和max(Xi)分別為指標Xi的最大值和最小值,其他同前。
3.定基轉化法
定基轉化法是一種比較簡單的歸一化方法,它採用最大值作為基值,通過式(5-3)公式將所有數據轉化為[0,1]之間的數據。
區域地下水功能可持續性評價理論與方法研究
式中:X0是用於比較的基準值,其他同前。
4.環基轉換法
環基轉化法適合於處理指數型序列數據的歸一化問題,計算公式為
區域地下水功能可持續性評價理論與方法研究
式中:Xi,Xi-1為原始數據,其他同前。
5.極值標准化修正法
極值標准化修正法是一種相對復雜的歸一化方法,它需要求解a,b兩個系數,主要優點是避免了「0」的出現。
計算公式為
區域地下水功能可持續性評價理論與方法研究
式中:a,b為一組數據的率定系數,不同組數據的系數各不相同。其他同前。
(三)各種方法對比與分析
歸一化方法選用的是否合適,影響到確定指標的標准化數據的區間分布,進而影響到指標的等級劃分。通過對式(5-1)至式(5-5)的適用范圍和特點對比與分析,認為式(5-1)和式(5-4)不適宜地下水功能評價基礎數據的歸一化處理。
1.不適宜公式及依據
(1)排除式(5-1)的原因
考慮到多元指標的比較和指標等級劃分,歸一化後的數據要求介於[0,1]之間,同時還要求標准化後的數據的離散程度或等級不應出現本質性改變。而式(5-1)處理的數據不都在[0,1]間,而且還有負值(表5-15)。因此,式(5-1)被排除。
表5-15 利用統計標准化處理的單元沉降量數據結果
續表
(2)排除式(5-4)的原因
式(5-4)適合於構造時間序列指數的數據歸一化處理,不適宜地下水功能所用的各種數據。
2.三類數據比較選擇最佳公式
數據標准化方法有多種,包括統計標准化、極值標准化、定基轉換、環比轉化和修正極值標准化方法。根據上述公式的適用范圍,排除統計標准化和環比轉化公式。下面採用三類數據對極值標准化、定基轉換和修正極值標准化公式進行驗證和篩選分析,以期從中選擇適合公式。
第三類數據為分類數據,沒有具體數值,也就不可能代入公式進行檢驗和比較,此類變數直接根據專家組打分,在[0,1]之間賦值,然後劃分到各等級。在這里重點對第一類和第二類數據進行驗證和比較。
(1)利用剖分單元前數據的規律性分析結果
採用頻數直方圖法對在華北平原地下水功能評價示範研究中所用的10組D層要素指標數據(每組數據5645個)進行規律性分析,其中橫軸表示數據的分組,縱軸表示頻數。為了觀察數據分布的特徵和規律,應保持組數和組距的等距,避免數據分布過於集中或分散。
調整的方法是利用Sturges提出的公式,確定組數(K)和組距(K=1+lgn/lg2,n為數據的個數;組距=[最大值-最小值]/組數)。
調整步驟如下:
A.確定組數
組數的多少,一般與數據本身特點及數據多少有關。實際分組時,應按照Sturges公式確定組數。在此基礎上,為避免出現部分組距間沒有數據分布的局限,可作適當調整。
B.確定組距
根據全部數據的最大值和最小值及數據組數,確定組距。為了便於計算,組距應取整數。
依照上述步驟,繪制10組單元數據的頻數直方圖,如圖5-9所示。
對比結果,8組直方圖形狀各不相同,差別較大,組距的數據變化明顯。這表明地下水功能評價所用基礎數據難以取得統一性規律。
圖5-9 實際資料頻數直方圖
(2)按數據空間分布特徵分類
在地下水功能評價中所有變數劃分為兩類:數值型數據和分類型數據。數值型數據通過標准化量化為評價所需要的數據,分類型數據沒有具體數據表達,量化評價時由專家組根據經驗在指標等級[0,1]區間直接賦值。示範研究過程中收集的資料有兩種形式,即圖件或源數據,圖件如資源分布圖、開采強度分布圖、給水度分布圖、水位變差圖等,都是根據實際觀測或調查的第一手數據資料繪制,在利用Excel繪制數據變化曲線時,需要反過來從圖件中提取數據。以源數據形式存在的則直接應用,查找不同變數的規律性。
數值型數據是否具有同樣的空間分布規律,能否可以根據資料數據再詳細分類,究竟單元剖分前數據有規律,還是剖分後數據有規律,或者兩者的數據分布都由一致的規律性,下面進一步分析。
A.利用單元剖分後數據找尋分布規律
在沒有確定採用何種歸一化方法之前,先總結10組變數的剖分單元數據分布規律,對其進行分類。通過數據分組後形成的頻數分布表,初步尋找數據分布的一些特徵和規律。為了探討地下水功能區劃多元指標之間的關系難題,首先基於單元水體的各變數之間的關系,提供單元系統的各「比率」、「關聯度」以及某些單一指標數據。在考慮研究區面積大小的條件下,把整個研究區劃分為5645個單元。因此,本次工作中首先繪制單元剖分後10組指標數據(每組數據5645個)的頻數直方圖,繪圖時橫軸表示數據分組,縱軸表示頻數,為了觀察數據分布的特徵和規律,注意調整組數和組距(組距等距),不使數據分布得過於集中和分散。調整每一個直方圖的組數和組距,在滿足所有變數都在圖中顯示、每一組距都有數據的基礎上,確定直方圖最後的分布形狀。Sturges提出的公式給出確定組數K(K=1+lgn/lg2,n為數據的個數)和組距(組距=(最大值-最小值)/組數)的經驗,步驟如下:①確定組數。組數的多少一般與數據本身的特點及數據的多少有關。實際分組時按照公式確定組數,在此基礎上為消除部分組距之間沒有數據分布的影響,作了適當調整。②確定各組的組距。組距的確定根據全部數據的最大值和最小值及所分的組數來確定,為便於計算,組距取整數。依照上述步驟,繪制了剖分單元的10組變數頻數直方圖(圖5-9),圖5-9中曲線為GAUSS曲線,似乎變化趨勢一致,觀察和比較後發現8組變數的直方圖形狀各自都不相同,而且差別很大,直方圖錯落變化,組距中的數據變化大起大落。因此,單元剖分後的數據整理後利用頻數直方圖不能發現不同指標之間的規律。沒有規律可言,也就無法進行分類,而且直方圖調整到什麼形狀最為合理是個模糊概念。所以,利用剖分後數據對評價指標變數進行分類不可行。
B.利用單元剖分前數據找尋規律
項目研究過程中收集的資料圖件,如資源分布圖、開采強度分布圖、給水度分布圖、水位變差圖等的表達形式只有兩種:分區或等值線,現在反過來從圖件提取數據,利用不同變數剖分前數據變化情況,查找不同變數的規律性。
指標變數剖分前數據分散性較強且量小,可以通過利用Excel軟體分析數據點的分布特徵來探究其中的分布規律。根據評價指標所受外界驅動力的來源不同,從評價體系的34個指標中,分別選取了受自然因素影響的典型指標,如晚更新世底板埋深、給水度和降水量,受人類活動驅動的指標,如開采強度、開采資源模數,還選取了受自然和人類綜合因素影響的指標,如資源分布圖、淺層地下水變差,囊括了地下水功能評價指標體系中的34個指標所受外界影響的三種類型。
這三種類型數據利用Excel繪制的效果圖如圖5-10所示。其中,資源分布圖、晚更新世底板埋深、淺層地下水變差和給水度分布圖數據幾乎呈直線分布,而開采強度、降水量和開采資源模數數據趨勢線轉折點較多,彎曲變化很明顯。主要原因是由於地層岩性從山前到中部平原依次為卵礫石、粗砂、細砂、粉砂,砂層厚度逐漸變薄。前一類數據的資源分布主要與砂層厚度和岩性有關。給水度數據主要受岩性、水文地質條件、地層埋藏條件等影響,曲線表現比較平緩。而淺層地下水變差雖然受開採的影響,但人為規定的數據變化等值線為等間距,所以數據變化趨勢也呈直線。此類數據劃為第一類變數數據。第二類數據中的開采強度和開采資源模數是描述與人類活動有關的數據,受自然條件、經濟發展、文明程度、社會水平等綜合因素的影響,數據變化沒有規律性。降水量數據雖然只是受到自然條件影響,但項目組在整理現狀資料時,只是收集到各縣的年平均降水量資料。而各縣在測降水量時程序、步驟、器材和觀測人員認真程度不一樣,所以即使鄰縣有的降水量數據也相差很多,表現在變化曲線上就為折線,彎曲點很多。因此,把受人為因素影響佔主導的數據歸為第二類變數。如果收集到的降水量資料為整個研究區的降水量分布圖,表現形式為降水量等值線或降水量分區圖,此時可以把降水量指標劃歸為第一類變數數據。
在下面數據變化趨勢中只羅列了34組變數中的7組典型數值型變數,還有地下水質量分布、土壤鹽漬化程度分區、礦化度分布等變數數據沒有繪制數據變化曲線。這類變數為分類數據,只是劃分等級,沒有具體的數據表示。例如地下水質量分布按照國家地下水質量標准劃分為Ⅰ,Ⅱ,Ⅲ,Ⅳ和Ⅴ級,土壤鹽漬化分區劃分為極重度鹽漬化、重度鹽漬化、中度鹽漬化和輕度鹽漬化,地下水礦化度分布按照1g/L,1~3g/L,3~5g/L,﹥5g/L劃分為淡水、半鹹水、微鹹水和鹹水四類。此類分類數據劃分為第三類變數。在地下水功能評價指標體系中還有一些變數屬於分類數據,如土地沙化狀況、土地質量(綜合指標)等,也都劃歸為第三類變數數據。
綜上所述,地下水功能評價與指標體系的指標變數數據分為三類數據:第一類為主要受自然影響的自然變化規律數據,第二類為主要受人類活動影響的變數數據,第三類為分類變數數據。
圖5-10 地下水功能評價中指標的原始數據分析
所以,按數據空間分布特徵將各類數據劃分為連續漸變型數字數據(即規律性數據,記作CR類數據)、非規律性數字數據(記作NR類數據)和非數字性的定性數據(記作NF類數據)三類。
(3)利用單元剖分前數據規律性分析結果
地下水功能評價所用基礎數據,主要有三類:第一類是主要受自然因素影響而呈現規律性變化數據,如降水量;第二類為主要受人類活動影響而呈現規律性變化數據,如開采量;第三類屬於相對定性、依靠專家評價的數據,如地下水質量等級的數據。
對於上述三類數據,應用式(5-2)、(5-3)和(5-5)對比與分析,首先確定第三類數據只能依靠專家評分,建立[0,1]間值,直接進入單元資料庫參加評價。對於第一類數據和第二類數據的分析結果,如下面所述。
A.第一類數據分析結果
採用極值標准化公式(5-2):採用該方法標准化處理第一類數據之前,首先要採用遞增或遞減序列模式對原始數據進行排序(表5-16),盡量採用一種方法處理各組數據的排列,便於標准化後各組數據的比較。
從表5-16可見,利用式(5-2)標准化處理的第一類數據,其特點是:所有數據組的第一個數據都是「1」,最後一個數據都是「0」,中間數據逐漸過渡,而且所有數據都歸[0,1]間,基本符合地下水功能評價的技術要求。主要缺點是不管哪一組的第一個數據在該組中處於何種等級或重要性,都被歸一化「1」,成為「強」級;同理,各組的最後一個數據都被歸一化「0」,成為「弱」級。這樣處理,不利於區域性之間成果對比,也難以合理調整評價平台的基數。
表5-16 利用極值標准化法處理第一類數據的結果
採用定基轉換公式(5-3):採用該方法進行數據標准化,最重要的是每一組變數基準值的確定。表5-17為四組變數定基標准化處理後數據,其中所有變數的基準值都採用本系列的最大值。該方法的優點是所有數據標准化後全部集中在[0,1]之間,每組變數系列對應數據的順序沒有改變。基準值在取每組變數系列最大值的基礎上,公式(5-3)既承接了公式(5-2)簡捷、快速的特點,又沒有使數據失真,尤其利用式(5-3)標准化處理後的數據,擺脫了在最小值區域出現大片「0」的問題。缺點是①基準值難以選取。處理相同問題,考慮的角度不同,採用的基準值就不同,由此定基標准轉化後的數據反映到綜合評價指數中就會得到不同的R值。②最小值沒有確定性,數據分布區間不一致。在示範效驗時,每組變數的基準值都採用變數系列中的最大值,這樣,標准化後數據系列的最大封閉值都為1,最小值由本系列數據的最小數據決定,大小不一,易出現偏態現象。例如補給資源佔有率的最小值就為0.334,在(0,0.334)之間沒有數據過渡,難以克服原數據高度集中的局限性。另外,不同組的基準值無法統一。
採用式(5-3)標准化處理第一類數據的結果,如表5-17所示。
表5-17 利用定基轉換法標准化處理第一類數據的結果
採用修正極值標准化公式(5-5):採用該方法對變數數據標准化處理,可以克服上述幾種方法存在的問題,而且也不會出現最小值區域大片「0」問題(表5-18)。如果原始數據確實為「0」,標准化後數據也不會違背真實性,仍然為「0」,這種線性變換沒有使原數據組性質發生質變,從而保證信息表達的真實客觀性,同時修正了公式(5-2)的不足。相對於公式(5-3),該公式擺脫了基準值選取的不確定性,不會因基準值取值不同,得出不同的結果,而且,a,b值的求取簡便、快捷,沒有增加太大的工作量。所有變數標准化後都收斂到[0.99,0.01]區間,數據分布合理、有序,沒有數據堆積和偏態現象,便於比較。這種線性變換沒有使變數產生性質上的變形,從而保證信息沒有失真,提供給上一級屬性層合理真實信息,為屬性層綜合評價指數的計算結果提供准確的評價參數。
表5-18 利用式修正極值法標准化處理第一類數據的結果
a,b值的取值方法如下,對於地下水的補給資源變數,最大值為35,最小值為2.5,根據修正歸一化公式,建立對應方程組:
區域地下水功能可持續性評價理論與方法研究
解此方程組得出a,b值分別為1.15和5.74。依次類推,其他變數都可輕松得到a,b值。
B.第二類數據分析結果
採用極值標准化公式(5-2)對第二類數據標准化處理的結果,如表5-19所示,結論與第一類數據標准後情況相同。
表5-19 利用極值標准化處理第二類數據的結果
續表
採用定基轉換公式(5-3)標准化處理第二類數據的結果,如表5-20所示,結論與第一類數據標准後情況基本相同。
表5-20 利用定基轉換標准化處理第二類數據的結果
採用修正極值標准化公式(5-5)處理第二類數據的結果,如表5-21所示,結論與第一類數據標准後情況基本相同。
表5-21 利用修正極值標准化處理第二類數據的結果
通過上述利用不同公式對不同數組標准化的對比與分析,可獲得如下幾點認識:
1)式(5-1)和式(5-4)轉化功能及其轉化後的數據都不適宜地下水功能評價的數據標准化處理,式(5-2)、式(5-3)和式(5-5)具有可用性,各有優缺點。
2)採用式(5-2)標准化,在第一類和第二類數據中都出現「0」現象,容易造成最小值全部為「0」的現象,難以區別原始數據為「0」的客觀存在,因此,該法在地下水功能評價中應慎用或不用。
3)採用式(5-3)雖然可以排除「0」問題,但是「基準值」難統一,隨意性較大,而且若「基準值」選取不合理,容易發生數據偏向堆積問題,所以該法也不宜在地下水功能評價中應用。
4)採用式(5-5)能夠同時避免式(5-2)和(5-3)的不足,即最小值皆為「0」問題,也不會造成原始數據為「0」而標准化後非「0」問題,因此,式(5-5)可作為地下水功能評價基礎數據歸一化處理的首選公式。
Ⅵ 統計學的歸一化處理
假設一個向量x中所有元素的和是x0,那麼x/x0就是歸一化結果
(0.25,0.35,0.45,0.15)的元素和是1.2,那麼把其中每一個元素除以1.2就是歸一化處理了。
Ⅶ 什麼是歸一化處理
在實際工作中允許通過調節中間放大環節使感測器的電壓輸出量直接表示成為載荷值(稱為歸一化處理)。
http://www.autoinfo.gov.cn/bzwj/bzwj2001/bzwj2001/qct637-2000.htm
Ⅷ 數據歸一化怎麼處理
歸一化是為了加快訓練網路的收斂性,可以不進行歸一化處理
歸一化的具體作用是歸納統一樣本的統計分布性。歸一化在0-1之間是統計的概率分布,歸一化在-1--+1之間是統計的坐標分布。歸一化有同一、統一和合一的意思。無論是為了建模還是為了計算,首先基本度量單位要同一,神經網路是以樣本在事件中的統計分別幾率來進行訓練(概率計算)和預測的,歸一化是同一在0-1之間的統計概率分布;SVM是以降維後線性劃分距離來分類和模擬的,因此時空降維歸一化是統一在-1--+1之間的統計坐標分布。
當所有樣本的輸入信號都為正值時,與第一隱含層神經元相連的權值只能同時增加或減小,從而導致學習速度很慢。為了避免出現這種情況,加快網路學習速度,可以對輸入信號進行歸一化,使得所有樣本的輸入信號其均值接近於0或與其均方差相比很小。
歸一化是因為sigmoid函數的取值是0到1之間的,網路最後一個節點的輸出也是如此,所以經常要對樣本的輸出歸一化處理。所以這樣做分類的問題時用[0.9 0.1 0.1]就要比用要好。
但是歸一化處理並不總是合適的,根據輸出值的分布情況,標准化等其它統計變換方法有時可能更好。
Ⅸ 層次分析法採用特徵根的方法計算出特徵向量後,經歸一化後就是權重向量。什麼叫歸一化歸一化需要如何處
歸一化比較簡單,因為得出的特徵向量之和不一定是1,所以要將特徵向量分別除以這幾個向量之和,重新得出的數就是權重向量。比如:你得到的特徵向量為(0.6853 0.2213 0.0933 ),它們的和是0.9999,並不是1,所以要對其進行歸一化處理。分別用0.6853/0.9999 ; 0.2213/0.9999 ; 0.0933/0.9999 。然後四捨五入,最後得出的數為(0.6854 0.2213 0.0933),這些數值的和為1,所以叫歸一化處理。