嶺回歸演算法
❶ 求教大神MATLAB的lasso函數怎麼用,CV曲線圖怎麼畫出來
Alpha: 即α得值,當為 0,表示Lasso為嶺回歸,這時它當然不是Lasso了,而是和Lasso相似的嶺回歸計演算法,當該值為 1(默認值),則此程序為 Lasso,若為0~1之間,表示是 elastic net演算法,也是與 嶺回歸和Lasso相似而不同的演算法。
CV:為 交叉驗證的設置。用於估計最佳的λ的值。 默認為「resubstitution」,這個我沒有研究,而是使用了較為廣泛的 K折交叉驗證,一般 賦值 k =5或10,就是 5折交叉驗證或10折交叉驗證。
DFmax:返回擬合式中 非零系數的數量。
Lambda:這個就是Lasso活著嶺回歸活著elastic net中的參數λ的值,如果使用交叉驗證,會使用交叉驗證選擇一個最優λ,如果默,則由系統根據計算公式默認賦值一個λ的最大值,關於最大值計算公式,在Lasso程序中有說明,或者你也可以指定λ的值。在確定該最大值後,還需要和Lambdaratio 和 Numlambda 確定λ的取值。
Lambdaratio λ的取值比例,它和Lambda構成λ的取值范圍區間。
Numlambda λ的取值數量。Lambda確定λ的最大值,比如a,Lambdaratio確定λ最小值與最大值的比率,如Lambdaratio為0.01,那麼λ的取值區間即為 0.01*a~a,而Numlambda則確定改區間取多少個λ,從而最終確定了λ的取值。
Reltol 坐標下降法的閾值。坐標下降法是求解elastic net的常用方法,這是該方法的一個參數。
Standardize:布爾值。是否對Lasso進行縮放。一般設置為 true,即 進行縮放。
輸出參數:
Intercept:截距,就是線性方程中的常數項
lambda:列出使用的λ的值,升序排列,而且後面的參數的順序與這個λ對應
alpha:α值
MSE:均方誤差
DF
Fitinfo中的欄位:
在使用CV交叉驗證後,可以輸出本欄位中的結果,內容和上面的差不多,先不描述了,大家想了解的話我再加。
❷ 預測誤差與預測誤差率怎樣計算
預測誤差值公式:(A-E)/(E/100)=百分之幾,超出為正,過少為負
其中A表示測量值,E表示正常值。
預測誤差率計算方法:
a為第一次測量數據,b為第二次測量數據,c為第三次測量數據,d為第四次測量數據,e為第五次測量數據
(a+b+c+d+e)/ 5=平均值
平均值/100=平均值的百分比
(2)嶺回歸演算法擴展閱讀
誤差分類:
1、模型誤差:
在建立數學模型過程中,要將復雜的現象抽象歸結為數學模型,往往要忽略一些次要因素的影響,對問題作一些簡化。因此數學模型和實際問題有一定的誤差,這種誤差稱為模型誤差。
2、測量誤差
在建模和具體運算過程中所用的數據往往是通過觀察和測量得到的,由於精度的限制,這些數據一般是近似的,即有誤差,這種誤差稱為測量誤差。
3、截斷誤差
由於實際運算只能完成有限項或有限步運算,因此要將有些需用極限或無窮過程進行的運算有限化,對無窮過程進行截斷,這樣產生的誤差成為截斷誤差。
4、舍入誤差
在數值計算過程中,由於計算工具的限制,往往對一些數進行四捨五入,只保留前幾位數作為該數的近似值,這種由舍入產生的誤差成為舍入誤差。
❸ 如何學習偏最小二乘法
偏最小二乘法 最小二乘法是一種數學優化技術,它通過最小化誤差的平方和找到一組數據的最佳函數匹配。 用最簡的方法求得一些絕對不可知的真值,而令誤差平方之和為最小。 通常用於曲線擬合。很多其他的優化問題也可通過最小化能量或最大化熵用最小二乘形式表達。
偏最小二乘回歸≈多元線性回歸分析+典型相關分析+主成分分析
與傳統多元線性回歸模型相比,偏最小二乘回歸的特點是:(1)能夠在自變數存在嚴重多重相關性的條件下進行回歸建模;(2)允許在樣本點個數少於變數個數的條件下進行回歸建模;(3)偏最小二乘回歸在最終模型中將包含原有的所有自變數;(4)偏最小二乘回歸模型更易於辨識系統信息與雜訊(甚至一些非隨機性的雜訊);(5)在偏最小二乘回歸模型中,每一個自變數的回歸系數將更容易解釋。
在計算方差和協方差時,求和號前面的系數有兩種取法:當樣本點集合是隨機抽取得到時,應該取1/(n-1);如果不是隨機抽取的,這個系數可取1/n。
多重相關性的診斷
1 經驗式診斷方法
1、在自變數的簡單相關系數矩陣中,有某些自變數的相關系數值較大。
2、回歸系數的代數符號與專業知識或一般經驗相反;或者,它同該自變數與y的簡單相關系數符號相反。
3、對重要自變數的回歸系數進行t檢驗,其結果不顯著。
特別典型的是,當F檢驗能在高精度下通過,測定系數R2的值亦很大,但自變數的t檢驗卻全都不顯著,這時,多重相關性的可能性將很大。
4、如果增加(或刪除)一個變數,或者增加(或刪除)一個觀測值,回歸系數的估計值發生了很大的變化。
5、重要自變數的回歸系數置信區間明顯過大。
6、在自變數中,某一個自變數是另一部分自變數的完全或近似完全的線性組合。
7、對於一般的觀測數據,如果樣本點的個數過少,樣本數據中的多重相關性是經常存在的。
但是,採用經驗式方法診斷自變數系統中是否確實存在多重相關性,並不十分可靠,另一種較正規的方法是利用統計檢驗(回歸分析),檢查每一個自變數相對其它自變數是否存在線性關系。
2 方差膨脹因子
最常用的多重相關性的正規診斷方法是使用方差膨脹因子。自變數xj的方差膨脹因子記為(VIF)j,它的計算方法為
(4-5) (VIF)j =(1-R j2)-1
式中,R j2是以xj為因變數時對其它自變數回歸的復測定系數。
所有xj變數中最大的(VIF)j通常被用來作為測量多重相關性的指標。一般認為,如果最大的(VIF)j超過10,常常表示多重相關性將嚴重影響最小二乘的估計值。
(VIF)j被稱為方差膨脹因子的原因,是由於它還可以度量回歸系數的估計方差與自變數線性無關時相比,增加了多少。
不妨假設x1,x2,…,xp均是標准化變數。採用最小二乘法得到回歸系數向量B,它的精度是用它的方差來測量的。B的協方差矩陣為
Cov(B)= σ2 (X'X)-1
式中,σ2是誤差項方差。所以,對於回歸系數b j,有
Var(b j)= σ2cjj
cjj是(X'X)-1矩陣中第j個對角元素。可以證明,
cjj =(VIF)j
嶺回歸分析
1 嶺回歸估計量
嶺回歸分析是一種修正的最小二乘估計法,當自變數系統中存在多重相關性時,它可以提供一個比最小二乘法更為穩定的估計,並且回歸系數的標准差也比最小二乘估計的要小。
根據高斯——馬爾科夫定理,多重相關性並不影響最小二乘估計量的無偏性和最小方差性。但是,雖然最小二乘估計量在所有線性無偏估計量中是方差最小的,但是這個方差卻不一定小。於是可以找一個有偏估計量,這個估計量雖然有微小的偏差,但它的精度卻能夠大大高於無偏的估計量。
在應用嶺回歸分析時,它的計算大多從標准化數據出發。對於標准化變數,最小二乘的正規方程為
rXXb=ryX
式中,rXX是X的相關系數矩陣,ryX是y與所有自變數的相關系數向量。
嶺回歸估計量是通過在正規方程中引入有偏常數c(c≥0)而求得的。它的正規方程為+
(4-8) (rXX+ cI) bR=ryX
所以,在嶺回歸分析中,標准化回歸系數為
(4-9) bR =(rXX+ cI)-1 ryX
2 嶺回歸估計量的性質
(1)嶺回歸系數是一般最小二乘准則下回歸系數的線性組合,即
(4-10) bR =(I+ crXX-1)-1b
(2)記β是總體參數的理論值。當β≠0時,可以證明一定存在一個正數c0,使得當0< c< c0時,一致地有
(4-11) E|| bR -β||2≤ E|| b -β||2
(3)嶺回歸估計量的絕對值常比普通最小二乘估計量的絕對值小,即
(4-12) || bR ||<|| b ||
嶺回歸估計量的質量取決於偏倚系數c的選取。c的選取不宜過大,因為
E(bR)=(I+ crXX-1)-1 E (b)=(I+ crXX-1)-1β
關於偏倚系數c的選取尚沒有正規的決策准則,目前主要以嶺跡和方差膨脹因子為依據。嶺跡是指p-1個嶺回歸系數估計量對不同的c值所描繪的曲線(c值一般在0~1之間)。在通過檢查嶺跡和方差膨脹因子來選擇c值時,其判斷方法是選擇一個盡可能小的c值,在這個較小的c值上,嶺跡中的回歸系數已變得比較穩定,並且方差膨脹因子也變得足夠小。
從理論上,最佳的c值是存在的,它可以使估計量的偏差和方差的組合效應達到一個最佳水準。然而,困難卻在於c的最優值對不同的應用而有所不同,對其選擇還只能憑經驗判斷。
其他補救方法簡介
最常見的一種思路是設法去掉不太重要的相關性變數。由於變數間多重相關性的形式十分復雜,而且還缺乏十分可靠的檢驗方法,刪除部分多重相關變數的做法常導致增大模型的解釋誤差,將本應保留的系統信息舍棄,使得接受一個錯誤結論的可能和做出錯誤決策的風險都不斷增長。另一方面,在一些經濟模型中,從經濟理論上要求一些重要的解釋變數必須被包括在模型中,而這些變數又存在多重相關性。這時採用剔除部分相關變數的做法就不符合實際工作的要求。
另一種補救的辦法是增加樣本容量。然而,在實際工作中,由於時間、經費以及客觀條件的限制,增大樣本容量的方法常常是不可行的。
此外,還可以採用變數轉換的方式,來削弱多重相關性的嚴重性。一階差分回歸模型有可能減少多重相關性的嚴重性。然而,一階差分變換又帶來了一些其它問題。差分後的誤差項可能不滿足總體模型中關於誤差項不是序列相關的假定。事實上,在大部分情形下,在原來的誤差項是不自相關的條件下,一階差分所得到的誤差項將會是序列相關的。而且,由於差分方法損失了一個觀察值,這在小樣本的情況下是極不可取的。另外,一階差分方法在截面樣本中是不宜利用的。
1 主成分分析
主成分分析的計算結果必然受到重疊信息的影響。因此,當人為地採用一些無益的相關變數時,無論從方向上還是從數量上,都會扭曲客觀結論。在主成分分析之前,對變數系統的確定必須是慎之又慎的。
2 特異點的發現
第i個樣本點(樣本量為n)對第h主成分的貢獻率是
(5-32) CTR(i)=Fh2(i)/(nλh) (若遠超過1/n,為特異點)
3 典型相關分析
從某種意義上說,多元回歸分析、判別分析或對應分析等許多重要的數據分析方法,都可以歸結為典型相關分析的一種特例,同時它還是偏最小二乘回歸分析的理論基石。
典型相關分析,是從變數組X中提取一個典型成分F=Xa,再從變數組Y中提取一個成分G=Yb,在提取過程中,要求F與G的相關程度達到最大。
在典型相關分析中,採用下述原則尋優,即
max<F,G>=aX'Yb a'X'Xa=1, b'Y'Yb=1
其結果為,a是對應於矩陣V11-1 V12 V22-1 V21最大特徵值的特徵向量,而b是對應於矩陣V22-1 V21V11-1 V12最大特徵值的特徵向量,這兩個最大特徵值相同。其中,
V11=X'X,V12=X'Y,V22=Y'Y。
F與G之間存在著明顯的換算關系。
有時只有一個典型成分還不夠,還可以考慮第二個典型成分。
多因變數的偏最小二乘回歸模型
1 工作目標
偏最小二乘回歸分析的建模方法
設有q個因變數和p個自變數。為了研究因變數與自變數的統計關系,觀測了n個樣本點,由此構成了自變數與因變數的數據表X和Y。偏最小二乘回歸分別在X與Y中提取出t和u,要求:(1)t和u應盡可能大地攜帶它們各自數據表中的變異信息;(2)t和u的相關程度能夠達到最大。在第一個成分被提取後,偏最小二乘回歸分別實施X對t的回歸以及Y對t的回歸。如果回歸方程已經達到滿意的精度,則演算法終止;否則,將利用X被t解釋後的殘余信息以及Y被t解釋後的殘余信息進行第二輪的成分提取。如此往復,直到能達到一個較滿意的精度為止。若最終對X共提取了多個成分,偏最小二乘回歸將通過施行yk對X的這些成分的回歸,然後再表達成yk關於原自變數的回歸方程。
2 計算方法
首先將數據做標准化處理。X經標准化處理後的數據矩陣記為E0=( E01,…,E0p)n×p,Y的相應矩陣記為F0=( F01,…,F0q)n×q。
第一步 記t 1是E0的第一個成分,t 1= E0w1,w1是E0的第一個軸,它是一個單位向量,即|| w1||=1。
記u 1是F0的第一個成分,u 1= F0c1,c1是F0的第一個軸,並且|| c1||=1。
於是,要求解下列優化問題,即
(7-1)
記θ1= w1'E0'F0c1,即正是優化問題的目標函數值。
採用拉格朗日演算法,可得
(7-8) E0'F0F0'E0w1=θ12 w1
(7-9) F0'E0E0'F0c1=θ12 c1
所以,w1是對應於E0'F0F0'E0矩陣最大特徵值的單位特徵向量,而c1是對應於F0'E0E0'F0矩陣最大特徵值θ12的單位特徵向量。
求得軸w1和c1後,即可得到成分
t 1= E0w1
u 1= F0c1
然後,分別求E0和F0對t 1的回歸方程
(7-10) E0= t 1 p1'+ E1
(7-12) F0= t 1r1'+ F1
式中,回歸系數向量是
(7-13) p1= E0' t 1/|| t 1||2
(7-15) r1= F0' t 1/|| t 1||2
而E1和F1分別是兩個方程的殘差矩陣。
第二步 用殘差矩陣E1和F1取代E0和F0,然後,求第二個軸w2和c2以及第二個成分t2,u2,有
t 2= E1w2
u 2= F1c2
θ2=< t2, u2>= w2'E1'F1c2
w2是對應於E1'F1F1'E1矩陣最大特徵值的單位特徵向量,而c2是對應於F1'E1E1'F1矩陣最大特徵值θ22的單位特徵向量。計算回歸系數
p2= E1' t 2/|| t 2||2
r2= F1' t 2/|| t2||2
因此,有回歸方程
E1= t 2 p2'+ E2
F1= t 2r2'+ F2
如此計算下去,如果X的秩是A,則會有
(7-16) E0= t 1 p1'+…+t A pA'
(7-17) F0= t 1r1'+ …+t A rA'+ FA
由於t1,…,t A均可以表示成E01,…,E0p的線性組合,因此,式(7-17)還可以還原成yk*= F0k關於xj*= E0j的回歸方程形式,即
yk*=αk1 x1*+…+αkp xp*+ FAk, k=1,2,…,q
FAk是殘差矩陣FA的第k列。
3 交叉有效性
如果多一個成分而少一個樣本的預測誤差平方和(所有因變數和預測樣本相加)除以少一個成分的誤差平方和(所有的因變數和樣本相加)小於0.952,則多一個成分是值得的。
4 一種更簡潔的計算方法
用下述原則提取自變數中的成分t 1,是與原則式(7-1)的結果完全等價的,即
(7-24)
(1)求矩陣E0'F0F0'E0最大特徵值所對應的單位特徵向量w1,求成分t 1,得
t 1= E0w1
E1= E0-t 1 p1'
式中, p1= E0' t 1/|| t 1||2
(2)求矩陣E1'F0F0'E1最大特徵值所對應的單位特徵向量w2,求成分t2,得
t 2= E1w2
E2= E1-t 2 p2'
式中, p2= E1' t 2/|| t2||2
……
(m)至第m步,求成分tm= Em-1wm,wm是矩陣Em-1'F0F0'Em-1最大特徵值所對應的單位特徵向量.
如果根據交叉有效性,確定共抽取m個成分t1,…,tm可以得到一個滿意的觀測模型,則求F0在t1,…,tm上的普通最小二乘回歸方程為
F0= t 1r1'+ …+t mrm'+ Fm
偏最小二乘回歸的輔助分析技術
1 精度分析
定義自變數成分th的各種解釋能力如下
(1)th對某自變數xj的解釋能力
(8-1) Rd(xj; th)=r2(xj, th)
(2)th對X的解釋能力
(8-2) Rd(X; th)=[r2(x1, th) + …+ r2(xp, th)]/p
(3)t1,…,tm對X的累計解釋能力
(8-3) Rd(X; t1,…,tm)= Rd(X; t1) + …+ Rd(X; tm)
(4)t1,…,tm對某自變數xj的累計解釋能力
(8-4) Rd(xj; t1,…,tm)= Rd(xj; t1) + …+ Rd(xj; tm)
(5)th對某因變數yk的解釋能力
(8-5) Rd(yk; th)=r2(yk, th)
(6)th對Y的解釋能力
(8-6) Rd(Y; th)=[r2(y1, th) + …+ r2(yq, th)]/q
(7)t1,…,tm對Y的累計解釋能力
(8-7) Rd(Y; t1,…,tm)= Rd(Y; t1) + …+ Rd(Y; tm)
(8)t1,…,tm對某因變數yk的累計解釋能力
(8-8) Rd(yk; t1,…,tm)= Rd(yk; t1) + …+ Rd(yk; tm)
2 自變數x j在解釋因變數集合Y的作用
x j在解釋Y時作用的重要性,可以用變數投影重要性指標VIP j來測度
VIP j 2=p[Rd(Y; t1) w1j2+ …+ Rd(Y; tm) wmj2]/[Rd(Y; t1) + …+ Rd(Y; tm)]
式中,whj是軸wh的第j個分量。注意 VIP1 2+ …+ VIP p2=p
3 特異點的發現
定義第i個樣本點對第h成分th的貢獻率Thi2,用它來發現樣本點集合中的特異點,即
(8-10) Thi2=thi2/((n-1)s h2)
式中,s h2是成分th的方差。
由此,還可以測算樣本點i對成分t1,…,tm的累計貢獻率
(8-11) Ti2= T1i2+ …+ Tmi2
當
Ti2≥m(n2-1)F0.05(m,n-m)/(n2 (n-m))
時,可以認為在95%的檢驗水平上,樣本點i對成分t1,…,tm的貢獻過大。
單因變數的偏最小二乘回歸模型
1 簡化演算法
第一步 已知數據E0,F0,由於u 1= F0,可得
w1= E0'F0/|| E0'F0||
t 1= E0w1
p1= E0' t 1/|| t 1||2
E1= E0-t 1 p1'
檢驗交叉有效性。若有效,繼續計算;否則只提取一個成分t 1。
第h步(h=2,…,m) 已知數據Eh-1,F0,有
wh= Eh-1'F0/|| Eh-1'F0||
t h= Eh-1wh
ph= Eh-1' t h/|| t h||2
Eh= Eh-1-th ph'
檢驗交叉有效性。若有效,繼續計算h+1步;否則停止求成分的計算。
這時,得到m個成分t1,…,t m,實施F0在t1,…,t m上的回歸,得
F0^= r1t 1+ …+ rmt m
由於t1,…,t m均是E0的線性組合,即
t h= Eh-1wh= E0wh*
所以F0^可寫成E0的線性組合形式,即
F0^= r1 E0w1*+ …+ rm E0wm*= E0[r1 w1*+ …+ rm wm*]
最後,也可以變換成y對x1,…,x p的回歸方程
y^= α0+α1x1+ …+αp xp
❹ spss嶺回歸VIF和P值的計算
用SPSS多元線性回歸,存在多重共線性,採用嶺回歸,參照網上的代碼,能計算出K值取值0-1時的R方和各偏回歸系數,但是無法計算出相應的VIF值;另需計算K值選定後,相應的偏回歸系數和P值。
❺ R語言中如何看嶺回歸的顯著性,如何計算嶺回歸的VIF值
ridge下的vif 在R中可以計算,有對應的包和函數。
❻ 嶺回歸和Lasso回歸有什麼區別
嶺回歸是線性回歸採用L2正則化的形式,Lasso回歸是採用L1正則化的形式,Lasso回歸易產生稀疏解
❼ 統計模型和大數據模型所使用的主要演算法有什麼異同
以每24小時作為一份時間(而非自然日),根據用戶的配置有兩種工作模式:帶狀模式中,用戶僅定義開始日期時,從開始日期(含)開始,每份時間1個分片地無限增加下去;環狀模式中,用戶定義了開始日期和結束日期時,以結束日期(含)和開始日期(含)之間的時間份數作為分片總數(分片數量固定),以類似取模的方式路由到這些分片里。
1. DBLE 啟動時,讀取用戶在 rule.xml 配置的 sBeginDate 來確定起始時間
2. 讀取用戶在 rule.xml 配置的 sPartionDay 來確定每個 MySQL 分片承載多少天內的數據
3. 讀取用戶在 rule.xml 配置的 dateFormat 來確定分片索引的日期格式
4. 在 DBLE 的運行過程中,用戶訪問使用這個演算法的表時,WHERE 子句中的分片索引值(字元串),會被提取出來嘗試轉換成 java 內部的時間類型
5. 然後求分片索引值與起始時間的差,除以 MySQL 分片承載的天數,確定所屬分片
1. DBLE 啟動時,讀取用戶在 rule.xml 配置的起始時間 sBeginDate、終止時間 sEndDate 和每個 MySQL 分片承載多少天數據 sPartionDay
2. 根據用戶設置,建立起以 sBeginDate 開始,每 sPartionDay 天一個分片,直到 sEndDate 為止的一個環,把分片串聯串聯起來
3. 讀取用戶在 rule.xml 配置的 defaultNode
4. 在 DBLE 的運行過程中,用戶訪問使用這個演算法的表時,WHERE 子句中的分片索引值(字元串),會被提取出來嘗試轉換成 Java 內部的日期類型
5. 然後求分片索引值與起始日期的差:如果分片索引值不早於 sBeginDate(哪怕晚於 sEndDate),就以 MySQL 分片承載的天數為模數,對分片索引值求模得到所屬分片;如果分片索引值早於 sBeginDate,就會被放到 defaultNode 分片上
與MyCat的類似分片演算法對比
中間件
DBLE
MyCat
分片演算法種類 date 分區演算法 按日期(天)分片
兩種中間件的取模範圍分片演算法使用上無差別
開發注意點
【分片索引】1. 必須是字元串,而且 java.text.SimpleDateFormat 能基於用戶指定的 dateFormat 來轉換成 java.util.Date
【分片索引】2. 提供帶狀模式和環狀模式兩種模式
【分片索引】3. 帶狀模式以 sBeginDate(含)起,以 86400000 毫秒(24 小時整)為一份,每 sPartionDay 份為一個分片,理論上分片數量可以無限增長,但是出現 sBeginDate 之前的數據而且沒有設定 defaultNode 的話,會路由失敗(如果有 defaultNode,則路由至 defaultNode)
【分片索引】4. 環狀模式以 86400000 毫秒(24 小時整)為一份,每 sPartionDay 份為一個分片,以 sBeginDate(含)到 sEndDate(含)的時間長度除以單個分片長度得到恆定的分片數量,但是出現 sBeginDate 之前的數據而且沒有設定 defaultNode 的話,會路由失敗(如果有 defaultNode,則路由至 defaultNode)
【分片索引】5. 無論哪種模式,分片索引欄位的格式化字元串 dateFormat 由用戶指定
【分片索引】6. 無論哪種模式,劃分不是以日歷時間為准,無法對應自然月和自然年,且會受閏秒問題影響
運維注意點
【擴容】1. 帶狀模式中,隨著 sBeginDate 之後的數據出現,分片數量的增加無需再平衡
【擴容】2. 帶狀模式沒有自動增添分片的能力,需要運維手工提前增加分片;如果路由策略計算出的分片並不存在時,會導致失敗
【擴容】3. 環狀模式中,如果新舊 [sBeginDate,sEndDate] 之間有重疊,需要進行部分數據遷移;如果新舊 [sBeginDate,sEndDate] 之間沒有重疊,需要數據再平衡
配置注意點
【配置項】1. 在 rule.xml 中,可配置項為 <propertyname="sBeginDate"> 、 <propertyname="sPartionDay"> 、 <propertyname="dateFormat"> 、 <propertyname="sEndDate"> 和 <propertyname="defaultNode">
【配置項】2.在 rule.xml 中配置 <propertyname="dateFormat">,符合 java.text.SimpleDateFormat 規范的字元串,用於告知 DBLE 如何解析sBeginDate和sEndDate
【配置項】3.在 rule.xml 中配置 <propertyname="sBeginDate">,必須是符合 dateFormat 的日期字元串
【配置項】4.在 rule.xml 中配置 <propertyname="sEndDate">,必須是符合 dateFormat 的日期字元串;配置了該項使用的是環狀模式,若沒有配置該項則使用的是帶狀模式
【配置項】5.在 rule.xml 中配置 <propertyname="sPartionDay">,非負整數,該分片策略以 86400000 毫秒(24 小時整)作為一份,而 sPartionDay 告訴 DBLE 把每多少份放在同一個分片
【配置項】6.在 rule.xml 中配置 <propertyname="defaultNode"> 標簽,非必須配置項,不配置該項的話,用戶的分片索引值沒落在 mapFile 定義