msa演算法
㈠ 影響數據質量的是什麼
數據質量管理的分析影響數據質量的因素
影響數據質量的因素主要來源於四方面:信息因素行燃、技術因素、流程因素和管理因素。信息因素:產生這部分數據質量問題的原因主要有:元數據描述及理解錯誤、數據度量的各種性質(如:數據源規格不統一)得不到保證和變化頻度不恰當等。技術因素:主要是指由於具體數據處理的各技術環節的異常造成的數據質量問題。數據質量問題的產生環節主要包括數據創建、數據獲取、數據傳輸、數據裝載、數據使用、數據維護等方面的內容。流程因素:是指由於系統作業流程和人工操作流程設置不當造成的滾悔數據質量問題,主要來源於系統數據的創建流程、傳遞流程、裝載流程、使用流程、維護流程和稽核流程等各環節。管理因素:是指由於人員素質及管理機制方面的原因造成的數據質量問題。如人員培訓、人員管理、培訓或者獎懲措施不當導致的管理缺失或者管理缺陷。
影響會計數據質量的主要因數是什麼
影響會計數據質量的主要因數有三方面即管理人員、財會制度和財務人員。管理人員指管理人員指令的清晰性或模糊情度,制度包括制度的完善、執行情況,財務人員主要是會計人員的對工作的認知情度,道德操守,責任心等。
什麼是數據的質量
?? 測量系統分析(MSA) 什麼是測量系統 * 測量系統:用來對被測特性賦值的操作、程序、量具、設備、 軟體及操作人員的 *** 人 設備 材料 測量過程 數據 方法 環境 輸入 輸出 * 測量系統應具備的特性 1 ) 處於統計控制狀態,即只存在變差檔備虛的普通原因; 2 ) 測量系統的變異性小於過程變異性; 3 ) 測量系統的變異性小於技術規范界限; 4 ) 測量精度應高於過程變異性和技術規范寬度的 1/10 ; 5 ) 當被測項目變化時,測量系統統計特性的最大變差小於過 程變差和規范寬度較小者; * 數據的類型 ——計量型數據 ——計數型數據 * 如何評定數據質量 ——測量結果與「真」值的差越小越好 ——數據質量是用多次測量的統計結果進 行評定 * 計量型數據的質量 ——均值與真值(基準值)之差 ——方差大小 * 計數型數據的質量 ——對產品特性產生錯誤分級的概率 測量系統評定的兩個階段 * 第一階段(使用前) ——確定統計特性是否滿足需要 ——確定環境因素是否有影響 * 第二階段(使用過程) ——確定是否持續的具備恰當的統計特性 測量系統特性及變差類型和定義 類型 定義 圖示 分辨力 測量系統檢出並 如實指出被測定 特性微小變化的 能力 評價均值質量 偏倚 觀測平均值與基 准值的差 基準值 偏倚 穩定性 在某種持續時間 內測量同一基準 或零件單一特性 結果的總變差 穩定性 時間 2 時間 1 線性 量具的預期工作 范圍內偏倚的變 化 觀察平均值 有偏倚 無偏倚 基準值 評價變差 質量 重復性 同一評價人,多次 測量同一特性的 觀測值變差 再現性 不同評價人,測量 同一特性觀測平 均值的變差 B C A 再現性 測量系統的分辨力 * 建議的可視解析度 ≤ 6 σ /10 σ——過程的標准差(不是公差寬度的 1/10 ) * 解析度不足對控制圖的影響 測量系統的穩定性 * 兩種穩定性 ——一般概念:隨著時間變化系統偏倚的總變 差。 ——統計穩定性概念:測量系統只存在普通原 因變差而沒有特殊原因變差。 * 利用控制圖評價測量系統穩定性。 ——保持基準件或標准樣件。 ——極差圖(標准差圖)出現失控時,說明存 在不穩定的重復性。 ——均值圖出現失控時,說明偏倚不穩定。 評價測量系統的三個基本問題 * 是否有足夠的分辨力 * 是否統計穩定 * 統計特性用於過程式控制制和分析是否可接受。 盲測法 * 在實際測量環境下,在操作者事先不知正在對 該測量系統進行評定的條件下,獲得測量結果。 向傳統觀念挑戰 * 長期存在的把測量誤差只作為公差范圍百分 率來報告的傳統,是不能面臨未來持續改進的 市場挑戰。 國際標准 國家標准 地方標准 公司標准 檢測設 備製造廠 測量結果 * 追溯性:通過應用連接標准等級體系的適當標 標準的傳遞 國際實驗室 國家實驗室 國家認可的 校準機構 企業的校準 實驗室 生產現場 准程序,使單個測量結果與國家標准或國家接 受的測量系統相聯系。
在數據採集的過程中,影響數據質量的因素有哪些
在產品的逆向設計中,產品三維數據的獲取方法基本上可分為兩大類,即接觸式與非接觸式,由於這兩種方式各有優缺點,而且它們的結合可以實現伏勢互補,克服測量中的種種困難,因而世界各國的逆向設備生產商紛紛研製具有接觸式與非接觸式兩種掃描功能的逆向設備。
三座標測量機是一種接觸式測量設備,它具有精度高、重復性好等優點,其缺點是速度慢、效率低。非接觸式方法利用某種與物體表面發生相互作用的物理現象來獲取其三維信息,如光、電磁等。非接觸式方法具有測量過程非接觸、測量迅速等優點,其缺點是對所測量物體材料要求嚴格,如採用激光測量時,所測量物體材料要求不能透光,表面不能太光亮,而且對直壁和徒坡數據的採集往住存在一定誤差。
逆向工程中數據採集與處理
逆向工程中的測量數據量大,掃描的數據點可達數十萬,而且掃描的數據點具有離散性。為了有效地利用這些測量數據進行CAD建模,必須對數據雲進行必要的處理。
1.數據採集
數據採集的過程為:機床初始化—根據要掃描的物體設置掃描基準(包括Z平面、座標軸、基準點等)—設置並進行2D輪廓掃描(此步可根據實際情況進行選擇)—根據2D輪廓或座標區域進行3D曲面掃描設置(包括掃描方向及步距、3D空間極值、允許的最小誤差及弦向誤差、探頭半徑、掃描速度等)—進行數據採集。
2.數據處理
數據處理的目的是為了獲得正確的數據信息,生成相應格式的數據文件(如igs, dxf, vda, UG格式、Cimatron格式、Pro-E格式等)並與UGII, Surface, Pro-E, Catia等著名工程軟體進行數據交換,以便用它們進行3D模型重構。在Renishaw公司的Tracecut23軟體中提供了多種數據處理方法,這些方法包括數據調整、復制、數據光順、雜訊去除、數據鏡像、陰陽轉換、生成真實表面、CAD數據輸出等。數據處理中要避免造成形狀變形、精度降低、數據點不足等問題,一般要進行以下幾方面的工作:
(1)補償點的產生對於接觸式掃描,由於從掃描儀獲得的測量數據並不真正代表接觸點的座標,而反映的是探頭的中心或頂部的值,因此,要對這些數據進行補償,轉換為被測物體表面的座標值。對於產生補償點,首先需要計算出標准點,而由於沒有表面的數學表達公式,不能使用通常的方法計算出標准點。目前已開發出特殊的演算法,能夠在所規定的公差范圍之內,獲得近似的標准值。
(2)雜訊點刪除逆向工程測量過程中,受掃描測量方式、測量物體材料的種類、設備的精度等因素的影響,極易造成測量數據誤差點的產生,對這類誤差點,習慣上稱為雜訊點。在數據處理的第一步先要利用系統所提供的雜訊點去除功能,選擇合適的去噪精度去除多餘的誤差點,保證測量數據的准確性。
(3)數據點精化在CAD系統中,需要對逆向工程中獲得的掃描數據點進行曲線構造、曲線光順處理、曲面重構、曲面光滑處理、曲面拼接、三維建模等工作。在進行這些操作之前,要根據所測量物體的各部分的形伏特點設置適當的截面終距離和相鄰兩數據點的距離,利用系統中的CAD數據輸出功能輸出適當格式的數據文件,再利用CAD軟體對數據點進行刪除和拼接,這樣可保證所測物體曲率較大處有較少的數據點,曲率較小處和復雜處具有較多的數據點。
數據採集方法及技巧
在實物測量中,會遇到各種復雜的形狀,為保證所測量數據的准確性和所測量形狀的完整性,採用的測量方法和測量工裝是數據採集的關鍵。
1.翻模測量法
汽缸是汽油機的核心部件,它的......>>
影響資料庫質量的是
1 人為因素
由於編目人員的粗心,在錄入的過程中所造成的數據的缺損、錯誤等,是影響機讀書目資料庫建設質量的直接因素,常見的有:
(1)文字錄入錯誤:在著錄過程中,文字錄入錯誤是導致漏檢、誤檢的重要原因。文字錄入錯誤最常見的是檢索點錄入錯誤,如主題詞、分類號、題名、責任者項等錄入錯誤。
(2)數字、字母、標識符號錄入不規范:在各檢索項中,對出現的標點、符號、數字及外文字母等應依原題照錄,但在錄入時應使用全形還是半形比較含糊,常常不統一。由於輸入時可能出現差異,檢索時就會因題名中的大小寫、空格等不規范而造成漏檢、誤檢。(3)著錄內容不準確:表現在著錄方式的不一致及著錄欄位的殘缺,有的編目人員為了追求編目的速度而忽略了書目數據的質量,省略了一些必備欄位的著錄,或者著錄得非常粗淺,從而使書目資料庫建設質量得不到保證,影響用戶檢索。
3.2 文獻著錄因素
在文獻著錄中,文獻分析是一項專業性和技術性較強的腦力勞動,其質量的好壞直接影響著書目資料庫的規范化、標准化。編目人員在對文獻進行編目時,分析著錄欄位理解差異較大,在對版本與版次,或者對多卷書、叢書著錄的不一致,表現在:
(1)對200欄位中@a正題名子欄位的選取時,對影響句子結構的標點符號不能盲目照錄,應加以分析判斷,如:世界偉人—— *** ,在這種情況下,破折號後面的內容是破折號前面內容的同位語,應視為題名的整體,應照錄,不能著錄在@e子欄位中;再如:嬗變——中國富豪的第一桶金,在這種情況下,破折號後面的內容是前面內容的解釋及需要進一步的表述,破折號後面的內容應著錄到副題名中。題名中含有這類意義的其他符號還很多,在著錄中應值得注意,要針對這類符號在句子中所起的作用而分別處理。
(2)205欄位的著錄。此欄位一般錯誤不多,但在著錄中文譯著圖書時,個別編目員容易把原著的版本說明著錄在205欄位,這是錯誤的。譯自原書的第幾版,不應著錄在205欄位,應著錄在305欄位。
(3)225欄位指示符「l」的規定:「0」與檢索點形式不同,「l」等於無檢索點形式,「2」等於與檢索點形式相同。指示符「2」規定空格。倘若4欄位著錄叢編檢索點與225欄位叢編描述形式相同時,225欄位指示符「1」應為「2」。
(4)其他:如綜合著錄多卷書時,應增加517欄位做檢索欄位。像「教材」「教程」類多卷書出版量又比較大時,沒有集中的必要,可著錄在附註項中。
眾數也是描述數據什麼的量,不受什麼的影響
三者都是反映數據集中趨勢的統計量。平均數屬於數值平均數,受極端數值影響,中位數和眾數屬於位置平均數,不受極端數值影響。
什麼是傳輸介質,影響其網路數據通信質量的因素有哪些
傳輸介質就是在通信過程中傳輸信息的載體,如光纖、同軸電纜、自由空間等
通信三要素:發射信號(信號源)、傳輸(介質)、接收(接收機),從這些方面可以找到很多原因,比如說上網業務中傳輸介質,用光纖傳輸明顯質量比一般電纜傳輸就快;同條件下有線比無線快等這些都是由於介質損耗、容量引起的
什麼是地理信息系統的數據質量?具體包括哪些內容? 15分
-關於數據質量
質量:是一個用來表徵人造物品的優越性或者證明其所具有技術含量的多少或
者表示其藝術性高低的常用術語。
近年來由於一下原因,關注數據質量:
1, 增加私營部門的數據生產 。
2,進一步利用地理信息作為決策支持工具。
3,日益依賴二手數據來源。
—空間數據質量的概念:
1,誤差:反映了數據與真值或者大家公認的真值之間的關系。
2,數據的准確度:被定義為結果計算值或估計值或公認值之間的接近程度。
3,數據的精密度(儀器本身):是指在數量上能夠辨別的程度,指數據的有效位
數,表示測量值本身的離散程度。解析度影響到一個資料庫礎某個具體應用的適用
程度。
4,不確定性:是關於空間過程和特徵,不能被准確確定的程度。
㈡ 基因家族擴張與收縮分析及物種進化樹構建(上)
首先,選取不同物種的Protein數據集:Arabidopsis_thaliana.fa;Citrus_grandis.fa;Dimocarpus_longan.fa;Durio_zibethinus.fa;Prunus_persica.fa; Vitis_vinifera.fa;Citrus_clementina.fa;Citrus_sinensis.fa;Diospyros_oleifera.fa;Malus_domestica.fa;Oryza_sativa.fa;Pyrus_communis.fa
然後進行數據處理,去冗餘,只保留最長轉錄本,去除可變剪切:
python3 removeRendantProteins.py -i input.fa -o output.fa
removeRendantProteins.py
將處理好的數據置於一個文件夾中「Dataset」
OrthoFinder這個軟體,之前有一篇文章已經介紹過了,這里就不在贅述,這個軟體安裝十分友好,棗悄春直接conda安裝即可;
nohup orthofinder -f Dataset -M msa -S diamond -T iqtree -t 24 -a 24 2> orthofinder.log &
orthofinder參數詳情:
-t 並行序列搜索線程數(默認= 16)
-a 並行分析線程數(默認值運友= 1)
-M 基因樹推斷方法。可選:dendroblast和msa(默認= dendroblast)
-S 序列搜索程序(默認= blast)選項:blast,mmseqs,,blast_gz,diamond(推薦使用diamond,比對速度很給力)
-A 多序列聯配方式,需要添加參數-M msa時才有效;(默認= mafft)可選擇:muscle,mafft
-T 建樹方法,需要添加參數-M msa時才有效,(默認 = fasttree)可選:iqtree,raxml-ng,fasttree,raxml
-s <文件> 可指定特定的根物種樹
-I 設定MCL的通脹參數(默認 = 1.5)
-x Info用於以othoXML格式輸出結果
-p <dir>將臨時pickle文件寫入到<dir>
-l 只執行單向序列搜索
-n 名稱以附加到結果目凳耐錄
-h 列印幫助文本
如果只需要查找直系同源基因,只需接「-f」 參數即可;此步也可建樹,採用默認的建樹方法fasttree,為無根樹。
nohup orthofinder -f Dataset &
如果添加-M msa -T iqtree設定製定參數,可按照設定的參數使用最大似然法構建有根的物種進化樹,構建的樹為STAG樹。
nohup orthofinder -f Dataset -M msa -S diamond -T iqtree -t 24 -a 24 2> orthofinder.log &
關於構建系統進化樹,有很多種做法,常見的有利用物種全部的蛋白序列,構建STAG物種樹;也有使用單拷貝直系同源基因構建的物種進化樹,關於這一點,OrthoFinder查找同源基因,可以輸出直系單拷貝同源基因的序列結果,後續也可使用其他構樹軟體及演算法進行進化樹構建。關於建樹方法,則有距離矩陣法、最大簡約法、最大似然法以及貝葉斯;當然目前主流採用的基本為最大似然法和貝葉斯,其中貝葉斯演算法計算量巨大,耗時最久,其構建的樹也認為最為「逼真」,但文章中使用較多的還是最大似然法,其耗時也需蠻久。
OrthoFinder輸出的結果會在OrthoFinder文件夾下面的以日期命名的文件夾中,如:~/OrthoFinder/Results_May08
其中,我們可以用Orthogroups.GeneCount.tsv來作為CAFE的輸入文件,分析基因家族的擴張與收縮;使用SpeciesTree_rooted.txt作為推斷的物種樹,並使用r8s,從中提取超度量樹(ultrametric tree)即時間樹;
python cafetutorial_prep_r8s.py -i SpeciesTree_rooted.txt -o r8s_ctl_file.txt -s 6650255 -p 'Oryza_sativa,Arabidopsis_thaliana' -c '152'
參數:
-i path_tree_file: path to .txt file containing tree in NEWICK format
-s n_sites: number of sites in alignment that was used to infer species tree
-p list_of_spp_tuples: list of tuples (each tuple being two species IDs whose mrca's age we are constraining; e.g., [('ENSG00','ENSPTR'),('ENSFCA','ENSECA')]
-c list_of_spp_cal_points: list of flats, one for each tuple in list_of_spp_tuples (e.g., [6.4,80])
-s 即用於推斷物種樹的比對序列鹼基數目;
-p 已知物種樹中的一對物種;
-c 已知一對物種的分化年限:
可在 timetree 網站查詢:為152 mya
conda install cafe
cafetutorial_clade_and_size_filter.py
vim cafetutorial_run.sh
tree即為r8s提取的超度量樹;
python cafetutorial_report_analysis.py -i reports/report_run.cafe -o reports/summary_run
summary_run_node.txt:統計每個節點中擴張,收縮的基因家族數目;
summary_run_fams.txt:具體發生變化的基因家族
python3 /home/Tools/CAFE_fig/CAFE_fig.py resultfile.cafe -pb 0.05 -pf 0.05 --mp test/ -g svg --count_all_expansions
輸出svg格式的文件,可導入AI編輯美化;
CAFE_fig運行報錯:(mole 'ete3' has no attribute 'TreeStyle')
報錯解決:
vim /home/Tools/CAFE_fig/CAFE_fig.py
程序還在運行,後續貼出結果圖。
OrthoFinder
timetree
http://www.chenlianfu.com/?tag=genomecomparison
https://www.jianshu.com/p/146093c91e2b
r8s
【OrthoFinder】
Emms, D.M., Kelly, S. OrthoFinder: solving fundamental biases in whole genome comparisons dramatically improves orthogroup inference accuracy. Genome Biol 16, 157 (2015) ( https://doi.org/10.1186/s13059-015-0721-2 )
Emms, D.M., Kelly, S. OrthoFinder: phylogenetic orthology inference for comparative genomics. Genome Biol 20, 238 (2019) https://doi.org/10.1186/s13059-019-1832-y )
【CAFE v.4.2.1】
Han, M. V., Thomas, G. W. C., Lugo-Martinez, J., and Hahn, M. W. Estimating gene gain and loss rates in the presence of error in genome assembly and annotation using CAFE 3. Molecular Biology and Evolution 30, 8 (2013)
【iqtree v. 1.6.12】
Lam-Tung Nguyen, Heiko A. Schmidt, Arndt von Haeseler, and Bui Quang Minh (2015) IQ-TREE: A fast and effective stochastic algorithm for estimating maximum likelihood phylogenies. Mol Biol Evol, 32:268-274. https://doi.org/10.1093/molbev/msu300
【modelFinder】
Subha Kalyaanamoorthy, Bui Quang Minh, Thomas KF Wong, Arndt von Haeseler, and Lars S Jermiin (2017) ModelFinder: Fast model selection for accurate phylogenetic estimates. Nature Methods, 14:587–589. https://doi.org/10.1038/nmeth.4285
【R8s v. 1.81】
Sanderson M J. R8s: inferring absolute rates of molecular evolution and divergence times in the absence of a molecular clock. Bioinformatics, 2003, 19(2): 301-302.
【STAG tree】
Emms D.M. & Kelly S. STAG: Species Tree Inference from All Genes (2018), bioRxiv https://doi.org/10.1101/267914
直系同源低拷貝核基因(orthologous low- nuclear genes, LCN):在進化過程中,新基因通常來自事先存在的基因,新基因的功能從先前基因的功能進化而來。新基因的原材料來自基因組區域的重復,這種重復可包括一個或多個基因。作為物種形成的伴隨事件而被重復,並繼續保持相同功能的基因,稱為直系同源基因(orthologous)。新的基因功能可由在單個物種的基因組中發生的重復引起的。在一個基因組內部的重復導致旁系同源基因(paralogous gene)。
最大似然法(maximum likelihood method):使用概率模型,尋找能夠以較高概率產生觀察數據的系統發生樹。
外群的選擇:大多數的種系發生重建方法會產生無根樹,但是觀察樹的拓撲結構無法識別樹根應在哪一分支上。實際上,對於要證實哪一個分類單元的分支先於其他的分類單元,樹根必須確定。在無根樹中設定一個根,最簡單的方法是在數據集中增加一個外群(outgroup)。外群是一種分類操作單元,且有外部信息表明外群在所有分類群之前就已分化。研究演化歷史,一般選擇比目標序列具有較早進化歷史的序列作為外類群。
Bootstrap support: bootstrap是統計學上一種非參數統計方法,通過有放回的隨機抽樣,構建分類回歸樹。Jackknife與bootstrap類似,只是每次抽樣時會去除幾個樣本,像小刀一樣切去一部分。所謂bootstrap法就是從整個序列的鹼基(氨基酸)中任意選取一半,剩下的一半序列隨機補齊組成一個新的序列。這樣,一個序列就可以變成許多序列,一個序列組也就可以變成許多個序列組。根據某種演算法(距離矩陣法、最大簡約法、最大似然法),每個多序列組都可以生成一個進化樹。將生成的許多進化樹進行比較,按照多數規則(majority-rule)就會得到一個最「逼真」的進化樹。
㈢ 交通配流裡面的MSA方法是一種FW演算法嗎
不是,二者思想不同。
㈣ 模擬退火法<sup>[1,]</sup>
模擬退火演算法最早在1953年由 Metropolis等人提出。在地球物理中的最早應用是Rothman在1983年利用模擬退火演算法處理地震資料的剩餘靜校正。模擬退火法也是類似於蒙特卡洛法的隨機搜索方法。但是在產生模型的過程中引入一些規則,能有效地加快搜索速度,有時又稱這類方法為啟發式蒙特卡洛法。
模擬退火法概念源於統計物理學,是模擬固體熔化狀態逐漸緩慢冷卻最終達到能量最小的結晶狀態的物理過程。對於一個熔化的金屬,當處於某個溫度的熱平衡狀態時,它的每一個分子都有它可能所處的狀態,有些分子可能能量高一些,有些分子可能能量低一些,分子處於何種狀態的概率由分子所具有的能量決定。設分子所有可能的能級總數為n(微觀粒子的能量都是量子化的,不連續的),則分子處於某種狀態的概率滿足玻爾茲曼概率分布:
地球物理反演教程
其中:Ei為第i個分子的能量;K為玻爾茲曼常數;T為絕對溫度;n為分子所有可能的能級總數,分母稱為配分因子;pi為第i個分子處於能量Ei的概率。
如果把地球物理反演的模型向量看作分子,把目標函數看作分子的能量,把目標函數的極小值看成分子冷卻結晶的最小能量,反演問題(最優化問題)可以模擬式(8.11)金屬退火的過程,通過緩慢地減小溫度進行反演,使目標函數(能量)逐漸達到極小值,這時所對應的模型(分子狀態)就是反演結果。
為了改善於蒙特卡洛法的隨機搜索方法,1953年 Metropolis等人在產生模型的過程中引入Metropolis接受准則,模型產生並不是完全隨機,而是以前一個模型為基礎隨機產生。對能量減小的模型完全接受,對能量增加的模型按一定的概率接受,這樣能有效地加快搜索速度,同時又有可能跳出局部極小值。具體如下:
設原來模型向量為mi,新的模型為mi+1(在mi基礎上隨機修改產生),各自的能量(目標函數)為E(mi)和E(mi+1)。如果E(mi+1)<E(mi),則目標函數在減小,新模型可以接受。如果E(mi+1)>E(mi),則目標函數在增加,按照一定概率來確定是否接受新的模型。具體規則見式(8.12):
E(mi+1)<E(mi) 完全接受mi+1為新模型
地球物理反演教程
式(8.12)就是Metropolis接受准則。它使得反演過程可以接受使目標函數增加的模型,因此也就使得模擬退火法有可能跳出局部極小,收斂於全局極小值點。由於玻爾茲曼常數K只是起到尺度因子的作用,在實際計算中K可取為1來簡化公式。從式(8.12)可以看出,當溫度較低時,pi+1/pi較小,因此接受使能量增加的新模型的可能性較小。而一般溫度較低時,目標函數較小,模型比較靠近真實模型,這時基本上只接受使目標函數減小的模型,使模型盡快收斂於極小值點。
在模擬退火反演中,要求溫度T隨著迭代次數的增加而緩慢降溫。常用的溫度函數有兩種。
(1)指數下降型:
Tk=T0·exp(-ck1/N) (8.13)
式中:k為迭代次數;c為衰減因子;N為模型參數的個數;T0為初始溫度。上式也可以改寫為
地球物理反演教程
通常選擇0.7≤α≤1。在實際應用中可採用0.5或1代替式(8.14)的1/N。圖8.4(a)為指數降溫曲線。採用參數為:T0=200℃,α=0.99,1/N=0.9。
(2)雙曲線下降型:
T=T0αk (8.15)
式中:T0為初始溫度;k為迭代次數;α為衰減因子,通常取0.99。初始溫度T0不能取得太高,否則增加計算時間浪費機時;T0也不能太低,否則模型選取不能遍及整個模型空間,只是在初始模型附近選取,不能進行全局尋優。所以T0的確定只有通過實驗計算得到。圖8.4(b)為雙曲線降溫曲線。採用參數為:T0=200℃,α=0.99。從圖8.4可以看出通過對不同溫度曲線和相關參數進行選擇,可以控制溫度下降的方式和速度。
圖8.4 模擬退火法降溫曲線
模擬退火法主要有三種:
(1)MSA演算法(Metropolis Simulated Annealing);
(2)HBSA演算法(Heat Bath Simulated Annealing);
(3)VFSA演算法(Very Fast Simulated Annealing)。
圖8.5 模擬退火MSA演算法程序流程圖
前面介紹的利用 Metropolis接受准則的演算法就是經典的模擬退火法。圖8.5為模擬退火 MSA演算法的程序流程圖。從中可以看出 MSA演算法有一套模型修改准則,依次改變模型參數,每次改變都是在原來模型基礎上改變一個參數,因此容易保持已有搜索成果,持續不斷地向目標函數最小值點接近,因此搜索效率比蒙特卡洛法高。此外,MSA演算法允許接受使目標函數增加的模型,這樣又易於跳出局部極小,達到全局極小。但 MSA演算法在任何溫度下和蒙特卡洛法一樣都是在模型全空間進行搜索,不能根據當前溫度和模型減小搜索空間,此外由於模型的修改全憑運氣,所以不可能像前面介紹的最小二乘法那樣目標函數基本上持續減小,而是呈不規則振盪在宏觀上逐漸減小,因此效率較低。
HBSA演算法與 MSA演算法的不同之處是在模型的修改上。也是首先隨機選擇一個初始M維模型向量m0(它具有M個參數);然後限制各個模型參數可能的取值范圍,對取值離散化。假設每個模型參數都有N個可能的值,首先固定模型第2個參數m0(2)直到第M個參數m0(M)保持不變,只修改第1個參數m0(1);計算m0(1)的所有取值時的目標函數,然後按式(8.16)計算「概率」,它就是式(8.11)配分因子取1的公式。即
地球物理反演教程
選擇「概率」最大的為模型第1個參數的修改值。照此依次對所有模型參數進行修改完成依次迭代計算。在每次迭代計算中保持溫度不變。隨著迭代次數增加,溫度降低,最終達到穩定狀態,獲得最小能量解。這種方法的計算由於要計算某個參數的所有可能值,所以計算量也是很大的。
1989年Ingber提出了VFSA演算法,由於速度較快,最為常用。它使得模擬退火法從理論走向了實際應用。VFSA演算法在流程上與傳統的模擬退火法相同,但是在模型修改、接受概率以及降溫曲線上有所改進。
(1)模型修改:常規模擬退火法採用高斯隨機分布修改模型,在任何溫度下都是在模型全空間進行搜索。而Ingber提出採用依賴於溫度的似cauchy分布產生新的模型。即
地球物理反演教程
yi=Tsgn(u-0.5)[(1+1/T|2u-1|-1](8.18)
其中:mi為當前模型第i個參數,m'i為修改後的模型參數;u為[0,1]的隨機數;[Ai,Bi]為mi和m'i的取值范圍;sgn( )為符號函數。
採用以上方式能在高溫下進行大范圍的搜索,低溫時在當前模型附近搜索,而且由於似cauchy分布具有平坦的「尾巴」,使其易於迅速跳出局部極值。這一改進大大加快了模擬退火法的收斂速度。
(2)接收概率:當E(mi+1)>E(mi)時,VFSA演算法採用如下概率接受公式:
地球物理反演教程
上式當h→1時變為式(8.12)。h通過實驗獲得。
(3)降溫曲線(退火計劃):Ingber在1989年採用式(8.13)得出指數降溫曲線。從圖8.4可知,溫度下降較快。
總之,VFSA演算法在模型修改、接受概率以及降溫曲線上的改進使得模擬退火演算法收斂速度大大加快。後人在此基礎上還有很多的改進,讀者可以參考相關文獻。
模擬退火法的優點:由於不需要計算偏導數矩陣,不需要解線性方程組(當然正演計算的除外),結構簡單,易於編程;此外,由於它搜索范圍大,能接受較差模型,因此易於達到全局極小。缺點:隨機搜索,計算量巨大,往往要計算成百上千次正演,這與前面的最小二乘法十幾次的正演計算相比反演時間太長,因此一般應用在一維反演之中,在二維、三維等高維反演中應用較少。
㈤ 比特率是什麼意思
數字信道傳送數字信號的速率稱為數據傳輸速率或比特率.
比特率這個詞有多種翻譯,比如碼率等,表示經過編碼(壓縮)後的音頻數據每秒鍾需要用多少個比特來表示,而比特就是二進制裡面最少的單位,要麼是0,要麼是1。比特率與音視頻壓縮的關系簡單的說就是比特率越高音視頻的質量就越好,但編碼後的文件就越大;如果比特率越少則情況剛好翻轉。
例如:以500Kbps來編碼音視頻。
其中
bps是
比特1K=
1010=1024
b就是比特(bit)
s就是秒(second)
p就是每(per)
所以,以500kbps來編碼表示經過編尺察碼後的音視頻數據每秒鍾需要用500K的比特來表示
在基者困鎮帶傳輸系統中用比特率表示傳輸的信息碼率.比特率Rb是指單位時間
內傳輸的二元比特數,單位是b/s.例如計算機串口的傳輸碼率最高到115200b/s.
符號率或波特率Rs是指單位時間內傳輸的調制符號數,即指三元及三元以
上的多元數字碼流的信息傳輸速率,單位是baud/s.
在M進制調制中,比特率Rb和波特率Rs之間的關系為:
Rb=Rslog2M
采樣率是指采樣樣本與總樣本數之比,采樣數率是單位時間采樣數。如果是儀器中,采樣速率為40MSa/s,說明每秒采樣數量為40M個,但是不能使用40MHz表示。
把模擬音頻轉成數字音頻的過程,就稱作采樣,簡單地說就是通過波形采樣的方法記錄1秒鍾長度的聲音,需要多少個數據。44KHz采樣率的聲音就是要花費44000個數據來描述1秒鍾的聲音波形。原則上采樣率越高,聲音的質量越好。
參首粗考原文:http://bk..com/view/56355.htm