演算法跑得很慢
㈠ 數據結構和演算法在實際的軟體開發中都有哪些
應用太多了。
基本上來說C#是基於面向對象語言,你所定義的所有類/結構體都算是數據結構,而且在.net類庫中已經定義中諸多可用的類型以供使用。實際開發中根本就離不開結構與演算法。
題主之所以有這樣的問題,基本上認識到了很多程序員易犯的一個毛病——理論知識與實際應用中的脫節問題,不少程序員都說自己寫程序用不上理論知識,或者是理論無用。我一直認為理論才是真正編程的指導,別說你所學的理論知識了,有時我們必須遵守一些軟體活動上的標准/規范/規定。比如ISO29500標准有多少程序員讀過或聽說過?他實事就是關於openxml的一個國際標准,我們要想達到通用的程序,這些標准還是讀一讀的好。
扯回你的問題,什麼是數據結構,什麼是演算法?如果你真的狹義理由數據結構,或者只是從課本上例子來說,數據結構被定義成一個只有屬性成員的類或結構體才算是數據結構嗎?事實上並不是,那麼是不是只有鏈表/棧/隊列才算是數據結構呢?可以說這是某些人狹義理解數據結構時的一種常規定勢思維,但事實上來說,類或結構是數據結構的基本,否則你鏈表存在的實體到底是什麼東西?所以數據結構包含著基本結構與狹義上的順序表/鏈表/棧/隊等存在實體的集體。為什麼我說數據結構在實際運用中廣泛體現呢?就數據結構而言,課本上只是為了講明白結構而已,弱化了其中實體的真正含義,而且不語言的具體實現亦不盡相同,所以他們所講的數據結構是基本理論的。
我來個例子:鏈表(C#語言)
publicclassMember
{
publicstringName{get;set;}
publicstringResponsibility{get;set;}
publicstringPosotion{get;set;}
}
publicclassMemberNode
{
publicMemberMember{get;set;}
publicMemberNext{get;set;}
}
//Node其他就是鏈表中的一個結點結構,這個結點結構除了指明當前的Member之下還指向下Next的下一個結構結構,它最終可以形成一個鏈表。這就是定義的一個鏈表。
從以上例子上你可以看出這是一個類似於課本的標準定義,但事實上在C#語法中存在泛型的特點,那麼這類似的結構我們不須要一個個地定義了!所以在不同的語言中為了方便編程者,我們甚至可以把這樣的結構進行簡單化,從而達到一種最簡單的使用方式。以C#為例,我們可以使用Node<T>來表示鏈表/List<T>表示順序表/Stack<T>表示棧/Queue<T>表示隊列,在這種情況下,我們只需要定義我們的泛型即可,結構鏈之類的本身使用泛型已經在類庫中實現了——雖然你不用定義,但不代表不使用或者不用理解這其中的知識。而在課本講理論的時候,他不可能附帶泛型來講的,所以很多人認為自己去定義數據結構才行,那才是「真正」的數據結構,其實不然。以鏈表為例,我們需要一個節點除了其實體意義之外,還存在指向下一結點的指針(其實是地址引用)才算是數據結構。根據課本,他們必須這么定義(C#):
publicclassMemberNode
{
publicstringName{get;set;}
publicstringResponsibility{get;set;}
publicstringPosition{get;set;}
publicMemberNodeNext{get;set;}
}
//死讀書的只會承認這種才是真正的數據結構吧(鏈表節點)
事實上,鏈表講的只是一種形式,能最終形成的一種組織數據結構的形式。這個代碼會導致我們出現一種極大的誤解——每個類型的結構都需要重新定義一次。如果有多個類型結構的話,我們會出現多個不同的定義,這會導致將來類的定義越來越多,對於維護上來說是比較麻煩的。由於設計模式/面向切片等各種開發方式的介入,我們會使用相對比較簡單的形式。所以才會有我定義兩個類的進步,而後可以出現泛型的更進一步。
你可以這樣理解,這種課本上的結構,會導致我們造成每種結構基本上都需要重新定義一次,我最開始給出的例子可以使用繼承的方式,實現某個基類的數據結構(下面的似乎也行,但在使用中可能會出現部分問題),而Node<T>則從根本上解決了這個問題,可以支撐多種類型。
所以此時在理解數據結構時,比如Node<T>,他不旦要求理解鏈表的節點,還要理解T泛型,那麼在數據結構上來說,它指的不再是單一的節點結構,還在包括一個基礎的類型。
換句話來說,你在C#等語言中已經不需要再做類似的定義了,只需要定義其基本結構類型即可。但課本上在講知識的時候,它不可能只針對面向對象或支持泛型的語言來講,若不支持泛型時,我們必須使用課本上或我最開始寫的例子中的形式,若不支持繼承的面向過程語言,那麼課本上的知識就是硬性的規定,你必須以這種形式來說,而引用則使用指針引用的方式(面向對象的引用其實是一種引用型引用,也就是址引用或稱地址引用,與指針類似)。
相信講到這里你能明白,數據結構在不同的語言中只是變了個形而已,並不是必須是存在指針的才是,也不是只說表面上的那點東西。早期教程都是以fortain語言為主的,而且課本的目的是講清道理,而不是一種規定。死讀書的人以為用不到數據結構,其實他們一直在使用。
再來說一下演算法,演算法是什麼?是解決問題的一種模式,比如解二元一次方程等等,所以演算法的定義其實已經告訴你,順序代碼他也算是一種演算法,不能說只有背包問題,八皇後問題,回溯問題才算是演算法——你能明白嗎?其實你正常寫的就是一種演算法,這種演算法簡單,就是順序執行下來就可以了,他也是一種演算法的,就算解二元一次方程組有固定的模式(演算法),但不代表加減法就不是演算法了!所以演算法也是常用的東西,那麼你學習的演算法其實算是開辟思路的一種而已。演算法自身的概念已經決定,基本上程序都是由結構與演算法構成。我也來舉個例子,怎麼判斷某個鏈表是否為循環鏈表?是你的回溯演算法,貪心演算法還是背包演算法?它們只是在解決一些典型問題的一種通用方式而已,很顯然,我的問題不是這種典型問題,但不代表他不典型,我們正常的演算法是設計兩個變數等於頭元素,然後開始進入循環,一個變數每次向下推一,即找到他下一個節點,而另一個變數每次找到其孫節點,就算當於兩個變數一個每次向下推進一次,而另一個每點推進兩次(如果可能),如果不是循環鏈表,則進兩次的那個會在鏈表總長度的一半時,遇到空引用,否則會在某一時間兩指針引用同一對象(不是對象相等,而是引用相同的對象),什麼意思呢,好象兩個人在圓型跑道上跑步,一個每秒1米,另一個每秒2米,同時同地同向出發,最歸跑得快的那個會追上跑得慢的那個!當然這種情況下你也可以給他起個名字,叫「追及演算法」?如果只有你學的那幾個典型演算法是演算法的話,這個算不算演算法?
現在我們的問題是,如果語言層面上已經實現了這些東西,那麼這些理論我們是否可以不用理解就可以了?答案是可以——如果你只是一個不思進取的程序員或允許bug亂飛的沒有責任心的編程人員的話,可以不用理解——畢竟有些人只是「混」飯吃而已!
理解了不會去應用,這就是典型的理論聯系不到實際,他們也不知道自己的代碼將如何控制。我舉一個例子,由於性能等各方面的要求,我們要使用多線程對某些數據進行處理。怎麼處理?不好人會使用多線程——他們定義一個臨界資源,然後讓多個線程在讀取數據表(DataSet)時進行阻塞,然後每個線程去處理那些超時長的問題,處理完的時個再按這種方式讀取數據——這樣有問題嗎?沒有,這也算是演算法的一種!反正如果編程代碼有功底的話沒有任何問題的,這種代碼算不算優雅呢——很多人認為代碼的優雅就是代碼編寫過程的形式或是良好的編程習慣!這里邊其實用不到數據結構與演算法的。
好吧,我承認,但如果我們換一句思路來看看,如果我用一個線程負責讀取數據,並不停地放入到一個隊列中,而多個線程從隊列中不停地讀取處理這些放入的數據,這樣如何?我的意思是說,並沒有直接在DataSet中處理,而是選擇使用隊列的方式。
我們看一個問題,這個隊列Queue<T>,一個線程用來插入數據,多個線程用來讀取數據,而且要保證不能重復,那麼我們可以使用隊列的安全版本(CorrentQueue<T>,在.net中如果非線程安全的情況下,多線程使用實應該找到其對應的安全版本或者控制線程安全)。
插入線程如果發現隊列中的長度(容量)較大時,可以暫緩插入。這樣可以保證隊列的長度基本固定,佔用內存得到控制(不是DataSet批量讀來一大堆),由於使用安全隊列,所以各線程不用考慮線程之間的安全問題,每個線程從隊中獲得數據並刪除,可以保證數據只被處理一次。當然還可以考慮優雅的通知機制,插入線程在插入數據時通知處理線程啟動,如果插入速度過快,發現插入數量達指定的長度(比如30個),停止插入,插入線程阻塞;處理處理再次處理時可通知插入線程再進行插入。
這也算是一種演算法吧?它可以讓插入線程與處理線程同時工作,而使用DataSet那種常規的結果時,只能是等待處理完或加入多個控制條件進行控制,既然這么控制的話,何不直接使用隊列的方式?CorrentQueue<T>中的T也完全可以是一條記錄DataRow嘛!
如果你認為第一種是你經常使用方式,那麼演算法對於你來說學與不學無所謂的,你必須使用自己的編程/調試功底以保證你的代碼盡量很少出錯或不出錯。而如果你認為第二種方案優雅一些的話,那麼你會認為你學習的演算法與結構還是有用的,理論與實踐結合了。
我之所以舉這么一個例子,其實告訴你的無非是幾點非常重要的信息:
你有選擇演算法的自由(只不過是代碼質量、後期維護的問題)
如果你知道的較多的演算法與結構,你會有更多的選擇。
演算法或結構在實際使用中,所謂的典型問題並不是使用場景和書上描述一模一樣(試想一下,我第二種考慮的例子中,是不是跟書上比他不典型?其實也是非常典型的)
分析問題時,應該拿要點,而不是整體去套。(如果整體去套用的話,你肯定會想不到使用哪種結構或演算法)
不管是數據結構/演算法/設計模式都要求是靈活運用,而不是場景對比使用,也不是生搬硬套。
試想一下,你的背包問題,怎麼可能公司也讓你分拆包裝?你的八皇後問題公司恰好讓你下棋?你的貪心演算法公司恰好讓你找零錢?你的回溯演算法公司恰好讓你走迷宮?學不能致用的原因就是太死板——這幾個舉個例子的場景你再遇到或理能遇到的機率是非常小的,所以如果覺得學了沒用,那就真沒用了——只不過不是演算法沒用,而是人沒人!
講個小故事:從前一個家人的板凳壞了,要找一個合適的兩股叉的樹杈重新製做一個板凳腿,讓孩子到樹園里找了半天,孩子回來說「我都沒見過有向下叉的樹杈!他老爹氣得要死——怎麼會可能有向下長的樹杈呢!這孩子是不是笨——你就不會把地刨了找一個向下分叉的樹根!
演算法也是一樣,迷宮找路可以使用回溯演算法,但不是所有的回溯演算法都用於迷宮找路——它還可以用來設計迷宮!嘿嘿嘿!
㈡ 都快2021年了,演算法崗位應該怎樣准備面試
說到演算法崗位,現在網上的第一反應可能就是內卷,演算法崗位也號稱是內卷最嚴重的崗位。針對這個問題,其實之前我也有寫過相關的文章。這個崗位競爭激烈不假,但我個人覺得稱作內卷有些過了。就我個人的感覺,這幾年的一個大趨勢是從迷茫走向清晰。
早在2015年我在阿里媽媽實習的時候,那個時候我覺得其實對於演算法工程師這個崗位的招聘要求甚至包括工作內容其實業內是沒有一個統一的標準的。可以認為包括各大公司其實對這個崗位具體的工作內容以及需要的候選人的能力要求都不太一致,不同的面試官有不同的風格,也有不同的標准。
我舉幾個例子,第一個例子是我當初實習面試的時候,因為是本科生,的確對機器學習這個領域了解非常非常少,可以說是幾乎沒有。但是我依然通過了,通過的原因也很簡單,因為有acm的獲獎背景,面試的過程當中主要也都是一些演算法題,都還算是答得不錯。但是在交叉面試的時候,一位另一個部門的總監就問我有沒有這塊的經驗?我很明確地說了,沒有,但是我願意學。
接著他告訴我,演算法工程師的工作內容主要和機器學習相關,因此機器學習是基本的。當時我就覺得我涼了,然而很意外地是還是通過了面試。
核心能力
由於我已經很久沒有接觸校招了,所以也很難說校招面試應該怎麼樣准備,只能說說如果是我來招聘,我會喜歡什麼樣的學生。也可以理解成我理解的一個合格優秀的演算法工程師應該有的能力。
模型理解
演算法工程師和模型打交道,那麼理解模型是必須的。其實不用說每一個模型都精通,這沒有必要,面試的時候問的模型也不一定用得到。但更多地是看重這個人在學習的時候的習慣,他是淺嘗輒止呢,還是會刨根究底,究竟能夠學到怎樣的地步。
在實際的工作當中我們可能會面臨各種各樣的情況,比如說新加了特徵但是沒有效果,比如升級了模型效果反而變差了等等,這些情況都是有可能發生的。當我們遇到這些情況之後,需要我們根據已知的信息來推理和猜測導致的原因從而針對性的採取相應的手段。因此這就需要我們對當前的模型有比較深入地了解,否則推導原因做出改進也就無從談起。
所以面試的時候問起哪個模型都不重要,重要的是你能不能體現出你有過深入的研究和理解。
數據分析
演算法工程師一直和數據打交道,那麼分析數據、清洗數據、做數據的能力也必不可少。說起來簡單的數據分析,這當中其實牽扯很多,簡單來說至少有兩個關鍵點。
第一個關鍵點是處理數據的能力,比如sql、hive、spark、MapRece這些常用的數據處理的工具會不會,會多少?是一個都不會呢,還是至少會一點。由於各個公司的技術棧不同,一般不會抱著候選人必須剛好會和我們一樣的期待去招人,但是候選人如果一無所知肯定也是不行的。由於學生時代其實很少接觸這種實踐的內容,很多人對這些都一無所知,如果你會一兩個,其實就是加分項。
第二個關鍵點是對數據的理解力,舉個簡單的例子,比如說現在的樣本訓練了模型之後效果不好,我們要分析它的原因,你該怎麼下手?這個問題日常當中經常遇到,也非常考驗演算法工程師對數據的分析能力以及他的經驗。數據是水,模型是船,我們要把船駛向遠方,只懂船隻構造是不行的,還需要對水文、天象也有了解。這樣才能從數據當中捕捉到trick,對一些現象有更深入的看法和理解。
工程能力
雖然是演算法工程師,但是並不代表工程能力不重要,相反工程能力也很重要。當然這往往不會成為招聘的硬性指標, 比如考察你之前做過什麼工程項目之類的。但是會在你的代碼測試環節有所體現,你的代碼風格,你的編碼能力都是你面試的考察點之一。
並不只是在面試當中如此,在實際工作當中,工程能力也很關鍵。往小了說可以開發一些工具、腳本方便自己或者是團隊當中其他人的日常工作,往大了說,你也可以成為團隊當中的開發擔當,負責其團隊當中最工程的工作。比如說復現一篇paper,或者是從頭擼一個模型。這其實也是一種差異化競爭的手段,你合理地負擔起別人負擔不了的工作,那麼自然就會成為你的業績。
時代在變化,行業在發展,如今的校招會問些什麼早已經和當年不同了。但不管怎麼說,這個崗位以及面試官對於人才的核心訴求幾乎是沒有變過的,我們從核心出發去構建簡歷、准備面試,相信一定可以有所收獲。
㈢ java循環越跑越慢為什麼高手進
查詢速度慢的原因很多,常見如下幾種:
1、沒有索引或者沒有用到索引(這是查詢慢最常見的問題,是程序設計的缺陷)
2、I/O吞吐量小,形成了瓶頸效應。
3、沒有創建計算列導致查詢不優化。
4、內存不足
5、網路速度慢
6、查詢出的數據量過大(可以採用多次查詢,其他的方法降低數據量)
7、鎖或者死鎖(這也是查詢慢最常見的問題,是程序設計的缺陷)
8、sp_lock,sp_who,活動的用戶查看,原因是讀寫競爭資源。
9、返回了不必要的行和列
10、查詢語句不好,沒有優化
可以通過如下方法來優化查詢 :
1、把數據、日誌、索引放到不同的I/O設備上,增加讀取速度,以前可以將Tempdb應放在RAID0上,SQL2000不在支持。數據量(尺寸)越大,提高I/O越重要.
2、縱向、橫向分割表,減少表的尺寸(sp_spaceuse)
3、升級硬體
4、根據查詢條件,建立索引,優化索引、優化訪問方式,限制結果集的數據量。注意填充因子要適當(最好是使用默認值0)。索引應該盡量小,使用位元組數小的列建索引好(參照索引的創建),不要對有限的幾個值的欄位建單一索引如性別欄位
5、提高網速;
6、擴大伺服器的內存,Windows 2000和SQL server 2000能支持4-8G的內存。配置首凳虛擬內存:虛擬內存大小應基於計算機上並發運行的服務進行配置。運行 Microsoft SQL Server? 2000 時,可考慮將虛擬內存大小設置為計算機中安裝的物理內存的 1.5 倍。如果另外安裝了全文檢索功能,並打算運行 Microsoft 搜索服務以便執行全文索引和查詢,可考慮:將虛擬內存大小配置為至少是計算機中安裝的物理內存的 3 倍。將 SQL Server max server memory 伺服器配置選項配置為物理內存的 1.5 倍(虛擬內存大小設置的一半)。
7、增加伺服器CPU個數;但是必須明白並行處理串列處理更需要資源例如內存。使用並行還是串列程是緩局MsSQL自動評估選擇的。單個任務分解成多個任務,就可以在處理器上運行。例如耽擱查詢的排序、連接、掃描和GROUP BY字句同時執行,SQL SERVER根據系統的負載情況決定最優的並行等級,復雜的需要消耗大量的CPU的查詢最適合並行處理。但是更新操作UPDATE,INSERT,DELETE還不能並行處理。
8、如果是使用like進行查詢的話,簡單的使用index是不行的,但是全文索引,耗空間。 like 'a%' 使用索引 like '%a'擾芹讓 不使用索引用 like '%a%' 查詢時,查詢耗時和欄位值總長度成正比,所以不能用CHAR類型,而是VARCHAR。對於欄位的值很長的建全文索引。
9、DB Server 和APPLication Server 分離;OLTP和OLAP分離
10、分布式分區視圖可用於實現資料庫伺服器聯合體。聯合體是一組分開管理的伺服器,但它們相互協作分擔系統的處理負荷。這種通過分區數據形成資料庫伺服器聯合體的機制能夠擴大一組伺服器,以支持大型的多層 Web 站點的處理需要。有關更多信息,參見設計聯合資料庫伺服器。(參照SQL幫助文件'分區視圖')
a、在實現分區視圖之前,必須先水平分區表
b、在創建成員表後,在每個成員伺服器上定義一個分布式分區視圖,並且每個視圖具有相同的名稱。這樣,引用分布式分區視圖名的查詢可以在任何一個成員伺服器上運行。系統操作如同每個成員伺服器上都有一個原始表的復本一樣,但其實每個伺服器上只有一個成員表和一個分布式分區視圖。數據的位置對應用程序是透明的。
11、重建索引 DBCC REINDEX ,DBCC INDEXDEFRAG,收縮數據和日誌 DBCC SHRINKDB,DBCC SHRINKFILE. 設置自動收縮日誌.對於大的資料庫不要設置資料庫自動增長,它會降低伺服器的性能。 在T-sql的寫法上有很大的講究,下面列出常見的要點:首先,DBMS處理查詢計劃的過程是這樣的:
1、 查詢語句的詞法、語法檢查
2、 將語句提交給DBMS的查詢優化器
3、 優化器做代數優化和存取路徑的優化
4、 由預編譯模塊生成查詢規劃
5、 然後在合適的時間提交給系統處理執行
6、 最後將執行結果返回給用戶其次,看一下SQL SERVER的數據存放的結構:一個頁面的大小為8K(8060)位元組,8個頁面為一個盤區,按照B樹存放。
12、Commit和rollback的區別 Rollback:回滾所有的事物。 Commit:提交當前的事物. 沒有必要在動態SQL里寫事物,如果要寫請寫在外面如: begin tran exec(@s) commit trans 或者將動態SQL 寫成函數或者存儲過程。
13、在查詢Select語句中用Where字句限制返回的行數,避免表掃描,如果返回不必要的數據,浪費了伺服器的I/O資源,加重了網路的負擔降低性能。如果表很大,在表掃描的期間將表鎖住,禁止其他的聯接訪問表,後果嚴重。
14、SQL的注釋申明對執行沒有任何影響
15、盡可能不使用游標,它佔用大量的資源。如果需要row-by-row地執行,盡量採用非游標技術,如:在客戶端循環,用臨時表,Table變數,用子查詢,用Case語句等等。游標可以按照它所支持的提取選項進行分類: 只進 必須按照從第一行到最後一行的順序提取行。FETCH NEXT 是唯一允許的提取操作,也是默認方式。可滾動性 可以在游標中任何地方隨機提取任意行。游標的技術在SQL2000下變得功能很強大,他的目的是支持循環。有四個並發選項 READ_ONLY:不允許通過游標定位更新(Update),且在組成結果集的行中沒有鎖。 OPTIMISTIC WITH valueS:樂觀並發控制是事務控制理論的一個標准部分。樂觀並發控制用於這樣的情形,即在打開游標及更新行的間隔中,只有很小的機會讓第二個用戶更新某一行。當某個游標以此選項打開時,沒有鎖控制其中的行,這將有助於最大化其處理能力。如果用戶試圖修改某一行,則此行的當前值會與最後一次提取此行時獲取的值進行比較。如果任何值發生改變,則伺服器就會知道其他人已更新了此行,並會返回一個錯誤。如果值是一樣的,伺服器就執行修改。 選擇這個並發選項�OPTIMISTIC WITH ROW VERSIONING:此樂觀並發控制選項基於行版本控制。使用行版本控制,其中的表必須具有某種版本標識符,伺服器可用它來確定該行在讀入游標後是否有所更改。在 SQL Server 中,這個性能由 timestamp 數據類型提供,它是一個二進制數字,表示資料庫中更改的相對順序。每個資料庫都有一個全局當前時間戳值:@@DBTS。每次以任何方式更改帶有 timestamp 列的行時,SQL Server 先在時間戳列中存儲當前的 @@DBTS 值,然後增加 @@DBTS 的值。如果某 個表具有 timestamp 列,則時間戳會被記到行級。伺服器就可以比較某行的當前時間戳值和上次提取時所存儲的時間戳值,從而確定該行是否已更新。伺服器不必比較所有列的值,只需比較 timestamp 列即可。如果應用程序對沒有 timestamp 列的表要求基於行版本控制的樂觀並發,則游標默認為基於數值的樂觀並發控制。 SCROLL LOCKS 這個選項實現悲觀並發控制。在悲觀並發控制中,在把資料庫的行讀入游標結果集時,應用程序將試圖鎖定資料庫行。在使用伺服器游標時,將行讀入游標時會在其上放置一個更新鎖。如果在事務內打開游標,則該事務更新鎖將一直保持到事務被提交或回滾;當提取下一行時,將除去游標鎖。如果在事務外打開游標,則提取下一行時,鎖就被丟棄。因此,每當用戶需要完全的悲觀並發控制時,游標都應在事務內打開。更新鎖將阻止任何其它任務獲取更新鎖或排它鎖,從而阻止其它任務更新該行。然而,更新鎖並不阻止共享鎖,所以它不會阻止其它任務讀取行,除非第二個任務也在要求帶更新鎖的讀取。滾動鎖根據在游標定義的 SELECT 語句中指定的鎖提示,這些游標並發選項可以生成滾動鎖。滾動鎖在提取時在每行上獲取,並保持到下次提取或者游標關閉,以先發生者為准。下次提取時,伺服器為新提取中的行獲取滾動鎖,並釋放上次提取中行的滾動鎖。滾動鎖獨立於事務鎖,並可以保持到一個提交或回滾操作之後。如果提交時關閉游標的選項為關,則 COMMIT 語句並不關閉任何打開的游標,而且滾動鎖被保留到提交之後,以維護對所提取數據的隔離。所獲取滾動鎖的類型取決於游標並發選項和游標 SELECT 語句中的鎖提示。鎖提示 只讀 樂觀數值 樂觀行版本控制 鎖定無提示 未鎖定 未鎖定 未鎖定 更新 NOLOCK 未鎖定 未鎖定 未鎖定 未鎖定 HOLDLOCK 共享 共享 共享 更新 UPDLOCK 錯誤 更新 更新 更新 TABLOCKX 錯誤 未鎖定 未鎖定 更新其它 未鎖定 未鎖定 未鎖定 更新 *指定 NOLOCK 提示將使指定了該提示的表在游標內是只讀的。
16、用Profiler來跟蹤查詢,得到查詢所需的時間,找出SQL的問題所在;用索引優化器優化索引
17、注意UNion和UNion all 的區別。UNION all好
18、注意使用DISTINCT,在沒有必要時不要用,它同UNION一樣會使查詢變慢。重復的記錄在查詢里是沒有問題的
19、查詢時不要返回不需要的行、列
20、用sp_configure 'query governor cost limit'或者SET QUERY_GOVERNOR_COST_LIMIT來限制查詢消耗的資源。當評估查詢消耗的資源超出限制時,伺服器自動取消查詢,在查詢之前就扼殺掉。SET LOCKTIME設置鎖的時間
21、用select top 100 / 10 Percent 來限制用戶返回的行數或者SET ROWCOUNT來限制操作的行
22、在SQL2000以前,一般不要用如下的字句: "IS NULL", "<>", "!=", "!>", "!<", "NOT", "NOT EXISTS", "NOT IN", "NOT LIKE", and "LIKE '%500'",因為他們不走索引全是表掃描。也不要在WHere字句中的列名加函數,如Convert,substring等,如果必須用函數的時候,創建計算列再創建索引來替代.還可以變通寫法:WHERE SUBSTRING(firstname,1,1) = 'm'改為WHERE firstname like 'm%'(索引掃描),一定要將函數和列名分開。並且索引不能建得太多和太大。NOT IN會多次掃描表,使用EXISTS、NOT EXISTS ,IN , LEFT OUTER JOIN 來替代,特別是左連接,而Exists比IN更快,最慢的是NOT操作.如果列的值含有空,以前它的索引不起作用,現在2000的優化器能夠處理了。相同的是IS NULL,"NOT", "NOT EXISTS", "NOT IN"能優化她,而"<>"等還是不能優化,用不到索引。
23、使用Query Analyzer,查看SQL語句的查詢計劃和評估分析是否是優化的SQL。一般的20%的代碼占據了80%的資源,我們優化的重點是這些慢的地方。
24、如果使用了IN或者OR等時發現查詢沒有走索引,使用顯示申明指定索引:
SELECT * FROM PersonMember (INDEX = IX_Title) WHERE processid IN ('男','女')
25、將需要查詢的結果預先計算好放在表中,查詢的時候再SELECT。這在SQL7.0以前是最重要的手段。例如醫院的住院費計算。
26、MIN() 和 MAX()能使用到合適的索引。
27、資料庫有一個原則是代碼離數據越近越好,所以優先選擇Default,依次為Rules,Triggers, Constraint(約束如外健主健CheckUNIQUE……,數據類型的最大長度等等都是約束),Procere.這樣不僅維護工作小,編寫程序質量高,並且執行的速度快。
28、如果要插入大的二進制值到Image列,使用存儲過程,千萬不要用內嵌INsert來插入(不知JAVA是否)。因為這樣應用程序首先將二進制值轉換成字元串(尺寸是它的兩倍),伺服器受到字元後又將他轉換成二進制值.存儲過程就沒有這些動作: 方法:
Create procere p_insert as insert into table(Fimage) values (@image)
在前台調用這個存儲過程傳入二進制參數,這樣處理速度明顯改善。
29、Between在某些時候比IN速度更快,Between能夠更快地根據索引找到范圍。用查詢優化器可見到差別。
select * from chineseresume where title in ('男','女')
Select * from chineseresume where title between '男' and '女'
是一樣的。由於in會在比較多次,所以有時會慢些。
30、在必要是對全局或者局部臨時表創建索引,有時能夠提高速度,但不是一定會這樣,因為索引也耗費大量的資源。他的創建同是實際表一樣。
31、不要建沒有作用的事物例如產生報表時,浪費資源。只有在必要使用事物時使用它。
32、用OR的字句可以分解成多個查詢,並且通過UNION 連接多個查詢。他們的速度只同是否使用索引有關,如果查詢需要用到聯合索引,用UNION all執行的效率更高.多個OR的字句沒有用到索引,改寫成UNION的形式再試圖與索引匹配。一個關鍵的問題是否用到索引。
33、盡量少用視圖,它的效率低。對視圖操作比直接對表操作慢,可以用stored procere來代替她。特別的是不要用視圖嵌套,嵌套視圖增加了尋找原始資料的難度。我們看視圖的本質:它是存放在伺服器上的被優化好了的已經產生了查詢規劃的SQL。對單個表檢索數據時,不要使用指向多個表的視圖,直接從表檢索或者僅僅包含這個表的視圖上讀,否則增加了不必要的開銷,查詢受到干擾.為了加快視圖的查詢,MsSQL增加了視圖索引的功能。
34、沒有必要時不要用DISTINCT和ORDER BY,這些動作可以改在客戶端執行。它們增加了額外的開銷。這同UNION 和UNION ALL一樣的道理。
select top 20 ad.companyname,comid,position,ad.referenceid,worklocation,
convert(varchar(10),ad.postDate,120) as postDate1,workyear,degreedescription FROM
jobcn_query.dbo.COMPANYAD_query ad where referenceID in('JCNAD00329667','JCNAD132168','JCNAD00337748','JCNAD00338345',
'JCNAD00333138','JCNAD00303570','JCNAD00303569',
'JCNAD00303568','JCNAD00306698','JCNAD00231935','JCNAD00231933',
'JCNAD00254567','JCNAD00254585','JCNAD00254608',
'JCNAD00254607','JCNAD00258524','JCNAD00332133','JCNAD00268618',
'JCNAD00279196','JCNAD00268613') order by postdate desc
35、在IN後面值的列表中,將出現最頻繁的值放在最前面,出現得最少的放在最後面,減少判斷的次數。
36、當用SELECT INTO時,它會鎖住系統表(sysobjects,sysindexes等等),阻塞其他的連接的存取。創建臨時表時用顯示申明語句,而不是
select INTO. drop table t_lxh begin tran select * into t_lxh from chineseresume
where name = 'XYZ' --commit
在另一個連接中SELECT * from sysobjects可以看到 SELECT INTO 會鎖住系統表,Create table 也會鎖系統表(不管是臨時表還是系統表)。所以千萬不要在事物內使用它!!!這樣的話如果是經常要用的臨時表請使用實表,或者臨時表變數。
37、一般在GROUP BY 個HAVING字句之前就能剔除多餘的行,所以盡量不要用它們來做剔除行的工作。他們的執行順序應該如下最優:select 的Where字句選擇所有合適的行,Group By用來分組個統計行,Having字句用來剔除多餘的分組。這樣Group By 個Having的開銷小,查詢快.對於大的數據行進行分組和Having十分消耗資源。如果Group BY的目的不包括計算,只是分組,那麼用Distinct更快
38、一次更新多條記錄比分多次更新每次一條快,就是說批處理好
39、少用臨時表,盡量用結果集和Table類性的變數來代替它,Table 類型的變數比臨時表好
40、在SQL2000下,計算欄位是可以索引的,需要滿足的條件如下:
a、計算欄位的表達是確定的
b、不能用在TEXT,Ntext,Image數據類型
c、必須配製如下選項 ANSI_NULLS = ON, ANSI_PADDINGS = ON, …….
41、盡量將數據的處理工作放在伺服器上,減少網路的開銷,如使用存儲過程。存儲過程是編譯好、優化過、並且被組織到一個執行規劃里、且存儲在資料庫中的SQL語句,是控制流語言的集合,速度當然快。反復執行的動態SQL,可以使用臨時存儲過程,該過程(臨時表)被放在Tempdb中。以前由於SQL SERVER對復雜的數學計算不支持,所以不得不將這個工作放在其他的層上而增加網路的開銷。SQL2000支持UDFs,現在支持復雜的數學計算,函數的返回值不要太大,這樣的開銷很大。用戶自定義函數象游標一樣執行的消耗大量的資源,如果返回大的結果採用存儲過程
42、不要在一句話里再三的使用相同的函數,浪費資源,將結果放在變數里再調用更快
43、SELECT COUNT(*)的效率教低,盡量變通他的寫法,而EXISTS快.同時請注意區別: select count(Field of null) from Table 和 select count(Field of NOT null) from Table 的返回值是不同的!!!
44、當伺服器的內存夠多時,配製線程數量 = 最大連接數+5,這樣能發揮最大的效率;否則使用 配製線程數量<最大連接數啟用SQL SERVER的線程池來解決,如果還是數量 = 最大連接數+5,嚴重的損害伺服器的性能。
45、按照一定的次序來訪問你的表。如果你先鎖住表A,再鎖住表B,那麼在所有的存儲過程中都要按照這個順序來鎖定它們。如果你(不經意的)某個存儲過程中先鎖定表B,再鎖定表A,這可能就會導致一個死鎖。如果鎖定順序沒有被預先詳細的設計好,死鎖很難被發現
46、通過SQL Server Performance Monitor監視相應硬體的負載 Memory: Page Faults / sec計數器如果該值偶爾走高,表明當時有線程競爭內存。如果持續很高,則內存可能是瓶頸。
Process:
1、% DPC Time 指在範例間隔期間處理器用在緩延程序調用(DPC)接收和提供服務的百分比。(DPC 正在運行的為比標准間隔優先權低的間隔)。 由於 DPC 是以特權模式執行的,DPC 時間的百分比為特權時間 百分比的一部分。這些時間單獨計算並且不屬於間隔計算總數的一部 分。這個總數顯示了作為實例時間百分比的平均忙時。
2、%Processor Time計數器 如果該參數值持續超過95%,表明瓶頸是CPU。可以考慮增加一個處理器或換一個更快的處理器。
3、% Privileged Time 指非閑置處理器時間用於特權模式的百分比。(特權模式是為操作系統組件和操縱硬體驅動程序而設計的一種處理模式。它允許直接訪問硬體和所有內存。另一種模式為用戶模式,它是一種為應用程序、環境分系統和整數分系統設計的一種有限處理模式。操作系統將應用程序線程轉換成特權模式以訪問操作系統服務)。 特權時間的 % 包括為間斷和 DPC 提供服務的時間。特權時間比率高可能是由於失敗設備產生的大數量的間隔而引起的。這個計數器將平均忙時作為樣本時間的一部分顯示。
4、% User Time表示耗費CPU的資料庫操作,如排序,執行aggregate functions等。如果該值很高,可考慮增加索引,盡量使用簡單的表聯接,水平分割大表格等方法來降低該值。 Physical Disk: Curretn Disk Queue Length計數器該值應不超過磁碟數的1.5~2倍。要提高性能,可增加磁碟。 SQLServer:Cache Hit Ratio計數器該值越高越好。如果持續低於80%,應考慮增加內存。 注意該參數值是從SQL Server啟動後,就一直累加記數,所以運行經過一段時間後,該值將不能反映系統當前值。
47、分析select emp_name form employee where salary > 3000 在此語句中若salary是Float類型的,則優化器對其進行優化為Convert(float,3000),因為3000是個整數,我們應在編程時使用3000.0而不要等運行時讓DBMS進行轉化。同樣字元和整型數據的轉換。
48、查詢的關聯同寫的順序
select a.personMemberID, * from chineseresume a,personmember b where personMemberID
= b.referenceid and a.personMemberID = 'JCNPRH39681' (A = B ,B = '號碼')
select a.personMemberID, * from chineseresume a,personmember b where a.personMemberID
= b.referenceid and a.personMemberID = 'JCNPRH39681' and b.referenceid = 'JCNPRH39681' (A = B ,B = '號碼', A = '號碼')
select a.personMemberID, * from chineseresume a,personmember b where b.referenceid
= 'JCNPRH39681' and a.personMemberID = 'JCNPRH39681' (B = '號碼', A = '號碼')
49、
(1)IF 沒有輸入負責人代碼 THEN code1=0 code2=9999 ELSE code1=code2=負責人代碼 END IF 執行SQL語句為: SELECT 負責人名 FROM P2000 WHERE 負責人代碼>=:code1 AND負責人代碼 <=:code2
(2)IF 沒有輸入負責人代碼 THEN SELECT 負責人名 FROM P2000 ELSE code= 負責人代碼 SELECT 負責人代碼 FROM P2000 WHERE 負責人代碼=:code END IF 第一種方法只用了一條SQL語句,第二種方法用了兩條SQL語句。在沒有輸入負責人代碼時,第二種方法顯然比第一種方法執行效率高,因為它沒有限制條件;在輸入了負責人代碼時,第二種方法仍然比第一種方法效率高,不僅是少了一個限制條件,還因相等運算是最快的查詢運算。我們寫程序不要怕麻煩
50、關於JOBCN現在查詢分頁的新方法(如下),用性能優化器分析性能的瓶頸,如果在I/O或者網路的速度上,如下的方法優化切實有效,如果在CPU或者內存上,用現在的方法更好。請區分如下的方法,說明索引越小越好。
begin
DECLARE @local_variable table (FID int identity(1,1),ReferenceID varchar(20))
insert into @local_variable (ReferenceID)
select top 100000 ReferenceID from chineseresume order by ReferenceID
select * from @local_variable where Fid > 40 and fid <= 60
end
和
begin
DECLARE @local_variable table (FID int identity(1,1),ReferenceID varchar(20))
insert into @local_variable (ReferenceID)
select top 100000 ReferenceID from chineseresume order by updatedate
select * from @local_variable where Fid > 40 and fid <= 60
end
的不同
begin
create table #temp (FID int identity(1,1),ReferenceID varchar(20))
insert into #temp (ReferenceID)
select top 100000 ReferenceID from chineseresume order by updatedate
select * from #temp where Fid > 40 and fid <= 60 drop table #temp
end
㈣ 求資料庫應用題
資料庫語言的目標
要說清這個目標,先要理解資料庫是做什麼的。
資料庫這個軟體,名字中有個「庫」字,會讓人覺得它主要是為了存儲的。其實不然,資料庫實現的重要功能有兩條:計算、事務!也就是我們常說的 OLAP 和 OLTP,資料庫的存儲都是為這兩件事服務的,單純的存儲並不是資料庫的目標。
我們知道,SQL 是目前資料庫的主流語言。那麼,用 SQL 做這兩件事是不是很方便呢?
事務類功能主要解決數據在寫入和讀出時要保持的一致性,實現這件事的難度並不小,但對於應用程序的介面卻非常簡單,用於操縱資料庫讀寫的代碼也很簡單。如果假定目前關系資料庫的邏輯存儲模式是合理的(也就是用數據表和記錄來存儲數據,其合理性與否是另一個復雜問題,不在這里展開了),那麼 SQL 在描述事務類功能時沒什麼大問題,因為並不需要描述多復雜的動作,復雜性都在資料庫內部解決了。
但計算類功能卻不一樣了。
這里說的計算是個更廣泛的概念,並不只是簡單的加加減減,查找、關聯都可以看成是某種計算。
什麼樣的計算體系才算好呢?
還是兩條:寫著簡單、跑得快。
寫著簡單,很好理解,就是讓程序員很快能寫出來代碼來,這樣單位時間內可以完成更多的工作;跑得快就更容易理解,我們當然希望更短時間內獲得計算結果。
其實 SQL 中的 Q 就是查詢的意思,發明它的初衷主要是為了做查詢(也就是計算),這才是 SQL 的主要目標。然而,SQL 在描述計算任務時,卻很難說是很勝任的。
SQL為什麼不行
先看寫著簡單的問題。
SQL 寫出來很象英語,有些查詢可以當英語來讀和寫(網上多得很,就不舉例了),這應當算是滿足寫著簡單這一條了吧。
且慢!我們在教科書上看到的 SQL 經常只有兩三行,這些 SQL 確實算是寫著簡單的,但如果我們嘗試一些稍復雜化的問題呢?
這是一個其實還不算很復雜的例子:計算一支股票最長連續上漲了多少天?用 SQL 寫出來是這樣的:
- selectmax(consecutive_day)from(selectcount(*) (consecutive_dayfrom(selectsum(rise_mark) over(orderbytrade_date) days_no_gainfrom(selecttrade_date,case when closing_price>lag(closing_price) over(order by trade_date)then 0 else 1 END rise_markfrom stock_price ) )group by days\_no\_gain)
- SELECTTOP 10x FROMT ORDERBYx DESC
- stock_price.sort(trade_date).group@o(closing_price
- T.groups(;top(-10,x))
這個語句的工作原理就不解釋了,反正有點繞,同學們可以自己嘗試一下。
這是潤乾公司的招聘考題,通過率不足 20%;因為太難,後來被改成另一種方式:把 SQL 語句寫出來讓應聘者解釋它在算什麼,通過率依然不高。
這說明什麼?說明情況稍有復雜,SQL 就變得即難懂又難寫!
再看跑得快的問題,還是一個經常拿出來的簡單例子:1 億條數據中取前 10 名。這個任務用 SQL 寫出來並不復雜:
但是,這個語句對應的執行邏輯是先對所有數據進行大排序,然後再取出前 10 個,後面的不要了。大家知道,排序是一個很慢的動作,會多次遍歷數據,如果數據量大到內存裝不下,那還需要外存做緩存,性能還會進一步急劇下降。如果嚴格按這句 SQL 體現的邏輯去執行,這個運算無論如何是跑不快的。然而,很多程序員都知道這個運算並不需要大排序,也用不著外存緩存,一次遍歷用一點點內存就可以完成,也就是存在更高性能的演算法。可惜的是,用 SQL 卻寫不出這樣的演算法,只能寄希望於資料庫的優化器足夠聰明,能把這句 SQL 轉換成高性能演算法執行,但情況復雜時資料庫的優化器也未必靠譜。
看樣子,SQL 在這兩方面做得都不夠好。這兩個並不復雜的問題都是這樣,現實中數千行的 SQL 代碼中,這種難寫且跑不快的情況比比皆是。
為什麼 SQL 不行呢?
要回答這個問題,我們要分析一下用程序代碼實現計算到底是在干什麼。
本質上講,編寫程序的過程,就是把解決問題的思路翻譯成計算機可執行的精確化形式語言的過程。舉例來說,就象小學生解應用題,分析問題想出解法之後,還要列出四則運算表達式。用程序計算也是一樣,不僅要想出解決問題的方法,還要把解法翻譯成計算機能理解執行的動作才算完成。
用於描述計算方法的形式語言,其核心在於所採用的代數體系。所謂代數體系,簡單說就是一些數據類型和其上的運算規則,比如小學學到的算術,就是整數和加減乘除運算。有了這套東西,我們就能把想做的運算用這個代數體系約定的符號寫出來,也就是代碼,然後計算機就可以執行了。
如果這個代數體系設計時考慮不周到,提供的數據類型和運算不方便,那就會導致描述演算法非常困難。這時候會發生一個怪現象:翻譯解法到代碼的難度遠遠超過解決問題本身。
舉個例子,我們從小學慣用阿拉伯數字做日常計算,做加減乘除都很方便,所有人都天經地義認為數值運算就該是這樣的。其實未必!估計很多人都知道還有一種叫做羅馬數字的東西,你知道用羅馬數字該怎麼做加減乘除嗎?古羅馬人又是如何上街買菜的?
代碼難寫很大程度是代數的問題。
再看跑不快的原因。
軟體沒辦法改變硬體的性能,CPU 和硬碟該多快就是多快。不過,我們可以設計出低復雜度的演算法,也就是計算量更小的演算法,這樣計算機執行的動作變少,自然也就會快了。但是,光想出演算法還不夠,還要把這個演算法用某種形式語言寫得出來才行,否則計算機不會執行。而且,寫起來還要比較簡單,都要寫很長很麻煩,也沒有人會去用。所以呢,對於程序來講,跑得快和寫著簡單其實是同一個問題,背後還是這個形式語言採用的代數的問題。如果這個代數不好,就會導致高性能演算法很難實現甚至實現不了,也就沒辦法跑得快了。就象上面說的,用 SQL 寫不出我們期望的小內存單次遍歷演算法,能不能跑得快就只能寄希望於優化器。
我們再做個類比:
上過小學的同學大概都知道高斯計算 1+2+3+…+100 的小故事。普通人就是一步步地硬加 100 次,高斯小朋友很聰明,發現 1+100=101、2+99=101、…、50+51=101,結果是 50 乘 101,很快算完回家午飯了。
聽過這個故事,我們都會感慨高斯很聰明,能想到這么巧妙的辦法,即簡單又迅速。這沒有錯,但是,大家容易忽略一點:在高斯的時代,人類的算術體系(也是一個代數)中已經有了乘法!象前面所說,我們從小學習四則運算,會覺得乘法是理所當然的,然而並不是!乘法是後於加法被發明出來的。如果高斯的年代還沒有乘法,即使有聰明的高斯,也沒辦法快速解決這個問題。
目前主流資料庫是關系資料庫,之所以這么叫,是因為它的數學基礎被稱為關系代數,SQL 也就是關系代數理論上發展出來的形式語言。
現在我們能回答,為什麼 SQL 在期望的兩個方面做得不夠好?問題出在關系代數上,關系代數就像一個只有加法還沒發明乘法的算術體系,很多事做不好是必然的。
關系代數已經發明五十年了,五十年前的應用需求以及硬體環境,和今天比的差異是很巨大了,繼續延用五十年前的理論來解決今天的問題,聽著就感覺太陳舊了?然而現實就是這樣,由於存量用戶太多,而且也還沒有成熟的新技術出現,基於關系代數的 SQL,今天仍然是最重要的資料庫語言。雖然這幾十年來也有一些改進完善,但根子並沒有變,面對當代的復雜需求和硬體環境,SQL 不勝任也是情理之中的事。
而且,不幸的是,這個問題是理論上的,在工程上無論如何優化也無濟於事,只能有限改善,不能根除。不過,絕大部分的資料庫開發者並不會想到這一層,或者說為了照顧存量用戶的兼容性,也沒打算想到這一層。於是,主流資料庫界一直在這個圈圈裡打轉轉。
SPL為什麼能行
那麼該怎樣讓計算寫著更簡單、跑得更快呢?
發明新的代數!有「乘法」的代數。在其基礎上再設計新的語言。
這就是 SPL 的由來。它的理論基礎不再是關系代數,稱為離散數據集。基於這個新代數設計的形式語言,起名為SPL(Structured Process Language)。
SPL 針對 SQL 的不足(更確切地說法是,離散數據集針對關系代數的各種缺陷)進行了革新。SPL 重新定義了並擴展許多結構化數據中的運算,增加了離散性、強化了有序計算、實現了徹底的集合化、支持對象引用、提倡分步運算。
限於篇幅,這里不能介紹 SPL(離散數據集)的全貌。我們在這里列舉 SPL(離散數據集)針對 SQL(關系代數)的部分差異化改進:
游離記錄
離散數據集中的記錄是一種基本數據類型,它可以不依賴於數據表而獨立存在。數據表是記錄構成的集合,而構成某個數據表的記錄還可以用於構成其它數據表。比如過濾運算就是用原數據表中滿足條件的記錄構成新數據表,這樣,無論空間佔用還是運算性能都更有優勢。
關系代數沒有可運算的數據類型來表示記錄,單記錄實際上是只有一行的數據表,不同數據表中的記錄也不能共享。比如,過濾運算時會復制出新記錄來構成新數據表,空間和時間成本都變大。
特別地,因為有游離記錄,離散數據集允許記錄的欄位取值是某個記錄,這樣可以更方便地實現外鍵連接。
有序性
關系代數是基於無序集合設計的,集合成員沒有序號的概念,也沒有提供定位計算以及相鄰引用的機制。SQL 實踐時在工程上做了一些局部完善,使得現代 SQL 能方便地進行一部分有序運算。
離散數據集中的集合是有序的,集合成員都有序號的概念,可以用序號訪問成員,並定義了定位運算以返回成員在集合中的序號。離散數據集提供了符號以在集合運算中實現相鄰引用,並支持針對集合中某個序號位置進行計算。
有序運算很常見,卻一直是 SQL 的困難問題,即使在有了窗口函數後仍然很繁瑣。SPL 則大大改善了這個局面,前面那個股票上漲的例子就能說明問題。
離散性與集合化
關系代數中定義了豐富的集合運算,即能將集合作為整體參加運算,比如聚合、分組等。這是 SQL 比 Java 等高級語言更為方便的地方。
但關系代數的離散性非常差,沒有游離記錄。而 Java 等高級語言在這方面則沒有問題。
離散數據集則相當於將離散性和集合化結合起來了,既有集合數據類型及相關的運算,也有集合成員游離在集合之外單獨運算或再組成其它集合。可以說 SPL 集中了 SQL 和 Java 兩者的優勢。
有序運算是典型的離散性與集合化的結合場景。次序的概念只有在集合中才有意義,單個成員無所謂次序,這里體現了集合化;而有序計算又需要針對某個成員及其相鄰成員進行計算,需要離散性。
在離散性的支持下才能獲得更徹底的集合化,才能解決諸如有序計算類型的問題。
離散數據集是即有離散性又有集合化的代數體系,關系代數只有集合化。
分組理解
分組運算的本意是將一個大集合按某種規則拆成若干個子集合,關系代數中沒有數據類型能夠表示集合的集合,於是強迫在分組後做聚合運算。
離散數據集中允許集合的集合,可以表示合理的分組運算結果,分組和分組後的聚合被拆分成相互獨立的兩步運算,這樣可以針對分組子集再進行更復雜的運算。
關系代數中只有一種等值分組,即按分組鍵值劃分集合,等值分組是個完全劃分。
離散數據集認為任何拆分大集合的方法都是分組運算,除了常規的等值分組外,還提供了與有序性結合的有序分組,以及可能得到不完全劃分結果的對位分組。
聚合理解
關系代數中沒有顯式的集合數據類型,聚合計算的結果都是單值,分組後的聚合運算也是這樣,只有 SUM、COUNT、MAX、MIN 等幾種。特別地,關系代數無法把 TOPN 運算看成是聚合,針對全集的 TOPN 只能在輸出結果集時排序後取前 N 條,而針對分組子集則很難做到 TOPN,需要轉變思路拼出序號才能完成。
離散數據集提倡普遍集合,聚合運算的結果不一定是單值,仍然可能是個集合。在離散數據集中,TOPN 運算和 SUM、COUNT 這些是地位等同的,即可以針對全集也可以針對分組子集。
SPL 把 TOPN 理解成聚合運算後,在工程實現時還可以避免全量數據的排序,從而獲得高性能。而 SQL 的 TOPN 總是伴隨 ORDER BY 動作,理論上需要大排序才能實現,需要寄希望於資料庫在工程實現時做優化。
有序支持的高性能
離散數據集特別強調有序集合,利用有序的特徵可以實施很多高性能演算法。這是基於無序集合的關系代數無能為力的,只能寄希望於工程上的優化。
下面是部分利用有序特徵後可以實施的低復雜度運算:
1) 數據表對主鍵有序,相當於天然有一個索引。對鍵欄位的過濾經常可以快速定位,以減少外存遍歷量。隨機按鍵值取數時也可以用二分法定位,在同時針對多個鍵值取數時還能重復利用索引信息。
2) 通常的分組運算是用 HASH 演算法實現的,如果我們確定地知道數據對分組鍵值有序,則可以只做相鄰對比,避免計算 HASH 值,也不會有 HASH 沖突的問題,而且非常容易並行。
3) 數據表對鍵有序,兩個大表之間對位連接可以執行更高性能的歸並演算法,只要對數據遍歷一次,不必緩存,對內存佔用很小;而傳統的 HASH 值分堆方法不僅比較復雜度高,需要較大內存並做外部緩存,還可能因 HASH 函數不當而造成二次 HASH 再緩存。
4) 大表作為外鍵表的連接。事實表小時,可以利用外鍵表有序,快速從中取出關聯鍵值對應的數據實現連接,不需要做 HASH 分堆動作。事實表也很大時,可以將外鍵表用分位點分成多個邏輯段,再將事實表按邏輯段進行分堆,這樣只需要對一個表做分堆,而且分堆過程中不會出現 HASH 分堆時的可能出現的二次分堆,計算復雜度能大幅下降。
其中 3 和 4 利用了離散數據集對連接運算的改造,如果仍然延用關系代數的定義(可能產生多對多),則很難實現這種低復雜的演算法。
除了理論上的差異, SPL 還有許多工程層面的優勢,比如更易於編寫並行代碼、大內存預關聯提高外鍵連接性能等、特有的列存機制以支持隨意分段並行等。
再把前面的問題用 SPL 重寫一遍有個直接感受。
一支股票最長連續上漲多少天:
計算思路和前面的 SQL 相同,但因為引入了有序性後,表達起來容易多了,不再繞了。
1 億條數據中取前 10 名:
SPL 有更豐富的集合數據類型,容易描述單次遍歷上實施簡單聚合的高效演算法,不涉及大排序動作。
這里還有更多 SPL 代碼以體現其思路及大數據演算法:
重磅!開源SPL交流群成立了
簡單好用的SPL開源啦!
為了給感興趣的小夥伴們提供一個相互交流的平台,
特地開通了交流群(群完全免費,不廣告不賣課)
需要進群的朋友,可長按掃描下方二維碼