gpu伺服器搭建
『壹』 普通計算機和大型伺服器的GPU溫度測量原理(硬體)
深度學習GPU工作站/伺服器硬體配置方案
I
市場上用於深度學習訓練計算機大致情況如下:
(1)伺服器/工作站(支持2、4、8塊GPU架構):普遍存在噪音大,無法放置於辦公環境,必須放到專門的機房,維護成本高,另外數據存儲帶寬、延遲、容量也不盡如意。
(2)分布式集群架構:性能強大,但是開發成本太高(太貴),是大多數科研單位及個人無法承受。
(3)組裝電腦:這類特點是價格便宜,但是在散熱和功率方面依然是普通家用/游戲電腦標准,穩定性巨差。
(4)大部分GPU計算機(伺服器/工作站):重點都放在GPU卡數量上,似乎只要配上足夠GPU卡,就可以了。
然而,機器硬體配置還需要整體均衡,不同的學習框架更需要不同GPU卡去適配。
主流學習框架
主流框架加速效能
上圖是不同的DL框架加速效能(NVIDIA GP100為例),不同的框架並不是GPU越多效能就越高。
深度學習計算密集,所以需要一個快速多核CPU,對吧?!
聽說深度學習有很多顯卡就可以了,一個高速CPU可能是種浪費?!
搭建一個深度學習系統時,最糟糕的事情之一就是把錢浪費在並非必需的硬體上。
一個高性能且經濟的深度學習系統所需的硬體到底要如何配置?!
一. 深度學習計算特點與硬體配置分析:
深度學習計算特點
1.數據存儲要求
在一些深度學習案例中,數據存儲會成為明顯的瓶頸。做深度學習首先需要一個好的存儲系統,將歷史資料保存起來。
主要任務:歷史數據存儲,如:文字、圖像、聲音、視頻、資料庫等。
數據容量:提供足夠高的存儲能力。
讀寫帶寬:多硬碟並行讀寫架構提高數據讀寫帶寬。
介面:高帶寬,同時延遲低。
傳統解決方式:專門的存儲伺服器,藉助萬兆埠訪問。
缺點:帶寬不高,對深度學習的數據讀取過程時間長(延遲大,兩台機器之間數據交換),成本還巨高。
UltraLA解決方案:
將並行存儲直接通過PCIe介面,提供最大16個硬碟的並行讀取,數據量大並行讀取要求高,無論是匯流排還是硬碟並行帶寬,都得到加大提升,滿足海量數據密集I/O請求和計算需要。
2. CPU要求
如今深度學習CPU似乎不那麼重要了,因為我們都在用GPU,為了能夠明智地選擇CPU我們首先需要理解CPU,以及它是如何與深度學習相關聯的,CPU能為深度學習做什麼呢?當你在GPU上跑深度網路時,CPU進行的計算很少,但是CPU仍然需要處理以下事情:
(1)數據從存儲系統調入到內存的解壓計算。
(2)GPU計算前的數據預處理。
(3)在代碼中寫入並讀取變數,執行指令如函數調用,創建小批量數據,啟動到GPU的數據傳輸。
(4)GPU多卡並行計算前,每個核負責一塊卡的所需要的數據並行切分處理和控制。
(5)增值幾個變數、評估幾個布爾表達式、在GPU或在編程裡面調用幾個函數——所有這些會取決於CPU核的頻率,此時唯有提升CPU頻率。
傳統解決方式:CPU規格很隨意,核數和頻率沒有任何要求。
UltraLA解決方案:
CPU頻率盡量高
CPU三級緩存盡量大(有必要科普一下CPU緩存)
「這是個經常被忽視的問題,但是通常來說,它在整個性能問題中是非常重要的一部分。CPU緩存是容量非常小的直接位於CPU晶元上的存儲,物理位置非常接近CPU,能夠用來進行高速計算和操作。CPU通常有緩存分級,從小型高速緩存(L1,L2)到低速大型緩存(L3,L4)。作為一個程序員,你可以將它想成一個哈希表,每條數據都是一個鍵值對(key-value-pair),可以高速的基於特定鍵進行查找:如果找到,就可以在緩存得值中進行快速讀取和寫入操作;如果沒有找到(被稱為緩存未命中),CPU需要等待RAM趕上,之後再從內存進行讀值——一個非常緩慢的過程。重復的緩存未命中會導致性能的大幅下降。有效的CPU緩存方案與架構對於CPU性能來說非常關鍵。深度學習代碼部分——如變數與函數調用會從緩存中直接受益。」
CPU核數:比GPU卡數量大(原則:1核對應1卡,核數要有至少2個冗餘)。
3. GPU要求
如果你正在構建或升級你的深度學習系統,你最關心的應該也是GPU。GPU正是深度學習應用的核心要素——計算性能提升上,收獲巨大。
主要任務:承擔深度學習的數據建模計算、運行復雜演算法。
傳統架構:提供1~8塊GPU。
UltraLA解決方案:
數據帶寬:PCIe8x 3.0以上。
數據容量:顯存大小很關鍵。
深度學習框架匹配:CPU核-GPU卡 1對1。
GPU卡加速:多卡提升並行處理效率。
4.內存要求
至少要和你的GPU顯存存大小相同的內存。當然你也能用更小的內存工作,但是,你或許需要一步步轉移數據。總而言之,如果錢夠,而且需要做很多預處理,就不必在內存瓶頸上兜轉,浪費時間。
主要任務:存放預處理的數據,待GPU讀取處理,中間結果存放。
UltraLA解決方案:
數據帶寬最大化:單Xeon E5v4 4通道內存,雙XeonE5v4 8通道內存,內存帶寬最大化。
內存容量合理化:大於GPU總顯存。
說了那麼多,到底該如何配置深度學習工作站,下面是干貨來襲~
二. 深度學習工作站介紹與配置推薦
1. UltraLABGX370i-科研型
UltraLAB GX370i-科研型
硬體架構:4核4.7GHz~5.0GHz+4塊GPU+64GB內存+4塊硬碟(最大)
機器特點:高性價比,最快預處理和GPU超算架構
數據規模:小規模
2. UltraLABGX490i-高效型
硬體架構:配置10核4.5GHz+4塊GPU+128GB+4塊硬碟(最大)
機器特點:較GX360i,CPU核數和內存容量提升
數據規模:中小規模
UltraLAB GX490i基準配置
3. UltraLABGX490M-高性能型
硬體架構:配置6核4.5GHz/8核4.3GHz/10核4.3GHz+最大7塊GPU+256GB+20盤位並行存儲
機器特點:GPU數量支持到7塊,支持海量數據並行存儲
數據規模:中大規模
4. UltraLABGX620M-超級型
UltraLAB GX620M
硬體架構:雙Xeon可擴展處理器(最大56核,最高3.8GHz)+最大9塊GPU+20盤位並行存
機器特點:目前最強大的CPU+GPU異構計算
數據規模:建模與模擬計算、高性能科學計算、機器/深度學習
UltraLAB GX620M基準配置
UltraLAB深度學習工作站特點:
(1)種類豐富: GX370i(1C4G), GX490i(1C4G) --科研型,GX490M(1C7G)、GX620M(2C9G)--超級型。
(2)性能特點:超高頻+多GPU+海量高速存儲+靜音級=最完美強大DL硬體平台。
(3)應用平台:完美支持TensorFlow,Caffe,Torch,DIGITS,
『貳』 如何選擇合適的伺服器
肯定是根據自身的實際情況選擇
『叄』 cuda error out of memory 怎麼解決
今天剛把伺服器搭建起來 結果程序就跑不起來 當時差點把自己嚇尿了
錯誤類型:CUDA_ERROE_OUT_OF_MEMORY
E tensorflow/stream_executor/cuda/cuda_driver.cc:924] failed to alloc 17179869184 bytes on host: CUDA_ERROR_OUT_OF_MEMORY
W ./tensorflow/core/common_runtime/gpu/pool_allocator.h:195] could not allocate pinned host memory of size: 17179869184
Killed
其實很容易理解 大致意思就是 伺服器的GPU大小為M
tensorflow只能申請N(N<M)
也就是tensorflow告訴你 不能申請到GPU的全部資源 然後就不幹了
解決方法:
找到代碼中Session
在session定義前 增加
config = tf.ConfigProto(allow_soft_placement=True)
#最多佔gpu資源的70%
gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.7)
#開始不會給tensorflow全部gpu資源 而是按需增加
config.gpu_options.allow_growth = True
sess = tf.Session(config=config)
這樣就沒問題了
其實tensorflow 算是一個比較貪心的工具了
就算用device_id指定gpu 也會佔用別的GPU的顯存資源 必須在執行程序前
執行 export CUDA_VISIBLE_DEVICES=n(n為可見的伺服器編號)
再去執行Python 代碼.py 才不會佔用別的GPU資源
最近剛開始搞tensorflow 之前都是caffe
這周連續3天被實驗室的人 舉報 佔用過多伺服器資源 真是心累 只要用上面的方法
也就是執行代碼前 執行 export CUDA_VISIBLE_DEVICES=n
只讓1個或者個別GPU可見 其他GPU看不見 就行了
『肆』 深圳買AI伺服器哪裡比較方便
AI伺服器與普通的GPU伺服器雖然組成上類似,核心計算部件都是GPU加速卡,但是不可等同,主要有以下幾點區別:
1)卡的數量不一致:普通的GPU伺服器一般是單卡或者雙卡,AI伺服器需要承擔大量的計算,一般配置四塊GPU卡以上,甚至要搭建AI伺服器集群。
2)P2P通訊:普通GPU伺服器要求的是單卡性能,AI訓練中GPU卡間需要大量的參數通信,模型越復雜,通信量越大,所以AI伺服器除了要求單卡性能外,還要求多卡間的通訊性能,採用PCI3.0協議通信的最大P2P帶寬達到32GB/s,採用SXM2協議通信的最大P2P帶寬達到50GB/s,採用SXM3協議通信的最大P2P帶寬達到300GB/s。
3)獨特設計:AI伺服器由於有了多個GPU卡,需要針對性的對於系統結構、散熱、拓撲等做專門的設計,才能滿足AI伺服器長期穩定運行的要求。
4)先進技術:AI伺服器有很多更先進的技術,包括Purley平台更大內存帶寬,NVlink提供更大的互聯帶寬,TensorCore提供更強的AI計算力。
AI伺服器的誕生是由於浪潮對於AI行業和應用的深刻理解。浪潮開發的面向開發人員和運維人員的深度學習管理平台AIStation,多機多卡的深度學習框架Caffe-MPI,輔助調優工具Teye等軟實力與硬體研發的硬實力耦合,相互促進,更好地發揮AI伺服器的性能,從而為客戶提供完整端到端的解決方案。
『伍』 怎麼選擇伺服器配置
看需求了,要看網站的規模,網站的日均流量等等來選擇的,如果是前期的小站,或者流量不會集中很高的企業站,就不需要很高配置的伺服器了,一般1核2g 1m的就夠用。
嘗試根據下面四個問題來評估自己的需求:
1. 伺服器運行什麼應用?
2. 需要支持多少用戶訪問?
3. 需要多大空間來存儲數據?
4. 我的業務有多重要?
首先得弄明白自己租用伺服器用來干什麼放網站、應用運行或者是用來搭建區域網和放置游戲等,都有一個自己的用途,弄明白用伺服器是用來幹嘛的,就可以很明確的知道自己需要的是哪種類型的伺服器
2.伺服器的價格
伺服器的價格呢主要是看伺服器的配置,例如高防伺服器,每個人對高防伺服器的需求不同價格也會不同比如有的需要防禦值更高的有的需要帶寬很大的還有的對CPU以及硬碟有要求,所以在選擇伺服器的時候要明白自己需要哪種配置,然後再根據配置決定自己的價格預算
3.伺服器商的選擇
現在國內伺服器商現在有很多,在選擇伺服器商的時候也要認真辨別,現在有的小伺服器上用虛擬主機冒充獨立主機但是價格呢卻是按照獨立主機的價格收,如果是需要租賃獨立主機那麼久一定要辨別清楚了,因為這兩者差異還是比較大的
4.售後服務
再選擇好伺服器租賃商後還要考慮是否能提供7*24小時的售後技術支持,如果不能提供24小時的售後技術支持的話那麼就要慎重考慮了,因為伺服器在運行中誰都不能保證會不會出問題,如果使用期間出了問題伺服器商必須能及時處理,這樣才能保證不會給自己造成太大損失。
從你的需求來看,國內選擇那幾個比較大的商家合適,至於名字和具體配置選擇也是一門學問,老魏會幫助你提供參考意見。
『陸』 GPU伺服器與傳統伺服器的區別
建議用高配E5-2670 16線程32G內存 240G固態硬碟 贈送100G真實防禦,G口接入20M獨享帶寬真實三線BGP,一共才六百元每月,穩定好用,24小時人工售後,隨時開機測試,+8067-57588
『柒』 做深度學習的伺服器需要哪些配置
要做一個深度學習的伺服器,需要的配置有GPU RAM, 儲存器,因為GPU是在我做深度學習伺服器裡面一個非常重要的部分,相當於是一個心臟,是非常核心的一個伺服器,所以GPU是一個非常重要的東西,儲存器也是相當重要的,因為很多數據都要放在ssd儲存器上。
『捌』 如何使用gpu伺服器和個人電腦連接
遠程PLC通訊需要以下條件1,一般使用VPN----虛擬專用網路(VirtualPrivateNetwork),搭建這個平台的方式有很多,可以參考以下帶VPN功能的路由器或搭建伺服器;2,把PLC通訊方式轉成乙太網,串口PLC需要配乙太網通訊模塊;3,遠程電腦和設備電腦都必須能連接外部英特網;4,必須申請一個固定IP或動態域名;搭建這個平台的成本是比較高,我曾經做過在深圳下載程序到濟南現場的PLC;
『玖』 多Tesla顯卡的圖形工作站怎麼如何搭建虛擬化伺服器
搭建虛擬化伺服器步驟:
1,I7不能組雙路,雙路只有 至強 E5系列。
2,GPU也要虛擬化,你的配置還需要加 GERD K1
3,軟體是用VM,還是思傑。
『拾』 伺服器可以提供哪些服務
以阿里雲伺服器為例,雲伺服器ECS具有廣泛的應用場景,既可以作為Web伺服器或者應用伺服器單獨使用,又可以與其他阿里雲服務集成提供豐富的解決方案。
企業官網或輕量的Web應用
網站初始階段訪問量小,只需要一台低配置的雲伺服器ECS實例即可運行Apache或Nginx等Web應用程序、資料庫、存儲文件等。隨著網站發展,您可以隨時升級ECS實例的配置,或者增加ECS實例數量,無需擔心低配計算單元在業務突增時帶來的資源不足。
多媒體以及高並發應用或網站
雲伺服器ECS與對象存儲OSS搭配,對象存儲OSS承載靜態圖片、視頻或者下載包,進而降低存儲費用。同時配合內容分發網路CDN和負載均衡SLB,可大幅減少用戶訪問等待時間、降低網路帶寬費用以及提高可用性。
高I/O要求資料庫
支持承載高I/O要求的資料庫,如OLTP類型資料庫以及NoSQL類型資料庫。您可以使用較高配置的I/O優化型雲伺服器ECS,同時採用ESSD雲盤,可實現高I/O並發響應和更高的數據可靠性。您也可以使用多台中等偏下配置的I/O優化型ECS實例,搭配負載均衡SLB,建設高可用底層架構。
訪問量波動劇烈的應用或網站
某些應用,如搶紅包應用、優惠券發放應用、電商網站和票務網站,訪問量可能會在短時間內產生巨大的波動。您可以配合使用彈性伸縮,自動化實現在請求高峰來臨前增加ECS實例,並在進入請求低谷時減少ECS實例。滿足訪問量達到峰值時對資源的要求,同時降低了成本。如果搭配負載均衡SLB,您還可以實現高可用應用架構。
大數據及實時在線或離線分析
雲伺服器ECS提供了大數據類型實例規格族,支持Hadoop分布式計算、日誌處理和大型數據倉庫等業務場景。由於大數據類型實例規格採用了本地存儲的架構,雲伺服器ECS在保證海量存儲空間、高存儲性能的前提下,可以為雲端的Hadoop集群、Spark集群提供更高的網路性能。
機器學習和深度學習等AI應用
通過採用GPU計算型實例,您可以搭建基於TensorFlow框架等的AI應用。此外,GPU計算型還可以降低客戶端的計算能力要求,適用於圖形處理、雲游戲雲端實時渲染、AR/VR的雲端實時渲染等瘦終端場景。
更多詳情參考鏈接:阿里雲伺服器的應用場景及用途
如果有幫助的話,記得採納哦!