大數據服務伺服器搭建
❶ 如何創建一個大數據平台
所謂的大數據平台不是獨立存在的,比如網路是依賴搜索引擎獲得大數據並開展業務的,阿里是通過電子商務交易獲得大數據並開展業務的,騰訊是通過社交獲得大數據並開始業務的,所以說大數據平台不是獨立存在的,重點是如何搜集和沉澱數據,如何分析數據並挖掘數據的價值。
我可能還不夠資格回答這個問題,沒有經歷過一個公司大數據平台從無到有到復雜的過程。不過說說看法吧,也算是梳理一下想法找找噴。
這是個需求驅動的過程。
曾經聽過spotify的分享,印象很深的是,他們分享說,他們的hadoop集群第一次故障是因為,機器放在靠窗的地方,太陽曬了當機了(笑)。從簡單的沒有機房放在自家窗前的集群到一直到現在復雜的數據平台,這是一個不斷演進的過程。
對小公司來說,大概自己找一兩台機器架個集群算算,也算是大數據平台了。在初創階段,數據量會很小,不需要多大的規模。這時候組件選擇也很隨意,Hadoop一套,任務調度用腳本或者輕量的框架比如luigi之類的,數據分析可能hive還不如導入RMDB快。監控和部署也許都沒時間整理,用腳本或者輕量的監控,大約是沒有ganglia、nagios,puppet什麼的。這個階段也許算是技術積累,用傳統手段還是真大數據平台都是兩可的事情,但是為了今後的擴展性,這時候上Hadoop也許是不錯的選擇。
當進入高速發展期,也許擴容會跟不上計劃,不少公司可能會遷移平台到雲上,比如AWS阿里雲什麼的。小規模高速發展的平台,這種方式應該是經濟實惠的,省了運維和管理的成本,擴容比較省心。要解決的是選擇平台本身提供的服務,計算成本,打通數據出入的通道。整個數據平台本身如果走這條路,可能就已經基本成型了。走這條路的比較有名的應該是netflix。
也有一個階段,你發現雲服務的費用太高,雖然省了你很多事,但是花錢嗖嗖的。幾個老闆一合計,再玩下去下個月工資發布出來了。然後無奈之下公司開始往私有集群遷移。這時候你大概需要一群靠譜的運維,幫你監管機器,之前兩三台機器登錄上去看看狀態換個磁碟什麼的也許就不可能了,你面對的是成百上千台主機,有些關鍵服務必須保證穩定,有些是數據節點,磁碟三天兩頭損耗,網路可能被壓得不堪重負。你需要一個靠譜的人設計網路布局,設計運維規范,架設監控,值班團隊走起7*24小時隨時准備出台。然後上面再有平台組真的大數據平台走起。
然後是選型,如果有技術實力,可以直接用社區的一整套,自己管起來,監控部署什麼的自己走起。這個階段部署監控和用戶管理什麼的都不可能像兩三個節點那樣人肉搞了,配置管理,部署管理都需要專門的平台和組件;定期Review用戶的作業和使用情況,決定是否擴容,清理數據等等。否則等機器和業務進一步增加,團隊可能會死的很慘,疲於奔命,每天事故不斷,進入惡性循環。
當然有金錢實力的大戶可以找Cloudera,Hortonworks,國內可以找華為星環,會省不少事,適合非互聯網土豪。當然互聯網公司也有用這些東西的,比如Ebay。
接下去你可能需要一些重量的組件幫你做一些事情。
比如你的數據接入,之前可能找個定時腳本或者爬log發包找個伺服器接收寫入HDFS,現在可能不行了,這些大概沒有高性能,沒有異常保障,你需要更強壯的解決方案,比如Flume之類的。
你的業務不斷壯大,老闆需要看的報表越來越多,需要訓練的數據也需要清洗,你就需要任務調度,比如oozie或者azkaban之類的,這些系統幫你管理關鍵任務的調度和監控。
數據分析人員的數據大概可能漸漸從RDBMS搬遷到集群了,因為傳統資料庫已經完全hold不住了,但他們不會寫代碼,所以你上馬了Hive。然後很多用戶用了Hive覺得太慢,你就又上馬交互分析系統,比如Presto,Impala或者SparkSQL。
你的數據科學家需要寫ML代碼,他們跟你說你需要Mahout或者Spark MLLib,於是你也部署了這些。
至此可能數據平台已經是工程師的日常工作場所了,大多數業務都會遷移過來。這時候你可能面臨很多不同的問題。
比如各個業務線數據各種數據表多的一塌糊塗,不管是你還是寫數據的人大概都不知道數據從哪兒來,接下去到哪兒去。你就自己搞了一套元數據管理的系統。
你分析性能,發現你們的數據都是上百Column,各種復雜的Query,裸存的Text格式即便壓縮了也還是慢的要死,於是你主推用戶都使用列存,Parquet,ORC之類的。
又或者你發現你們的ETL很長,中間生成好多臨時數據,於是你下狠心把pipeline改寫成Spark了。
再接下來也許你會想到花時間去維護一個門戶,把這些零散的組件都整合到一起,提供統一的用戶體驗,比如一鍵就能把數據從資料庫chua一下拉到HDFS導入Hive,也能一鍵就chua一下再搞回去;點幾下就能設定一個定時任務,每天跑了給老闆自動推送報表;或者點一下就能起一個Storm的topology;或者界面上寫幾個Query就能查詢Hbase的數據。這時候你的數據平台算是成型了。
當然,磕磕碰碰免不了。每天你都有新的問題和挑戰,否則你就要失業了不是?
你發現社區不斷在解決你遇到過的問題,於是你們架構師每天分出很多時間去看社區的進展,有了什麼新工具,有什麼公司發布了什麼項目解決了什麼問題,興許你就能用上。
上了這些亂七八糟的東西,你以為就安生了?Hadoop平台的一個大特點就是坑多。尤其是新做的功能新起的項目。對於平台組的人,老闆如果知道這是天然坑多的平台,那他也許會很高興,因為跟進社區,幫忙修bug,一起互動其實是很提升公司影響力的實情。當然如果老闆不理解,你就自求多福吧,招幾個老司機,出了問題能馬上帶路才是正道。當然團隊的技術積累不能不跟上,因為數據平台還是亂世,三天不跟進你就不知道世界是什麼樣了。任何一個新技術,都是坑啊坑啊修啊修啊才完善的。如果是關鍵業務換技術,那需要小心再小心,技術主管也要有足夠的積累,能夠駕馭,知道收益和風險。
❷ 家庭伺服器數據中心要怎麼搭建
1、首先選擇機箱,注意點:體積小、容量大!體積小可以隨便放、容量大是要機箱能夠放更多的配件,至少要2-4塊硬碟位。
我選擇的是金河田遇見N1,ITX主板,4塊3.5硬碟位、ATX標准電源
個人搭建實用的家庭NAS家庭數據媒體中心
個人搭建實用的家庭NAS家庭數據媒體中心
2、選擇好機箱後,選擇主板ITX小主板,要特別注意的是要用集成CPU的ITX主板,主要是考慮CPU耗電問題!之前選擇的是主板和CPU分開的,用的是網上比較多的微星的一款板子,主板是不錯,但是分體的CPU,775針的CPU耗電比現在的酷睿大的多啊,最後測試下來45W,無法承受!後來把這款板子閑余出了。換了集成CPU的intel d510,集成CPU的板子很多,不差錢的可以買調配的。
intel d510參數並不高,是早前生產的,1.6G的虛擬四線程,1M緩存。2個SATA、一個PCI插口是必須的。
個人搭建實用的家庭NAS家庭數據媒體中心
個人搭建實用的家庭NAS家庭數據媒體中心
下面是存儲部分,家庭NAS速度肯定要快,除了外界的千兆網外,硬碟速度是必要考慮的問題。硬碟速度無非兩個方法,1用SSD,2RAID,SSD肯定不能用大數據存儲,成本太高!RAID是很好的方法。所以我決定使用RAID,選擇了一款PCI X32的RAID卡,做RAID0,下圖:
個人搭建實用的家庭NAS家庭數據媒體中心
RAID卡有四個SATA口可以方便擴展,當成考慮成本問題,我淘了兩個80G的二手硬碟做了RAID0
個人搭建實用的家庭NAS家庭數據媒體中心
本來是打算直接在上面的RAID0上直接安裝系統的,但是有不知道為什麼總是提未安裝失敗,有的人說我的主板太老了,不支持RAID啟動!後來也不折騰了,又淘了個24G的SSD做為啟用盤吧。
個人搭建實用的家庭NAS家庭數據媒體中心
最後是電源,這個很講究,一定要聲音小的,現在CPU沒有風扇了,電源的風扇聲音一定要小,而且要穩定,可長時間運行。
網上看看了,最多的就是這個小1U的電源了,剛才適用!剛買的時候我也不知道機箱能不能放,雖然都有尺寸。畢竟機箱是ATX的標准電源,反正我看了機箱的位置很大,上不了螺絲放面好了。
個人搭建實用的家庭NAS家庭數據媒體中心
還有個內存忘了,主板是2個插口的,我用一個就好了,2G足夠!主板內存頻率要和主板匹配,我這個是DDR2 800的台機內存。我挑主板的時候沒看好些筆記本內存的主板,這個看個人愛好了。
個人搭建實用的家庭NAS家庭數據媒體中心
最後是安裝系統系統了,我沒打算用黑群輝,理由在開頭說了!我安裝的是windwos 2008 server R2,上面的配置運行可以的。本來打算安裝2003server的,後來想想還是用個新點的吧。為什麼沒有用2012server呢,因為2012server的界面在遠程操作的時候比較慢,可能是由於畫面的原因。
安裝完了操作系統,你想用什麼軟體不就自由了,不要像黑群輝那樣有限制。想安裝什麼就裝什麼,想實現什麼效果就找什麼軟體。
比如:遠程訪問可以用花生殼,文件雲同步訪問可以用網路雲!下個電影什麼的,用網路雲離線下載,然後推送到這台伺服器!晚上回到家的時候就可以直接看了。其實想一想你NAS要用的功能最多的無非就是這兩個吧。而且這也是一台電腦,可以正常使用上網,辦公什麼的。比如專業的NAS要實用吧。
❸ 支持大型資料庫的伺服器需要什麼配置
選擇資料庫伺服器的原則:
1、高性能原則:保證所選購的伺服器,不僅能夠滿足運營系統的運行和業務處理的需要,而且能夠滿足一定時期業務量的增長。一般可以根據經驗公式計算出所需的伺服器TpmC值(Tpmc是衡量計算機系統的事務處理能力的程序)。
後比較各伺服器廠商和TPC組織公布的TpmC值,選擇相應的機型。同時,用伺服器的市場價/報價除去計算出來的TpmC值得出單位TpmC值的價格,進而選擇高性能價格比的伺服器。
2、可靠性原則:可靠性原則是所有選擇設備和系統中首要考慮的,尤其是在大型的、有大量處理要求的、需要長期運行的系統上。考慮伺服器系統的可靠性,不僅要考慮伺服器單個節點的可靠性或穩定性,而且要考慮伺服器與相關輔助系統之間連接的整體可靠性。
(3)大數據服務伺服器搭建擴展閱讀:
優點:
1、編程量減少
資料庫伺服器提供了用於數據操縱的標准介面API(Application Programming Interface,應用程序編程接 口)。
2、資料庫安全高
資料庫伺服器提供監控性能、並發控制等工具。由DBA(Database Administrator,資料庫管理員)統一負 責授權訪問資料庫及網路管理。
3、數據可靠性管理
資料庫伺服器提供統一的資料庫備份/恢復、啟動/停止資料庫的管理工具。
4、計算機資源利用充分
資料庫伺服器把數據管理及處理工作從客戶機上分離出來,使網路中各計算機資源能靈活分配、各盡其用。
❹ 如何搭建伺服器
首先打開控制面板,選擇「程序」,雙擊「打開或關閉Windows服務」,在彈出的窗口中選擇「Internet信息服務」下面所有地選項,點擊確定,開始更新服務。打開瀏覽器,輸入「localhost」回車,如果出現IIS7歡迎界面,說明啟動成功。
伺服器能夠響應終端的服務請求,並進行處理。我們在上網的時候是不可能直接將網路接入互聯網的,我們都需要通過伺服器來連接網路,只有伺服器響應你的聯網請求,並且進行處理以後才可以聯網;存儲的功能,伺服器的存儲空間一般比較充足,可以存儲非常多的信息。
伺服器部署注意事項
在許多伺服器機架,電源分配單元(PDU)的部署僅僅只提供了數量有限的輸出口,所以一台已經被大量使用的機架可能沒有足夠的開放式PDU插座以容納更多額外的伺服器,或無法很方便的為伺服器電源線安排可用的插座。
用戶可能會需要重新安排一些線纜,而只能通過拔掉伺服器的電源了,而這會造成系統的停機,故而這就需要運營團隊進行提前安排了。