Linux搭集群

發布時間: 2023-08-23 02:52:37

㈠ [ray入門] 在linux上安裝部署Ray集群

Ray 是一個高性能分布式計算框架，藉助它可以非常容易的構建分布式運算任務。本文將介紹如何在Linux上部署Ray集群：

Ray集群由一個 Head 節點和多個 Worker 節點組成：

為了方便，我們最好利用 Anaconda 構建來一個獨立的python運行環境。(當然你也可以直接使用系統內python運行環境，那麼你可以跳過此步驟)

為ray准備一個python環境，以python3.8.8示例：

安裝完之後，最好重新登錄一下，或者執行一下 source ~/.bashrc 使得環境變數生效

安裝ray(版本為1.7.0)，這里為了加快速度指定了阿里的鏡像源：

在 192.168.100.1 上啟動Head節點:

正常會看到如下輸出：

輸出信息包含了2個關鍵信息，需要別注意：

在 192.168.100.2 上，按照上面的步驟將python和ray安裝好，注意它們的版本必須保持一致。
（另外，Worker不是必須的，因為Head節點本身就具有worker角色）

訪問dashboard： http://192.168.100.1:8265

無法訪問Ray Dashboard的幾個原因

㈡ linux 的環境搭建（二）--redis單機環境、生產環境、集群環境的搭建

一、目錄
1、工具
2、安裝tcl
3、安裝單機版redis
4、把redis設置為daemon進程，每次系統啟動，redis進程一起啟動
5、安裝redis cluster
二、工具
2.1、tcl8.6.1-src.tar.gz
2.2、ruby-2.3.1.tar.gz
2.3、redis-4.1.1.gem
2.4、redis-3.2.8.tar.gz
2.5、openssl-1.0.2r.tar.gz
三、安裝tcl（安裝redis必須先要安裝tcl）

3.1、把tcl8.6.1-src.tar.gz通過WinSCP上傳到虛擬機中的/usr/local目錄下

四、安裝單機版redis
4.1、把redis-3.2.8.tar.gz通過WinSCP上傳到虛擬機中的/usr/local目錄下

4.2、依次運行如下命令：
tar -zxvf redis-3.2.8.tar.gz 解壓文件
cd redis-3.2.8
make && make test && make install

五、把redis設置為daemon進程，每次系統啟動，redis進程一起啟動
5.1、將redis的utils目錄下的redis_init_script腳本拷貝到linux的/etc/init.d目錄中，將redis_init_script重命名為redis_6379，6379是我們希望這個redis實例監聽的埠號

5.2、修改redis_6379腳本的第6行的REDISPORT，設置為相同的埠號（默認就是6379）

protected-mode no 取消保護模式，保護模式只能127.0.0.1訪問
daemonize yes 讓redis以daemon進程運行
pidfile /var/run/redis_6379.pid 設置redis的pid文件位置
bind 192.168.3.110
port 6379 設置redis的監聽埠號
dir /var/redis/6379 設置持久化文件的存儲位置
logfile /var/log/redis/6379.log 設置日誌文件位置
5.6、啟動redis，依次執行：
cd /etc/init.d,
chmod 777 redis_6379，賦讀寫執行的許可權（chmod -R 777 * 是遞歸把該目錄下的所有文件和其子文件全部賦許可權）
./redis_6379 start 啟動

5.7、確認redis進程是否啟動，ps -ef | grep redis

5.8、讓redis跟隨系統啟動自動啟動

5.9、重啟系統，不手動啟動redis，直接連接redis，可以連接上，表示配置成功

此時一個單機版的redis的生產環境已經搭建好了，每次伺服器重啟，redis都會自動的啟動

六、安裝redis cluster
（redis cluster集群，要求至少3個master，去組成一個高可用，健壯的分布式的集群，每個master都建議至少給一個slave，3個master，3個slave）
6.1、前提，我在其它機器上啟動了六個redis（安裝步驟都如下）
2.2、創建三個目錄：
mkdir -p /etc/redis-cluster 存放集群配置信息，自動生成配置
mkdir -p /var/log/redis redis日誌
mkdir -p /var/redis/7001 存放redis的rdb文件和aof文件
6.3、將redis的utils目錄下的redis_init_script腳本拷貝到linux的/etc/init.d目錄中，將redis_init_script重命名為redis_7001，7001是我們希望這個redis實例監聽的埠號,並修改redis_7001配置文件中的REDISPORT=7001
6.4、修改/etc/redis/7001.conf中的部分配置為生產環境

6.5、完成了一個redis環境的配置，依次再配置其餘五個，分別為7002、7003、7004、7005、7006，每個啟動腳本內，都修改對應的埠號

6.6、啟動6個redis實例
6.7、創建集群（需要安裝ruby、rubygems）

上述命令在部分機器上是可以直接運行完成，成功安裝的，但在部分機器上運行第三條命令時會提示ruby版本太低、openssl找不到的問題，下面依次解決這兩個問題：

6.8、再次運行gem install redis命令，報出兩個錯誤

6.9、再次運行gem install redis命令，報出一個錯誤

6.10、再次運行gem install redis命令，報出一個錯誤

6.11、再次運行gem install redis命令
[root@ceshi01 local]# gem install redis
Successfully installed redis-4.1.1
Parsing documentation for redis-4.1.1
Done installing documentation for redis after 1 seconds
WARNING: Unable to pull data from ' https://rubygems.org/' : SSL_connect returned=1 errno=0 state=error: certificate verify failed ( https://api.rubygems.org/specs.4.8.gz )
1 gem installed
運行成功

此時Redis安裝好，此三個工具也安裝好了，這時我們來做一個Redis集群測試，在一台伺服器中創建了6個Redis實例，開啟6個Redis服務
redis-trib.rb create --replicas 1 192.168.3.104:7001 192.168.3.104:7002 192.168.3.105:7003 192.168.3.105:7004 192.168.3.106:7005 192.168.3.106:7006

[root@eshop-cache02 init.d]# redis-trib.rb create --replicas 1 192.168.3.104:7001 192.168.3.104:7002 192.168.3.105:7003 192.168.3.105:7004 192.168.3.106:7005 192.168.3.106:7006

此時一個redis集群環境就已經搭建好了，可以通過redis-trib.rb check 192.168.3.105:7003命令查看集群幾點的信息

[root@eshop-cache02 init.d]# redis-trib.rb check 192.168.3.105:7004

redis cluster的優點：讀寫分離+高可用+多master
讀寫分離：每個master都有一個slave
高可用：master宕機，slave自動被切換過去
多master：橫向擴容支持更大數據量

㈢ Linux集群使用命令

存儲NAS 文件操作
df -h查看空間使用情況

警惕超大 nohup.out

任務提交
任務提交前

qhost--查看集群負載狀態

qsub / qsub-sge.pl--提交任務

qstat--查看任務狀態

qdel / qmod--任務控制

任務查看

qhost -j---列出所有用戶在每個節點上的任務

qhost -q---列出每個節點上每個隊列的任務數

qhost -u username---列出某個用戶在每個節點上的任務

提交命令

qsub -cwd -q queue.q test.sh

qsub-sge.pl --maxproc 50 --resource vf=5G --queue queue.q test.sh

任務查看2

qstat -u username---查看某個用戶的任務

qstat -u *,---查看所有用戶的任務

qstat –j jobs_ID---查看某個任務的詳細信息

查看.e和.o文件

.e：錯誤信息

.o：標准輸出
任務控制

qdel jobID---刪除某個任務

qdel -u username---刪除某個用戶的所有任務

qmod -s jobID--掛起某個任務

qmod -us jobID---繼續運行某個掛起的任務

按任務佔用內存大小選擇相應的隊列

查看隊列 qstat -g c

QUEUE

PE.q--並行

cloud.q--雲平台

general.q--96G節點

middle.q--96G節點

great.q--大內存節點

plus.q--大內存節點

single.q--Trinity組裝

single._p.q---Trinity組裝（佔用內存較大）

TOP監視
編輯於 2017-04-21

㈣什麼是Linux集群

1.集群就是一堆集群一起提供用戶的訪問。

2.集群目的：

a.7*24隨時服務

b.三高：高並發、高數據量、高帶寬下的大量用戶訪問問題。
3.單機就類似街邊小餐館，集群就類似大酒店

㈤ Linux系統 CentOS 7怎麼搭建集群

CentOS 7下怎麼搭建高可用集群。高可用集群是指以減少服務中斷時間為目的的伺服器集群技術。它通過保護用戶的業務程序對外不間斷提供的服務，把因軟體/硬體/人為造成的故障對業務的影響降低到最小程度。那麼新的centos下怎麼來搭建高可用集群。
環境：本文以兩台機器實現雙集熱備高可用集群，主機名node1的IP為192.168.122.168 ，主機名node2的IP為192.168.122.169 。
一、安裝集群軟體必須軟體pcs，pacemaker，corosync，fence-agents-all，如果需要配置相關服務，也要安裝對應的軟體
二、配置防火牆
1、禁止防火牆和selinux
修改/etc/sysconfig/selinux確保SELINUX=disabled，然後執行setenforce 0或者reboot伺服器以生效
2、設置防火牆規則
三、各節點之間主機名互相解析分別修改2台主機名分別為node1和node2，在centos 7中直接修改/etc/hostname加入本機主機名和主機表，然後重啟網路服務即可。
配置2台主機的主機表，在/etc/hosts中加入
四、各節點之間時間同步在node1和node2分別進行時間同步，可以使用ntp實現。
五、各節點之間配置ssh的無密碼密鑰訪問。下面的操作需要在各個節點上操作。
兩台主機都要互相可以通信，所以兩台主機都得互相生成密鑰和復制公鑰，相互的節點上的hosts文件是都要解析對方的主機名， 192.168.122.168 node1 192.168.122.169 node2
六、通過pacemaker來管理高可用集群
1、創建集群用戶

㈥基於Linux自己初步搭建Kubernetes（k8s）集群基礎，詳細教程

k8s官方網站：https://kubernetes.io/zh/，可自行查看相關文檔說明

k8s-master：Ubuntu--192.168.152.100

k8s-node01：Ubuntu--192.168.152.101

k8s-node02：Ubuntu--192.168.152.102

全部已安裝docker，未安裝可根據官方文檔安裝：https://docs.docker.com/get-docker/

1，禁止swap分區

K8s的要求，確保禁止掉swap分區，不禁止，初始化會報錯。

在每個宿主機上執行：

2，確保時區和時間正確

時區設置

3，關閉防火牆和selinux

ubuntu 查看防火牆命令，ufw status可查看狀態，ubuntu20.04默認全部關閉，無需設置。

4，主機名和hosts設置（可選）

非必須，但是為了直觀方便管理，建議設置。

在宿主機分別設置主機名：k8s-master，k8s-node01，k8s-node02

hosts設置

1，更改docker默認驅動為systemd

為防止初始化出現一系列的錯誤，請檢查docker和kubectl驅動是否一致，否則kubectl沒法啟動造成報錯。版本不一樣，docker有些為cgroupfs，而kubectl默認驅動為systemd，所以需要更改docker驅動。

可查看自己docker驅動命令：

更改docker驅動，編輯 /etc/docker/daemon.json (沒有就新建一個），添加如下啟動項參數即可：

重啟docker

需要在每台機器上安裝以下的軟體包：

2，更新 apt 包索引並安裝使用 Kubernetes apt 倉庫所需要的包

安裝軟體包以允許apt通過HTTPS使用存儲庫，已安裝軟體的可以忽略

3，下載公開簽名秘鑰、並添加k8s庫

國外：下載 Google Cloud 公開簽名秘鑰：

國內：可以用阿里源即可：

請注意，在命令中，使用的是Ubuntu 16.04 Xenial 版本，是可用的最新 Kubernetes 存儲庫。所以而非20.04 的focal。

4，更新 apt 包索引，安裝 kubelet、kubeadm 和 kubectl，並鎖定其版本

鎖定版本，防止出現不兼容情況，例如，1.7.0 版本的 kubelet 可以完全兼容 1.8.0 版本的 API 伺服器，反之則不可以。

只需要在master上操作即可。

1，初始化錯誤解決（沒有報錯的可以跳過這條）

錯誤提示1：

原因：kubectl沒法啟動，journalctl -xe查看啟動錯誤信息。

解決方案：k8s建議systemd驅動，所以更改docker驅動即可，編輯 /etc/docker/daemon.json (沒有就新建一個），添加如下啟動項參數即可：

重啟docker和kubectel

錯誤提示2：

原因：初始化生產的文件，重新初始化，需要刪除即可

錯誤提示3：

解決方法：重置配置

2，初始化完成

無報錯，最後出現以下，表示初始化完成，根據提示還需要操作。

根據用戶是root或者普通用戶操作，由於大多環境不會是root用戶，我也是普通用戶，所以選擇普通用戶操作命令：

如果是root用戶，執行以下命令：

初始化完成，用最後的提示命令 kubeadm join.... 在node機器上加入集群即可。

3，主節點pod網路設置

主節點支持網路插件：https://kubernetes.io/zh/docs/concepts/cluster-administration/addons/

這里安裝Calico網路插件：https://docs.projectcalico.org/getting-started/kubernetes/self-managed-onprem/onpremises

Calico官網提供三種安裝方式，1）低於50個節點，2）高於50個節點，3）etcd datastore（官方不建議此方法）。

這里選擇第一種：

安裝完成後， kubectl get node 可查看節點狀態，由NotReady變成Ready則正常，需要等幾分鍾完成。

1，node加入master節點

在所有node節點機器操作，統一已安裝完成 kubelet、kubeadm 和 kubectl，用master初始化完成後最後提示命令加入，切記要用root用戶。

加入成功後，提示如下：

再次查看kubelet服務已正常啟動。

2，需注意的坑

1：加入主節點，需要 root 用戶執行詞條命令，才可以加入master主節點。

node在沒有加入主節點master之前，kubelet服務是沒法啟動的，是正常情況，會報錯如下：

原因是缺失文件，主節點master初始化 `kubeadm init`生成。

node節點是不需要初始化的，所以只需要用root用戶`kubeadm join`加入master即可生成。

2：如果加入提示某些文件已存在，如：

原因是加入過主節點，即使沒成功加入，文件也會創建，所以需要重置節點，重新加入即可，重置命令：

3，在master查看節點

加入完成後，在master節點 kubectl get node 可查看已加入的所有節點：

這里k8s集群創建完成，下一步使用可參考我的下一篇文章：k8s初步熟悉使用介紹，實踐搭建nginx集群

㈦如何最快搭建LINUX伺服器集群

1.2.並行技術
這是一個非常簡單的建造四節點的小集群系統的例子，它是構建在Linux操作系統上，通過MPICH軟體包實現的，希望這個小例子能讓大家對集群系統的構建有一個最基本的了解。
2.使用MPICH構建一個四節點的集群系統
這是一個非常簡單的建造四節點的小集群系統的例子，它是構建在Linux操作系統上，通過MPICH軟體包實現的，希望這個小例子能讓大家對集群系統的構建有一個最基本的了解。
2.1 所需設備
1).4台採用Pentium II處理器的PC機，每台配
置64M內存，2GB以上的硬碟，和EIDE介面的光碟驅動器。
2).5塊100M快速乙太網卡，如SMC 9332 EtherPower 10/100(其中四塊卡用於連接集群中的結點，另外一塊用於將集群中的其中的一個節點與其它網路連接。)
3).5根足夠連接集群系統中每個節點的，使用5類非屏蔽雙絞線製作的RJ45纜線
4).1個快速乙太網(100BASE-Tx)的集線器或交換機
5).1張Linux安裝盤
2.2 構建說明
對計算機硬體不熟的人，實施以下這些構建步驟會感到吃力。如果是這樣，請找一些有經驗的專業人士尋求幫助。
1. 准備好要使用的採用Pentium II處理器的PC機。確信所有的PC機都還沒有接上電源，打開PC機的機箱，在准備與網路上的其它設備連接的PC機上安裝上兩塊快速乙太網卡，在其它的 PC機上安裝上一塊快速乙太網卡。當然別忘了要加上附加的內存。確定完成後蓋上機箱，接上電源。
2. 使用4根RJ45線纜將四台PC機連到快速乙太網的集線器或交換機上。使用剩下的1根RJ45線將額外的乙太網卡(用於與其它網路相連的那塊，這樣機構就可以用上集群)連接到機構的區域網上(假定你的機構區域網也是快速乙太網)，然後打開電源。
3. 使用LINUX安裝盤在每一台PC機上安裝。請確信在LINUX系統中安裝了C編譯器和C的LIB庫。當你配置TCP/IP時，建議你為四台PC分別指定為192.168.1.1、192.168.1.2、192.168.1.3、192.168.1.4。第一台PC為你的伺服器節點(擁有兩塊網卡的那台)。在這個伺服器節點上的那塊與機構區域網相連的網卡，你應該為其指定一個與機構區域網吻合的IP地址。
4.當所有PC都裝好Linux系統後，編輯每台機器的/etc/hosts文件，讓其包含以下幾行：
192.168.1.1 node1 server
192.168.1.2 node2
192.168.1.3 node3
192.168.1.4 node4
編輯每台機器的/etc/hosts.equiv文件，使其包含以下幾行：
node1
node2
node3
node4
$p#
以下的這些配置是為了讓其能使用MPICH』s p4策略去執行分布式的並行處理應用。
1. 在伺服器節點
，建一個/mirror目錄，並將其配置成為NFS伺服器，並在/etc/exports文件中增加一行：
/mirror node1(rw) node2(rw) node3(rw) node4(rw)
2. 在其他節點上，也建一個/mirror目錄，關在/etc/fstab文件中增加一行：
server:/mirror /mirror nfs rw,bg,soft 0 0
3. /mirror這個目錄從伺服器上輸出，裝載在各個客戶端，以便在各個節點間進行軟體任務的分發。
4. 在伺服器節點上，安裝MPICH。MPICH的文檔可在
5.任何一個集群用戶(你必須在每一個節點新建一個相同的用戶)，必須在/mirror目錄下建一個屬於它的子目錄，如 /mirror/username，用來存放MPI程序和共享數據文件。這種情況，用戶僅僅需要在伺服器節點上編譯MPI程序，然後將編譯後的程序拷貝到在/mirror目錄下屬於它的的子目錄中，然後從他在/mirror目錄下屬於它的的子目錄下使用p4 MPI策略運行MPI程序。
2.3 MPICH安裝指南
1.如果你有gunzip，就d下載mpich.tar.gz，要不然就下載mpich.tar.Z。你可以到http://www.mcs.anl.gov/mpi/mpich/downloa下載，也可以使用匿名ftp到ftp.mcs.anl.gov的pub/mpi目錄拿。(如果你覺得這個東西太大，你可以到pub/mpi/mpisplit中取分隔成塊的幾個小包，然後用cat命令將它們合並)
2.解壓：gunzip ;c mpich.tar.gz tar xovf-(或zcat mpich.tar.Ztar xovf-)
3.進入mpich目錄
4.執行：./configure為MPICH選擇一套適合你的實際軟硬體環境的參數組，如果你對這些默認選擇的參數不滿意，可以自己進行配置(具體參見MPICH的配置文檔)。最好選擇一個指定的目錄來安裝和配置MPICH，例如：
./configure -prefix=/usr/local/mpich-1.2.0
5.執行：make >&make.log 這會花一段較長的時間，不同的硬體環境花的時間也就不同，可能從10分鍾到1個小時，甚至更多。
6.(可選)在工作站網路，或是一台單獨的工作站，編輯mpich/util/machines/machines.xxx(xxx是MPICH對你機器體系結構取的名稱，你能很容易的認出來)以反映你工作站的當地主機名。你完全可以跳過這一步。在集群中，這一步不需要。
7.(可選)編譯、運行一個簡單的測試程序：
cd examples/basic
make cpi
ln ;s ../../bin/mpirun mpirun
./mpirun ;np 4 cpi
此時，你就在你的系統上運行了一個MPI程序。
8.(可選)構建MPICH其餘的環境，為ch_p4策略使
用安全的服務會使得任何啟動速度加快，你可以執行以下命令構建：
make serv_p4
(serv_p4是一個較新的P4安全服務的版本，它包含在MPICH 1.2.0版中)，nupshot程序是upshot程序的一個更快版本，但他需要tk 3.6版的源代碼。如果你有這個包，你就用以下命令可以構建它：
make nupshot
9.(可選)如果你想將MPICH安裝到一個公用的地方讓其它人使用它，你可以執行：
make install 或 bin/mpiinstall
你可以使用-prefix選項指定MPICH安裝目錄。安裝後將生成include、lib、bin、sbin、www和man目錄以及一個小小的示例目錄，
到此你可以通告所有的用戶如何編譯、執行一個MPI程序。

㈧伺服器集群怎麼搭建Linux平台的

linux伺服器集群平台的搭建比較簡單，有專門的均衡軟體，比如lvs，lvs是一個集群系統，由很多伺服器組成，可以根據需要，把它門分為三層，一層是前端機，用於均衡，相當於公平為系統分配工作，二層是伺服器群，比如web伺服器群，DNS，mail群等，這些就是接待員，把均衡器分配的工作進行處理，第三層是存儲設備，用於存儲數據，相當於檔案庫。

知道這些後，要搭建就非常容易，有現成的軟體，比如我有四台web伺服器，2台資料庫，1台前置機，安裝linux系統，安裝lvs軟體，比如
heartbeat-2.1.4-9.el5.i386.rpm
heartbeat-ldirectord-2.1.4-9.el5.i386.rpm
libnet-1.1.4-3.el5.i386.rpm
heartbeat-devel-2.1.4-9.el5.i386.rpm
heartbeat-pils-2.1.4-10.el5.i386.rpm
perl-MailTools-1.77-1.el5.noarch.rpm
heartbeat-gui-2.1.4-9.el5.i386.rpm
heartbeat-stonith-2.1.4-10.el5.i386.rpm
當然還需要配置，你可以自己網路有關lvs集群的詳細安裝說明。希望能幫助你。

㈨如何實現Linux伺服器集群系統

伺服器的集群系改敏統是比較復雜的功能，這個得根據你業務的需求來確定使用什麼架構。

如果是做mysql的集群，可以使用mycat中間件做讀寫分離，也可以使用MHA,來實現MySQL的集群。

如果要是做web項目的話，則可以使用LVS+Keepalived來實現。也可以使用Nginx做反向代理。

現在比較火的可能是虛擬化，就是配置一台高配伺服器，在其中運行docker或者openstack等虛擬核衫枝化技術也可以實現塌瞎集群的功能，有個弊端就是宿主機一旦故障，整個業務全部癱瘓，當然，這樣是比較節省開銷的。

閱讀全文

熱點內容

謝長廷訪問發布：2025-03-07 09:16:45 瀏覽：705

手機編譯不會有提示嗎發布：2025-03-07 09:15:07 瀏覽：747

linuxphp顯示源碼發布：2025-03-07 09:15:05 瀏覽：306

win8加密發布：2025-03-07 09:11:33 瀏覽：370

e框架php 發布：2025-03-07 09:01:00 瀏覽：78

php表單自動提交發布：2025-03-07 08:56:09 瀏覽：504

安卓怎麼連接電腦用滑鼠發布：2025-03-07 08:52:55 瀏覽：311

大數據與資料庫的關系發布：2025-03-07 08:48:20 瀏覽：288

取冪C語言發布：2025-03-07 08:43:10 瀏覽：488

高考解壓性發布：2025-03-07 08:43:10 瀏覽：690

Linux搭集群

與Linux搭集群相關的資訊