集群搭建配置文档怎么背

发布时间: 2022-07-12 09:55:47

⑴ 如何最快搭建linux服务器集群

1.2.并行技术
这是一个非常简单的建造四节点的小集群系统的例子，它是构建在Linux操作系统上，通过MPICH软件包实现的，希望这个小例子能让大家对集群系统的构建有一个最基本的了解。
2.使用MPICH构建一个四节点的集群系统
这是一个非常简单的建造四节点的小集群系统的例子，它是构建在Linux操作系统上，通过MPICH软件包实现的，希望这个小例子能让大家对集群系统的构建有一个最基本的了解。
2.1 所需设备
1).4台采用Pentium II处理器的PC机，每台配
置64M内存，2GB以上的硬盘，和EIDE接口的光盘驱动器。
2).5块100M快速以太网卡，如SMC 9332 EtherPower 10/100(其中四块卡用于连接集群中的结点，另外一块用于将集群中的其中的一个节点与其它网络连接。)
3).5根足够连接集群系统中每个节点的，使用5类非屏蔽双绞线制作的RJ45缆线
4).1个快速以太网(100BASE-Tx)的集线器或交换机
5).1张Linux安装盘
2.2 构建说明
对计算机硬件不熟的人，实施以下这些构建步骤会感到吃力。如果是这样，请找一些有经验的专业人士寻求帮助。
1. 准备好要使用的采用Pentium II处理器的PC机。确信所有的PC机都还没有接上电源，打开PC机的机箱，在准备与网络上的其它设备连接的PC机上安装上两块快速以太网卡，在其它的 PC机上安装上一块快速以太网卡。当然别忘了要加上附加的内存。确定完成后盖上机箱，接上电源。
2. 使用4根RJ45线缆将四台PC机连到快速以太网的集线器或交换机上。使用剩下的1根RJ45线将额外的以太网卡(用于与其它网络相连的那块，这样机构就可以用上集群)连接到机构的局域网上(假定你的机构局域网也是快速以太网)，然后打开电源。
3. 使用LINUX安装盘在每一台PC机上安装。请确信在LINUX系统中安装了C编译器和C的LIB库。当你配置TCP/IP时，建议你为四台PC分别指定为192.168.1.1、192.168.1.2、192.168.1.3、192.168.1.4。第一台PC为你的服务器节点(拥有两块网卡的那台)。在这个服务器节点上的那块与机构局域网相连的网卡，你应该为其指定一个与机构局域网吻合的IP地址。
4.当所有PC都装好Linux系统后，编辑每台机器的/etc/hosts文件，让其包含以下几行：
192.168.1.1 node1 server
192.168.1.2 node2
192.168.1.3 node3
192.168.1.4 node4
编辑每台机器的/etc/hosts.equiv文件，使其包含以下几行：
node1
node2
node3
node4
$p#
以下的这些配置是为了让其能使用MPICH’s p4策略去执行分布式的并行处理应用。
1. 在服务器节点
，建一个/mirror目录，并将其配置成为NFS服务器，并在/etc/exports文件中增加一行：
/mirror node1(rw) node2(rw) node3(rw) node4(rw)
2. 在其他节点上，也建一个/mirror目录，关在/etc/fstab文件中增加一行：
server:/mirror /mirror nfs rw,bg,soft 0 0
3. /mirror这个目录从服务器上输出，装载在各个客户端，以便在各个节点间进行软件任务的分发。
4. 在服务器节点上，安装MPICH。MPICH的文档可在
5.任何一个集群用户(你必须在每一个节点新建一个相同的用户)，必须在/mirror目录下建一个属于它的子目录，如 /mirror/username，用来存放MPI程序和共享数据文件。这种情况，用户仅仅需要在服务器节点上编译MPI程序，然后将编译后的程序拷贝到在/mirror目录下属于它的的子目录中，然后从他在/mirror目录下属于它的的子目录下使用p4 MPI策略运行MPI程序。
2.3 MPICH安装指南
1.如果你有gunzip，就d下载mpich.tar.gz，要不然就下载mpich.tar.Z。你可以到http://www.mcs.anl.gov/mpi/mpich/downloa下载，也可以使用匿名ftp到ftp.mcs.anl.gov的pub/mpi目录拿。(如果你觉得这个东西太大，你可以到pub/mpi/mpisplit中取分隔成块的几个小包，然后用cat命令将它们合并)
2.解压：gunzip ;c mpich.tar.gz tar xovf-(或zcat mpich.tar.Ztar xovf-)
3.进入mpich目录
4.执行：./configure为MPICH选择一套适合你的实际软硬件环境的参数组，如果你对这些默认选择的参数不满意，可以自己进行配置(具体参见MPICH的配置文档)。最好选择一个指定的目录来安装和配置MPICH，例如：
./configure -prefix=/usr/local/mpich-1.2.0
5.执行：make >&make.log 这会花一段较长的时间，不同的硬件环境花的时间也就不同，可能从10分钟到1个小时，甚至更多。
6.(可选)在工作站网络，或是一台单独的工作站，编辑mpich/util/machines/machines.xxx(xxx是MPICH对你机器体系结构取的名称，你能很容易的认出来)以反映你工作站的当地主机名。你完全可以跳过这一步。在集群中，这一步不需要。
7.(可选)编译、运行一个简单的测试程序：
cd examples/basic
make cpi
ln ;s ../../bin/mpirun mpirun
./mpirun ;np 4 cpi
此时，你就在你的系统上运行了一个MPI程序。
8.(可选)构建MPICH其余的环境，为ch_p4策略使
用安全的服务会使得任何启动速度加快，你可以执行以下命令构建：
make serv_p4
(serv_p4是一个较新的P4安全服务的版本，它包含在MPICH 1.2.0版中)，nupshot程序是upshot程序的一个更快版本，但他需要tk 3.6版的源代码。如果你有这个包，你就用以下命令可以构建它：
make nupshot
9.(可选)如果你想将MPICH安装到一个公用的地方让其它人使用它，你可以执行：
make install 或 bin/mpiinstall
你可以使用-prefix选项指定MPICH安装目录。安装后将生成include、lib、bin、sbin、www和man目录以及一个小小的示例目录，
到此你可以通告所有的用户如何编译、执行一个MPI程序。

⑵ 配置hadoop集群是怎么配置的

在过去，大数据处理主要是采用标准化的刀片式服务器和存储区域网络（SAN）来满足网格和处理密集型工作负载。然而随着数据量和用户数的大幅增长，基础设施的需求已经发生变化，硬件厂商必须建立创新体系，来满足大数据对包括存储刀片，SAS（串行连接SCSI）开关，外部SATA阵列和更大容量的机架单元的需求。即寻求一种新的方法来存储和处理复杂的数据，Hadoop正是基于这样的目的应运而生的。Hadoop的数据在集群上均衡分布，并通过复制副本来确保数据的可靠性和容错性。因为数据和对数据处理的操作都是分布在服务器上，处理指令就可以直接地发送到存储数据的机器。这样一个集群的每个服务器器上都需要存储和处理数据，因此必须对Hadoop集群的每个节点进行配置，以满足数据存储和处理要求。
Hadoop框架中最核心的设计是为海量数据提供存储的HDFS和对数据进行计算的MapRece。MapRece的作业主要包括从磁盘或从网络读取数据，即IO密集工作，或者是计算数据，即CPU密集工作。Hadoop集群的整体性能取决于CPU、内存、网络以及存储之间的性能平衡。因此运营团队在选择机器配置时要针对不同的工作节点选择合适硬件类型。一个基本的Hadoop集群中的节点主要有：Namenode负责协调集群中的数据存储，DataNode存储被拆分的数据块，Jobtracker协调数据计算任务，最后的节点类型是Secondarynamenode，帮助NameNode收集文件系统运行的状态信息。

在集群中，大部分的机器设备是作为Datanode和TaskTracker工作的。Datanode/TaskTracker的硬件规格可以采用以下方案：
4个磁盘驱动器（单盘1-2T），支持JBOD
2个4核CPU,至少2-2.5GHz
16-24GB内存
千兆以太网
Namenode提供整个HDFS文件系统的namespace管理，块管理等所有服务,因此需要更多的RAM，与集群中的数据块数量相对应，并且需要优化RAM的内存通道带宽，采用双通道或三通道以上内存。硬件规格可以采用以下方案：
8-12个磁盘驱动器（单盘1-2T）
2个4核/8核CPU
16-72GB内存
千兆/万兆以太网
Secondarynamenode在小型集群中可以和Namenode共用一台机器，较大的群集可以采用与Namenode相同的硬件。考虑到关键节点的容错性，建议客户购买加固的服务器来运行的Namenodes和Jobtrackers，配有冗余电源和企业级RAID磁盘。最好是有一个备用机，当 namenode或jobtracker 其中之一突然发生故障时可以替代使用。

目前市场上的硬件平台满足Datanode/TaskTracker节点配置需求的很多，，据了解深耕网络安全硬件平台多年的立华科技瞄准了Hadoop的发展前景，适时推出了专门针对NameNode的设备----双路至强处理器搭载12块硬盘的FX-3411，将计算与存储完美融合，四通道内存的最大容量可达到256GB，完全满足NameNode对于一个大的内存模型和沉重的参考数据缓存组合的需求。

同时在网络方面，FX-3411支持的2个PCI-E*8的网络扩展，网络吞吐达到80Gbps，更是远远满足节点对千兆以太网或万兆以太网的需求。此外针对Datanode/TaskTracker等节点的配置需求，立华科技不仅推出了可支持单路至强E38核处理器和4块硬盘的标准品FX-3210，还有可以全面客制化的解决方案，以满足客户的不同需求。

Hadoop集群往往需要运行几十，几百或上千个节点，构建匹配其工作负载的硬件，可以为一个运营团队节省可观的成本，因此，需要精心的策划和慎重的选择。

⑶ 搭建hadoop集群，常用配置文件是什么，以及配置哪些属性

一. 简介

参考了网上许多教程，最终把hadoop在ubuntu14.04中安装配置成功。下面就把详细的安装步骤叙述一下。我所使用的环境：两台ubuntu 14.04 64位的台式机，hadoop选择2.7.1版本。（前边主要介绍单机版的配置，集群版是在单机版的基础上，主要是配置文件有所不同，后边会有详细说明）

二. 准备工作

2.1 创建用户

创建用户，并为其添加root权限，经过亲自验证下面这种方法比较好。

1 sudo adser hadoop2 sudo vim /etc/sudoers3 # 修改内容如下：4 root ALL = (ALL)ALL5 hadoop ALL = (ALL)ALL

给hadoop用户创建目录，并添加到sudo用户组中，命令如下：

1 sudo chown hadoop /home/hadoop2 # 添加到sudo用户组3 sudo adser hadoop sudo

最后注销当前用户，使用新创建的hadoop用户登陆。

2.2安装ssh服务

ubuntu中默认是没有装ssh server的（只有ssh client），所以先运行以下命令安装openssh-server。安装过程轻松加愉快～

sudo apt-get install ssh openssh-server

2.3 配置ssh无密码登陆

直接上代码：执行完下边的代码就可以直接登陆了（可以运行ssh localhost进行验证）

1 cd ~/.ssh# 如果找不到这个文件夹，先执行一下 "ssh localhost"2 ssh-keygen -t rsa3 cp id_rsa.pub authorized_keys

注意：

这里实现的是无密登陆自己，只适用与hadoop单机环境。如果配置Hadoop集群设置Master与Slave的SSH无密登陆可

三. 安装过程

3.1 下载hadoop安装包

有两种下载方式：

1. 直接去官网下载：

2. 使用wget命令下载：

3.2 配置hadoop

1. 解压下载的hadoop安装包，并修改配置文件。我的解压目录是（/home/hadoop/hadoop-2.7.1），即进入/home/hadoop/文件夹下执行下面的解压缩命令。

tar -zxvf hadoop-2.7.1.tar.gz

2. 修改配置文件：（hadoop2.7.1/etc/hadoop/）目录下，hadoop-env.sh，core-site.xml，mapred-site.xml.template，hdfs-site.xml。

(1). core-site.xml 配置：其中的hadoop.tmp.dir的路径可以根据自己的习惯进行设置。

至此，wordcount demo 运行结束。

六. 总结

配置过程遇到了很多问题，最后都一一解决，收获很多，特此把这次配置的经验分享出来，方便想要配置hadoop环境的各位朋友～

（Hadoop集群安装配置过程基本和单机版是一样的，主要是在配置文件方面有所区别，以及ssh无密登陆要求master和slave能够互相无密登陆。

⑷ 如何搭建elasticsearch集群

1.1. 基本配置 elasticsearch的config文件夹里面有两个配置文件：elasticsearch.yml和logging.yml，第一个是es的基本配置文件，第二个是日志配置文件，es也是使用log4j来记录日志的，所以logging.yml里的设置按普通log4j配置文件来设置就行了

⑸ Apache apollo 怎么实现集群部署

Apache Apollo是一个代理服务器，主要用于消息的请求转发，下面是其常用的一些配置文件的介绍
一、users.properties：
用来配置可以使用服务器的用户以及相应的密码。
其在文件中的存储方式是：用户名=密码，如：
lily=123456
表示新增一个用户，用户名是：lily，密码是：123456
二、groups.properties：
持有群体的用户映射，可以通过组而不是单个用户简化访问控制列表。
可以为一个定义的组设置多个用户，用户之间用“|”隔开，如：
admins=admin|lily
表示admins组中有admin和lily两个用户
三、black-list.txt：
用来存放不允许连接服务器的IP地址，相当于黑名单类似的东西。
例如：
10.20.9.147
表示上面IP不能够连接到服务器。
四、login.config：
是一个服务器认证的配置文件，为了安全apollo1.6版本提供了认证功能，只有相应的用户名和正确的密码才能够连接
服务器。
五、服务器主配置文件apollo.xml：
该配置文件用于控制打开的端口，队列，安全，虚拟主机设置等。
1、认证：可以使用<authenticationdomain="internal" />来配置是否需要连接认证，如果将其属性enable设置为false表示不用认证，任何人都可以连接服务器，默认为true
2、access_rule：可以在broker或者virtual_host中用于定义用户对服务器资源的各种行为。如：
<access_rule allow="users" action="connect create destroy send receive consume"/>表示群组users里面的用户可以对服务器资源进行的

⑹ Linux系统 CentOS 7怎么搭建集群

CentOS 7下怎么搭建高可用集群。高可用集群是指以减少服务中断时间为目的的服务器集群技术。它通过保护用户的业务程序对外不间断提供的服务，把因软件/硬件/人为造成的故障对业务的影响降低到最小程度。那么新的centos下怎么来搭建高可用集群。环境：本文以两台机器实现双集热备高可用集群，主机名node1的IP为192.168.122.168 ，主机名node2的IP为192.168.122.169 。
一、安装集群软件必须软件pcs，pacemaker，corosync，fence-agents-all，如果需要配置相关服务，也要安装对应的软件
二、配置防火墙
1、禁止防火墙和selinux
修改/etc/sysconfig/selinux确保SELINUX=disabled，然后执行setenforce 0或者reboot服务器以生效
2、设置防火墙规则
三、各节点之间主机名互相解析分别修改2台主机名分别为node1和node2，在centos 7中直接修改/etc/hostname加入本机主机名和主机表，然后重启网络服务即可。
配置2台主机的主机表，在/etc/hosts中加入
四、各节点之间时间同步在node1和node2分别进行时间同步，可以使用ntp实现。
五、各节点之间配置ssh的无密码密钥访问。下面的操作需要在各个节点上操作。
两台主机都要互相可以通信，所以两台主机都得互相生成密钥和复制公钥，相互的节点上的hosts文件是都要解析对方的主机名， 192.168.122.168 node1 192.168.122.169 node2
六、通过pacemaker来管理高可用集群
1、创建集群用户
为了有利于各节点之间通信和配置集群，在每个节点上创建一个hacluster的用户，各个节点上的密码必须是同一个。

⑺ 怎么搭建cassandra集群

首先需要准备3台或以上的计算机。下面假定有3台运行 Linux 操作系统的计算机，IP地址分别为 192.168.0.100, 192.168.0.101 和 192.168.0.102。系统需要安装好 java 运行时环境，然后到这里下载 0.7 版本的 Cassandra 二进制发行包。

挑选其中的一台机开始配置，先展开 cassandra 发行包：$ tar -zxvf apache-cassandra-$VERSION.tar.gz
$ cd apache-cassandra-$VERSION

其中的 conf/cassandra.yaml 文件为主要配置文件，0.7 版以后不再采用XML格式配置文件了，如果对 YAML 格式不熟悉的话最好先到这里了解一下。

⑻ 怎样在linux系统上搭建Hadoop集群

（1）下载jdk，在官网下载，下载rpm的包
（2）hadoop包的下载，官网上下载
download hadoop->release->mirror site(镜像站)->随便选择离自己近的（HTTP下的第一个）->选择2.7.2->下载.tar.gz
（3）将两个包远程传输到linux虚拟机中
（4）将主机名和ip地址进行适配，让我们的ip地址和主机名（如bigdata）相匹配：写到/etc/hosts里面
vi /etc/hosts
按“i”进入插入状态将原有的地址注释掉
在新的一行输入：ip地址主机名（如172.17.171.42 bigdata）（注：可以双击xshell的窗口再打开一个连接窗口，可以在新的窗口查询ip地址并进行复制）
按“Esc”退出插入状态
输入：wq保存退出
修改完之后可以输入hostname回车，查看是否成功
reboot：重启，使得刚刚的修改生效
（5）将包放到opt下：cp hadoop-2.7.2.tar.gz /opt/
cp jdk-8u111-linux-x64.rpm /opt/
进入opt：cd /opt/
查看opt下的文件：ll
（6）安装jdk，配置jdk的环境变量
安装命令：rpm -ivh jdk-Bu101-linux-x64.rpm
配置环境变量：进入profile进行编辑：vi /etc/profile
并按照上面的方式在最后写入并保存：JAVA_HOME=/usr/java/default/（/usr/java/default/是jdk的安装目录）
打印JAVA_HOME检验是否配置好：echo $JAVA_HOME结果发现打印出来的没有内容因为我们对/etc/profile的修改需要通过以下命令对它生效source /etc/profile。再次输入echo $JAVA_HOME，打印结果为/usr/java/default/
（7）验证jdk安装好：java -version
（8）配置SSH（免密码登录）
回到根目录：cd 安装SSH秘钥：ssh-keygen -t rsa会自动在/root/.shh/目录下生成
查看目录：ll .ssh/有两个新生成的文件id_rsa(私钥)，id_rsa.pub(公钥)
进入.ssh/:cd .ssh/
将公钥写入authorized_key中：cat id_rsa.pub >> authorized_keys
修改authorized_keys文件的权限：chmod 644 authorized_keys
修改完后退出.ssh的目录cd进入初始目录输入：ssh bigdata（bigdata为你要远程登录的主机名或者ip地址）第一次登录需要确认是否需要继续登录输入yes继续登录
退出exit
（9）安装及配置hadoop
解压:tar zxf hadoop-2.7.2.tar.gz
查看/opt目录下是否已经存在解压的文件：ll（结果为出现hadoop-2.7.2）
继续查看hadoop-2.7.2里的内容：cd hadoop-2.7.2
配置HADOOP_HOME:修改/etc/profile
进入hadoop的配置文件目录cd /opt/hadoop-2.7.2/etc/hadoop/，会用的的配置文件如下：
core-site.xml
配置hadoop的文件系统即HDFS的端口是什么。
配置项1为default.name，值为hdfs://bigdata:9000（主机名：bigdata也可也写成ip地址，端口9000习惯用）
配置项2为hadoop临时文件，其实就是配置一个目录，配置完后要去创建这个目录，否则会存在问题。
配置项3分布式文件系统的垃圾箱，值为4320表示3分钟回去清理一次

<property>
<name>fs.default.name</name>
<value>hdfs://bigdata:9000</value>
</property>

<property>
<name>hadoop.tmp.dir</name>
<value>/opt/hadoop-2.7.2/current/tmp</value>
</property>
<property>
<name>fs.trash.interval</name>
<value>4320</value>
</property>
hdfs-site.xml
配置项1，namenode的细节实际上就是一个目录
配置项2，datanode的细节，真实环境中datanode的内容不需要再namenode的系统下配置，在此配置的原因是我们的系统是伪分布式系统，namenode和datanode在一台机器上
配置项3，副本的数量，在hdfs中每个块有几个副本
配置项4，HDFS是否启用web
配置项5，HDFS的用户组
配置项6，HDFS的权限，现在配置为不开启权限

<property>
<name>dfs.namenode.name.dir</name>
<value>/opt/hadoop-2.7.2/current/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>/opt/hadoop-2.7.2/current/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions.superusergroup</name>
<value>staff</value>
</property>
<property>
<name>dfs.permissions.enabled</name>
<value>false</value>
</property>
创建配置文件中不存在的目录：mkdir -p /opt/hadoop-2.7.2/current/data
mkdir -p /opt/hadoop-2.7.2/current/dfs/name
mkdir -p /opt/hadoop-2.7.2/current/tmp
yarn-site.xml
配置项1，resourcemanager的hostname，值为你运行的那台机器的主机名或IP地址
配置项2，nodemanager相关的东西
配置项3，nodemanager相关的东西
配置项4，resourcemanager的端口，主机名+端口号（IP+端口）
配置项5，resourcemanager调度器的端口
配置项6，resourcemanager.resource-tracker,端口
配置项7，端口
配置项8，端口
配置项9，日志是否启动
配置项10，日志保留的时间长短（以秒为单位）
配置项11，日志检查的时间
配置项12，目录
配置项13，目录的前缀

<property>
<name>yarn.resourcemanager.hostname</name>
<value>bigdata</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>maprece_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.maprece.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>bigdata:18040</value>
</property>
<property>
<name>yarn.resourcemanager.scheler.address</name>
<value>bigdata:18030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>bigdata:18025</value>
</property> <property>
<name>yarn.resourcemanager.admin.address</name>
<value>bigdata:18141</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>bigdata:18088</value>
</property>
<property>
<name>yarn.log-aggregation-enable</name>
<value>true</value>
</property>
<property>
<name>yarn.log-aggregation.retain-seconds</name>
<value>86400</value>
</property>
<property>
<name>yarn.log-aggregation.retain-check-interval-seconds</name>
<value>86400</value>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir</name>
<value>/tmp/logs</value>
</property>
<property>
<name>yarn.nodemanager.remote-app-log-dir-suffix</name>
<value>logs</value>
</property>
mapred-site.xml
没有mapred-site.xml，输入vi mapred-按“TAB”发现有mapred-site.xml.template，对该文件进行复制
cp mapred-site.xml.template mapred-site.xml 配置项1，maprece的框架
配置项2，maprece的通信端口
配置项3，maprece的作业历史记录端口
配置项4，maprece的作业历史记录端口
配置项5，maprece的作业历史记录已完成的日志目录，在hdfs上
配置项6，maprece中间完成情况日志目录
配置项7，maprece的ubertask是否开启

<property>
<name>maprece.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>maprece.jobtracker.http.address</name>
<value>bigdata:50030</value>
</property>
<property>
<name>maprece.jobhisotry.address</name>
<value>bigdata:10020</value>
</property>
<property>
<name>maprece.jobhistory.webapp.address</name>
<value>bigdata:19888</value>
</property>
<property>
<name>maprece.jobhistory.done-dir</name>
<value>/jobhistory/done</value>
</property>
<property>
<name>maprece.intermediate-done-dir</name>
<value>/jobhisotry/done_intermediate</value>
</property>
<property>
<name>maprece.job.ubertask.enable</name>
<value>true</value>
</property>
slaves

bigdata
hadoop-env.sh

JAVA_HOME＝/usr/java/default/
格式化分布式文件系统（hdfs）：hdfs namenode -format
成功的标志： INFO common.Storage: Storage directory /opt/hadoop-2.7.2/current/dfs/namehas been successfully formatted.
启动Hadoop集群：/opt/hadoop-2.7.2/sbin/start-all.sh
验证Hadoop集群是否正常启动：
jps，系统中运行的java进程;
通过端口查看（关闭防火墙或者service iptables stop在防火墙的规则中开放这些端口）：
http://bigdata:50070(http://http://192.168.42.209/:50070)，分布式文件系统hdfs的情况
yarn http://bigdata:18088(http://http://192.168.42.209/:50070)

⑼ 如何搭建50t的hadoop集群

先决条件
确保在你集群中的每个节点上都安装了所有必需软件。
获取Hadoop软件包。
安装
安装Hadoop集群通常要将安装软件解压到集群内的所有机器上。
通常，集群里的一台机器被指定为 NameNode，另一台不同的机器被指定为JobTracker。这些机器是masters。余下的机器即作为DataNode也作为TaskTracker。这些机器是slaves。
我们用HADOOP_HOME指代安装的根路径。通常，集群里的所有机器的HADOOP_HOME路径相同。
配置
接下来的几节描述了如何配置Hadoop集群。
配置文件
对Hadoop的配置通过conf/目录下的两个重要配置文件完成：
hadoop-default.xml - 只读的默认配置。
hadoop-site.xml - 集群特有的配置。
要了解更多关于这些配置文件如何影响Hadoop框架的细节，请看这里。
此外，通过设置conf/hadoop-env.sh中的变量为集群特有的值，你可以对bin/目录下的Hadoop脚本进行控制。
集群配置
要配置Hadoop集群，你需要设置Hadoop守护进程的运行环境和Hadoop守护进程的运行参数。
Hadoop守护进程指NameNode/DataNode 和JobTracker/TaskTracker。
配置Hadoop守护进程的运行环境
管理员可在conf/hadoop-env.sh脚本内对Hadoop守护进程的运行环境做特别指定。
至少，你得设定JAVA_HOME使之在每一远端节点上都被正确设置。
管理员可以通过配置选项HADOOP_*_OPTS来分别配置各个守护进程。下表是可以配置的选项。

⑽ 如何搭建apache+tomcat集群

在实际应用中，如果网站的访问量很大，为了提高访问速度，可以与多个Tomcat服务器与Apache服务器集成，让他们共同运行servlet/jsp组件的任务，多个Tomcat服务器构成了一个集群（Cluster）系统，共同为客户提供服务。集群系统具有以下优点：

高可靠性（HA）：利用集群管理软件，当主服务器故障时，备份服务器能够自动接管主服务器的工作，并及时切换过去，以实现对用户的不间断服务。
高性能计算（HP）：即充分利用集群中的每一台计算机的资源，实现复杂运算的并行处理，通常用于科学计算领域，比如基因分析，化学分析等。
负载平衡：即把负载压力根据某种算法合理分配到集群中的每一台计算机上，以减轻主服务器的压力，降低对主服务器的硬件和软件要求。

原理：JK插件的负载均衡器根据在worker.properties中配置的lbfactor（负载平衡因数），负责为集群系统中的Tomcat服务器分配工作负荷，以实现负载平衡。每个Tomcat服务器间用集群管理器（SimpleTcpCluster）进行通信，以实现HTTP回话的复制，比如Session。

下面我们在一台机器上配置一个Apache和两个Tomcat服务器集群：

2.安装Apache，安装两个Tomcat，并把一个测试项目放到两个Tomcat的webapps目录下以便以后测试。

3.把mod_jk.so复制到<apache_home>/moles下。

4.在<apache_home>/conf目录下创建：workers.properties文件：

"pln">worker "pun">. "pln">list "pun">= "pln">worker1 "pun">, "pln">worker2 "pun">, "pln">loadbalancer "com">#apache把Tomcat看成是工人，loadbalancer是负载均衡器

worker.worker1.host=localhost#Tomcatworker1服务器
worker.worker1.port=8009#Tomcat端口
worker.worker1.type=ajp13#协议
worker.worker1.lbfactor=100#负载平衡因数

worker.worker2.host=localhost#Tomcatworker2服务器
worker.worker2.port=8009#因为在一台机器上所以端口不能一样
worker.worker2.type=ajp13#协议
worker.worker2.lbfactor=100#设为一样代表两台机器的负载相同

worker.loadbalancer.type=1b
worker.loadbalancer.balanced_workers=worker1,worker2
worker.loadbalancer.sticky_seesion=false
worker.loadbalancer.sticky_session_force=false

说明：1.worker.loadbalancer.sticky_seesion如果设为true则说明会话具有“粘性”，也就是如果一个用户在一个Tomcat中建立了会话后则此后这个用户的所有操做都由这个Tomcat服务器承担。集群系统不会进行会话复制。如果设为false则下面的 sticky_session_force无意义。

2.sticky_session_force：假设sticky_session设为true，用户会话具有了粘性，当当前Tomcat服务器停止服务后，如果sticky_session_force为true也就是强制会话与当前Tomcat关联，那么会报500错误，如果设为false则会转到另外的Tomcat服务器。

5.修改<apache_home>/conf/httpd.conf文件，在文件后面加上：

"com">#Tomcat集群配置
"com">LoadMolejk_molemoles/mod_jk.so
JkWorkersFileconf/workers.properties
#我的工人们
JkLogFilelogs/mod_jk.log
#日志文件
JkLogLeveldebug
#tomcat运行模式
JkMount/*.jsploadbalancer
#收到.jsp结尾的文件交给负载均衡器处理
JkMount/helloapp/*loadbalancer
#收到helloapp/路径交给负载均衡器处理

6.修改两个Tomcat的conf/service.xml文件。

6.1首先要修改AJP端口，确保他们与workers.properties中配置的一样

例如按我们上面的配置，只需要把Tomcat2中的AJP端口该为8109即可。

6.2此外在使用了loadbalancer后，要求worker的名字与Tomcat的service.xml中的Engine元素的jvmRoute属性一致，

例如worker1修改为： <Engine name="Catalina" defaultHost="localhost" jvmRoute="worker1">

6.3另外，如果两台Tomcat服务器装在一台机器上，必须确保他们的端口没有冲突，Tomcat中一共配置了三个端口：

把其中一个该了让它们不一样就行了。

完成了以上步骤我们的集群算是基本完成了，打开Apache和两个Tomcat 浏览器进入：localhost/demo/ 能够正确访问。

为了测试，我们写一个jsp文件：test.jsp

"tag"><html>
<head>
<title>test</title>
</head>
<body>
<%
System.out.printfln("calltest.jsp");
%>
session:<%=session.getId()%>
</body></html>

把它放到两个Tomcat中的demo项目中，浏览器访问这个页面，每次访问只在一个Tomcat控制台打印语句。

然而页面中的Session Id是会变的。这种情况下如果一个用户正在访问时，如果跳到另一个Tomcat服务器，那么他的session就没有了，可能导致错误。

7.配置集群管理器

如果读者对HttpSession有了解应该知道，用户的会话状态保存在session中，一个浏览器访问多个网页它们的请求始终处于一个会话范围中，因此SessionID应该是不变的。

以上我们看到的浏览器中的SessionID不同，因为转到另一个Tomcat后当前会话就结束了，又在另一个服务器上开启了一个新的会话。那么怎么让多个Tomcat服务器共享一个会话呢?

为了解决上述问题，我们启用Tomcat的集群管理器（SimpleTcpCluster）：

7.1修改Tomcat1和Tomcat2的servlet.xml文件，在Engine元素中加入以下Cluster元素

"tag"><Cluster "pln"> "atn">className "pun">= "atv">"org.apache.catalina.ha.tcp.SimpleTcpCluster"
channelSendOptions="8">

<ManagerclassName="org.apache.catalina.ha.session.DeltaManager"
expireSessionsOnShutdown="false"
notifyListenersOnReplication="true"/>

<ChannelclassName="org.apache.catalina.tribes.group.GroupChannel">
<MembershipclassName="org.apache.catalina.tribes.membership.McastService"
bind="127.0.0.1"
address="228.0.0.4"
port="45564"
frequency="500"
dropTime="3000"/>
<ReceiverclassName="org.apache.catalina.tribes.transport.nio.NioReceiver"
address="auto"
port="4000"
autoBind="100"
selectorTimeout="5000"
maxThreads="6"/>
<SenderclassName="org.apache.catalina.tribes.transport.ReplicationTransmitter">
<TransportclassName="org.apache.catalina.tribes.transport.nio.PooledParallelSender"/>
</Sender>
<InterceptorclassName="org.apache.catalina.tribes.group.interceptors.TcpFailureDetector"/>
<InterceptorclassName="org.apache.catalina.tribes.group.interceptors.MessageDispatch15Interceptor"/>
</Channel>

<ValveclassName="org.apache.catalina.ha.tcp.ReplicationValve"filter=""/>
<ValveclassName="org.apache.catalina.ha.session.JvmRouteBinderValve"/>

<DeployerclassName="org.apache.catalina.ha.deploy.FarmWarDeployer"
tempDir="/tmp/war-temp/"
deployDir="/tmp/war-deploy/"
watchDir="/tmp/war-listen/"
watchEnabled="false"/>
<ClusterListenerclassName="org.apache.catalina.ha.session."/>
<ClusterListenerclassName="org.apache.catalina.ha.session.ClusterSessionListener"/>
</Cluster>

关于Cluster的相关介绍参照：<tomcat-home>webappsdocscluster-howto.html <tomcat-home>webappsdocsconfigcluster.html

7.2分别修改Tomcat1和Tomcat2 demo项目的web.xml文件，在后面加入<distributable>元素

"tag"><web-app>
"pln">...
"tag"><distributable/>
</web-app>

如果一个web项目的web.xml文件中指定了<distributable/>元素那么Tomcat服务器启动这个Web应用时，会为它创建由<Cluster>元素指定的会话管理器，这里我们用的是DeltaManager,他们把会话从一个Tomcat服务器复制到集群中另一个Tomcat服务器。

7.3重新启动两个Tomcat，发现Tomcat控制台还是依次打印出Call test.jsp 页面中的SessionID却不变了。测试完成。

重要说明：(1).如果项目要发布到集群上，那么与会话有关的类需要实现java.io.Serializable序列化接口。

(2).集群中Tomcat间用组播方式进行通信，如果机器上有多个网卡则可能导致组播失败，解决的办法是<Cluster>元素的<Membership>元素配置bind属性，它用于明确知道组播地址：

(3).如果集群较小，可以采用DeltaManager会话管理器，如果多的话建议使用BackupManager

(4).<Membership>的address设为"228.0.0.4"，运行时须确保机器联网能访问到该地址，否则可能运行失败。

阅读全文

热点内容

蜗牛游戏安卓手机怎么更换账号发布：2025-03-17 13:41:49 浏览：321

为什么人买一个苹果一个安卓发布：2025-03-17 13:36:59 浏览：438

三星手机短信在那个文件夹发布：2025-03-17 13:31:51 浏览：194

安卓皇帝隐藏剧情在哪里发布：2025-03-17 13:18:53 浏览：507

新版安卓为什么不兼容发布：2025-03-17 13:18:49 浏览：483

s3哪个配置性价比高发布：2025-03-17 13:06:09 浏览：320

气体压缩能量发布：2025-03-17 13:00:16 浏览：78

压缩油19 发布：2025-03-17 12:25:29 浏览：858

linux上网代理发布：2025-03-17 12:23:56 浏览：361

c是高级语言吗发布：2025-03-17 12:16:31 浏览：525

集群搭建配置文档怎么背

与集群搭建配置文档怎么背相关的资讯