前言
本次搭建CDH主要用于edX的数据分析,用于安装pipeline加快运算速度。
架构设计
3+N结构,3台主机负责HDFS主节点、CDH自身服务、YARN的ResourceManager等主要服务。 其他N台负责HDFS的NameNode和YARN的NodeManager,承担计算任务。现初步设计为6台、即3+3
硬件配置
主节点
CPU:双核E5*4
内存:16G
工作节点
CPU :双核E5*4
内存:16G
操作系统
Ubuntu 14.04 64位
准备工作
hostname、hosts
每台hostname统一前缀,我写的是hadoop。域名有dns的情况下使用dns更方便。
sudo vim /etc/hostname
sudo vim /etc/hosts
127.0.0.1 localhost
IP1 hadoop1.xxx.cn hadoop1
IP2 hadoop2.xxx.cn hadoop2
IP3 hadoop3.xxx.cn hadoop3
IP4 hadoop4.xxx.cn hadoop4
IP5 hadoop5.xxx.cn hadoop5
IP6 hadoop6.xxx.cn hadoop6
关闭防火墙
sudo ufw disable
sudo iptables -P INPUT ACCEPT
sudo iptables -P FORWARD ACCEPT
sudo iptables -P OUTPUT ACCEPT
sudo iptables -F
sudo apt-get remove iptables
配置网络
sudo vim /etc/sysctl.conf
在最后添加
net.ipv6.conf.all.disable_ipv6 = 1
net.ipv6.conf.default.disable_ipv6 = 1
net.ipv6.conf.lo.disable_ipv6 = 1
net.ipv6.conf.eth0.disable_ipv6 = 1
vm.swappiness = 10
然后运行sudo sysctl -p
配置CDH库
安装Apache
sudo apt-get install apache2
从官网下载CDH的库并解压到/var/www/html/cm
从官网下载CDH的parcels并解压到/var/www/html/CDH
配置ssh
切换到root下生成密钥和公钥并添加信任
sudo su
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
添加本地库
sudo vim /etc/apt/sources.list.d/my-private-cloudera-repo.list
添加以下内容
deb [arch=amd64] http://这里替换IP/cm trusty-cm5.0.0 contrib
deb [arch=amd64] http://这里替换IP/cm trusty-cm5.7.0 contrib
deb [arch=amd64] http://这里替换IP/cm trusty-cm5.7 contrib
添加信任
curl -s http://这里替换IP/cm/archive.key | sudo apt-key add -
下载安装程序开始安装
wget https://archive.cloudera.com/cm5/installer/latest/cloudera-manager-installer.bin
sudo chmod u+x ./cloudera-manager-installer.bin
sudo ./cloudera-manager-installer.bin --skip_repo_package=1
如果报错查看/var/log下的错误日志
初始化集群
访问http://这里替换IP:7180
执行安装向导
安装成功后即可开始使用
扩展集群
为了方便其他学校使用,遂制作了单节点镜像、安装了所有最基本的CDH角色。内存要求32G、CPU要求8核以上。镜像中已经做完了之前说的所有工作,可直接使用。
扩展节点时裸机要求和之前写的一样、做到下载安装程序之前就可以了(也要给root添加公钥信任),之后通过主节点添加角色实例即可。在主节点的apt缓存中有下载好的5.7.0所有安装包,可直接拷贝加快安装速度。路径:/var/cache/apt/archives
0 Comments