为了增加pipeline的运算速度,所以利用集群来进行日志的分析统计。测试数据规模:某机构edX的D版在真实场景下一年多使用记录。 开始日期 2016/11/27 开始时间 2:26:00 结束日期 2016/11/28 结束时间 3:34:00 总时间 23:10:54 日志开始日期 2015/6/7 日志结束日期 2016/11/24 在没有任何设置的情况下,运行完所有任务的时间如上表。。。。将近一天的时间=-=太慢了。 经过不断的尝试、分析如下: 慢的原因是每个任务都会有很多的map和reduce任务生成、而每个mapreduce任务都会占用一个worker节点的容器、每个服务器能申请到的容器数量和 ...
CDH5使用准备
前言 本次搭建CDH主要用于edX的数据分析,用于安装pipeline加快运算速度。 架构设计 3+N结构,3台主机负责HDFS主节点、CDH自身服务、YARN的ResourceManager等主要服务。 其他N台负责HDFS的NameNode和YARN的NodeManager,承担计算任务。现初步设计为6台、即3+3 硬件配置 主节点 CPU:双核E5*4 内存:16G 工作节点 CPU :双核E5*4 内存:16G 操作系统 Ubuntu 14.04 64位 准备工作 hostname、hosts 每台hostname统一前缀,我写的是hadoop。域名有dns的情况下使用dns更方便。 sudo vim /etc/hostname sudo vim /etc/hosts 127.0.0.1 loca ...
Linux笔记关于同步文件
由于insight的数据需要每天同步,所以需要每天定时同步日志到集群的HDFS。所以写了个简单的脚本进行同步。脚本如下 前提是配置好ssh免密码 Shell REMOTE_USER=username REMOTE_HOST=example.com REMOTE_SSH_PORT=22 REMOTE_LOG_PATH=/edx/var/log/tracking LOCAL_TMP_LOG_PATH=/tmp/insights/bistu HDFS_HOST=hadoop1.example.com HDFS_PORT=9000 HDFS_ROOT=hdfs://$HDFS_HOST:$HDFS_PORT HDFS_LOG_PATH=$HDFS_ROOT/edx-analytics-pipeline/bistu/data HDFS_PATH=/edx/app/hadoop/hadoop/bin/hdfs ...
ansible初步–批量升级CDH的jdk
由于要在集群上操作配置、并且即将搭建一个新的集群,所以我不想再像之前一样复制粘贴命令了!!会死人的。。。 so,看了下ansible, 环境:Ubuntu 14.04主机*6 六台服务器运行的命令相同 (前提:已经做完root密钥互信) 安装: sudo apt-get install ansible 配置: sudo /etc/ansible/hosts 添加进去所有主机,并分组,如下 [hadoop] hadoop1.bistu.edu.cn hadoop2.bistu.edu.cn hadoop3.bistu.edu.cn hadoop4.bistu.edu.cn hadoop5.bistu.edu.cn hadoop6.bistu.edu.cn 批量传送文件,这次是升级jdk 把安装包放到所有主机的home下 an ...
CDH5分布式运行任务的各种坑(更新ing)
# CDH搭建、配置(待填坑) # 角色分配设计(待填坑) # 参数调优(待填坑) 因为要把edX中Insight的数据导入到一个6节点集群中做运算,所以尝试分离pipline,远程执行分析任务。具体过程有时间另写文章分析(先挖个坑)=-= 今天发现luigi调度任务的时候把任务挂起后就不动了,最开始怀疑luigi配置问题,按官方文档修改metastore_host和metastore_port均无效 但是CDH的监控显示hive的Server正常运行,查看日志也没看到输出错误,然后我查看了task的源码发现需要从hive中查询数据,所以怀疑hive配置有问题, hive配置文件由/etc/hive/conf指 ...