这里是黄永亮的博客

pipeline

记一次蜜汁BUG

hadoop任务出错 C 01234567891011121314  Diagnostics: Exception from container-launch.Container id: container_1528273359898_0016_02_000001Exit code: 255Stack trace: ExitCodeException exitCode=255:        at org.apache.hadoop.util.Shell.runCommand(Shell.java:545)        at org.apache.hadoop.util.Shell.run(Shell.java:456)   & ...

CDH5性能调优

为了增加pipeline的运算速度,所以利用集群来进行日志的分析统计。测试数据规模:某机构edX的D版在真实场景下一年多使用记录。 开始日期 2016/11/27 开始时间 2:26:00 结束日期 2016/11/28 结束时间 3:34:00 总时间 23:10:54 日志开始日期 2015/6/7 日志结束日期 2016/11/24 在没有任何设置的情况下,运行完所有任务的时间如上表。。。。将近一天的时间=-=太慢了。 经过不断的尝试、分析如下: 慢的原因是每个任务都会有很多的map和reduce任务生成、而每个mapreduce任务都会占用一个worker节点的容器、每个服务器能申请到的容器数量和 ...

CDH5使用准备

前言 本次搭建CDH主要用于edX的数据分析,用于安装pipeline加快运算速度。 架构设计 3+N结构,3台主机负责HDFS主节点、CDH自身服务、YARN的ResourceManager等主要服务。 其他N台负责HDFS的NameNode和YARN的NodeManager,承担计算任务。现初步设计为6台、即3+3 硬件配置 主节点 CPU:双核E5*4 内存:16G 工作节点 CPU :双核E5*4 内存:16G 操作系统 Ubuntu 14.04 64位 准备工作 hostname、hosts 每台hostname统一前缀,我写的是hadoop。域名有dns的情况下使用dns更方便。 sudo vim /etc/hostname sudo vim /etc/hosts 127. ...