hive计算合并小文件

发表于 2019-01-10 | 分类于 hive |

hive增加自动合并小文件配置以及在map阶段将多个小文件合并成一个计算。可以提高资源的利用率。

比如由于小文件原先需要启动10个map，现在只需要启动2个map。

hadoop hive 环境： hadoop2.6+hive1.2.1 lzo压缩

hive-site.xml 配置

阅读全文 »

marathon-lb输出代理的访问日志

发表于 2019-01-10 | 分类于 marathon |

marathon-lb输出代理的访问日志之前运行marathon-lb没有打印lb的代理日志，在容器中是能看到marathon-lb获取marathon信息的日志。如果想查看访问量、代理状态、代理的具体的URL等信息的话，还是没办法的。当然marathon-lb是有接口可以看到一些访问量、访问状态统计的信息的。可以用： 1http://marathon-lb-ip:9090/haproxy?stats 但是这个接口没有访问的具体信息，有问题很难排查。还有什么接口，你可以查看我之前写的文章 https://sukbeta.github.io/marathon-lb-configure-nginx/ 所以，下面我们来说说这么收集marathon-lb的日志。 marathon-lb的配置进入容器修改配置 1docker exec -it container-id /bin/bash 这里没有vi 什么的，可以用sed修改 config.py 我的配置是： 123456789101112131415161718192021222324252627......global daemo ...

阅读全文 »

hadoop Cannot obtain block length for LocatedBlock 解决

发表于 2019-01-02 | 分类于 hadoop |

这几天发现HDFS上的个别文件出现读取异常，使用 hdfs dfs -get 下载文件的话也会报错 “get: Cannot obtain block length for LocatedBlock” 信息。 hdfs dfs -get 报错信息： 12[hadoop@-client00 linshi]$ hdfs dfs -get /data/logs/dt=2018-12-24/mx.1545619356868 .get: Cannot obtain block length for LocatedBlock{BP-2011896023-10.10.10.100-1494585324698:blk_1133914343_60174136; getBlockSize()=359; corrupt=false; offset=0; locs=[DatanodeInfoWithStorage[10.10.10.104:50010,DS-f83c59e0-b769-433e-92d3-db175fcd6717,DISK], DatanodeInfoWithStorage[10 ...

阅读全文 »

cgroup限制nodemanager、regionserver的资源

发表于 2018-12-24 | 分类于 hadoop |

cgroup限制nodemanager、regionserver的资源用系统自带的cgroup服务来限制nodemanager、regionserver的cpu使用率。安装cgroup服务，1234567## centos 7.1 系统安装 cgroupchattr -i /etc/passwd /etc/shadow /etc/group /etc/gshadowyum install -y libcgroup libcgroup-tools## centos 6 系统安装 cgroupchattr -i /etc/passwd /etc/shadow /etc/group /etc/gshadowyum install -y libcgroup 编辑cgroup配置文件cpu 32盒最大使用 90% ，yarn 32 0.9 100000 = 2880000 ，hbase 600000 6盒cpu 600 * 1000 123456789101112131415161718192021222324252627282930313233vim /etc/cgconfig ...

阅读全文 »

hive metastore ha 配置

发表于 2018-12-20 | 分类于 hive |

hive metastore 配置多台，可以避免单节点故障导致整个集群的hive client不可用。同时hive client配置多个merastore地址，会自动选择可用节点。 metastore单独配置metastore 的配置单独拿出来，这样不容易让别人看到连接数据库的信息。 12345[root@cd-client00 conf]# echo $HIVE_HOME/home/hadoop/apache-hadoop/hivemkdir -p /home/hadoop/apache-hadoop/hive/hive-metestore/confchmod 700 /home/hadoop/apache-hadoop/hive/hive-metestore/conf 这个目录的权限你可以设置为 700 ，只有自己的帐号可以看到。其他的hive client也不需要这个目录的配置。 vim /home/hadoop/apache-hadoop/hive/hive-metestore/conf/hive-site.xml 123456789101112131415161718192 ...

阅读全文 »

kafka设置某个topic的数据过期时间

发表于 2018-12-19 | 分类于 kafka |

kafka 单独设置某个topic的数据过期时间kafka 默认存放7天的临时数据，如果遇到磁盘空间小，存放数据量大，可以设置缩短这个时间。全局设置修改 server.properties 12log.retention.hours=72log.cleanup.policy=delete 单独对某一个topic设置过期时间如果你这样设置完，可以磁盘空间还是不够，或只有某一个topic数据量过大。想单独对这个topic的过期时间设置短点，可以这样设置：1./kafka-configs.sh --zookeeper localhost:2181 --alter --entity-name wordcounttopic --entity-type topics --add-config retention.ms=86400000 retention.ms=86400000 为一天，单位是毫秒。查看设置：123[hadoop@kafka00 kafka]$ ./kafka-configs.sh --zookeeper localhost:2181 --describe --en ...

阅读全文 »

一个简单好用的ssh远程执行命令的脚本

发表于 2018-12-18 | 分类于 shell |

运维经常需要到其他机器上执行命令，copy等操作。其实也有很多工具可以实现的，如jenkins、saltstack、ansible等等。这样还需要安装工具什么的。下面的小脚本不需要任何工具。先实现copy和执行命令吧。好了，直接看脚本吧。脚本内容123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960#!/bin/bashCOMMAND=$1shiftSLAVES=$1shift#distribute filesif [ $COMMAND == "distribute" ] || [ $COMMAND == "copy" ];then SRC=$1 shift DEST=$1 shift if [ -f $SLAVES ];then cat $SLAVES | while read slave do #已#开头的注释可略过 echo "$sl ...

阅读全文 »

zookeeper清理日志

发表于 2018-12-17 | 分类于 hadoop |

zookeeper 清理日志在使用zookeeper过程中，会有dataDir和dataLogDir两个目录，分别用于snapshot和事务日志的输出（默认情况下只有dataDir目录，snapshot和事务日志都保存在这个目录中，正常运行过程中，ZK会不断地把快照数据和事务日志输出到这两个目录，并且如果没有人为操作的话，ZK自己是不会清理这些文件的，需要管理员来清理。配置方法从3.4.0开始，zookeeper提供了自动清理snapshot和事务日志的功能，通过配置 autopurge.snapRetainCount 和 autopurge.purgeInterval 这两个参数能够实现定时清理了。这两个参数都是在zoo.cfg中配置的： For Example：一个zoo.cfg配置的例子 1234567891011121314tickTime=2000initLimit=10syncLimit=5dataDir=/home/hadoop/apache-hadoop/zookeeper/var/dataclientPort=2181dataLogDir=/home/hadoop ...

阅读全文 »

Hue编译安装及Hadoop相关组建的配置

发表于 2018-12-06 | 分类于 hue |

Hue安装部署Hue是一个开源的Apache Hadoop UI系统，是基于Python Web框架Django实现的。Hue可以使开发者在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据，例如操作HDFS上的数据，运行MapReduce Job等等。本文介绍CentOS6.5安装hue3.11.0，及Hadoop相关组建的配置。安装依赖1234yum install -y ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel make mysql mysql-devel openldap-devel Python-devel sqlite-devel openssl-devel gmp-devel libffi-devel unzipyum install -y cyrus-sasl-plain yum install -y libssl-devel libffi-develyum install -y ...

阅读全文 »

源码编译安装 apache hadoop

发表于 2018-12-03 | 分类于 hadoop |

安装 apache hadoop 2.7.2 集群这是我安装编译hadoop得意个笔记手册，和大家分享一下。环境：系统 Centos 7 java ： 1.8 apache hadoop 版本： 2.7.2 hadoop集群hosts列表 IP hostname 运行服务 192.168.77.158 namenode00.host-shining.com namenode、zk、journalnode、standby-resourcemanager，hbase-master、spark-master 192.168.77.159 namenode01.host-shining.com namenode、zk、journalnode、resourcemanager，hbase-master、jobhistory 192.168.77.161 datanode00.host-shining.com datanode、nodemanager、zk、journalnode 192.168.77.162 datanode01.host-shining ...

阅读全文 »