舒克贝塔


  • 首页

  • 标签

  • 分类

  • 归档

  • 公益404

  • 搜索

hive计算合并小文件

发表于 2019-01-10 | 分类于 hive |

hive增加自动合并小文件配置以及在map阶段将多个小文件合并成一个计算。可以提高资源的利用率。

比如由于小文件原先需要启动10个map,现在只需要启动2个map。

hadoop hive 环境: hadoop2.6+hive1.2.1 lzo压缩

hive-site.xml 配置

阅读全文 »

marathon-lb输出代理的访问日志

发表于 2019-01-10 | 分类于 marathon |
marathon-lb输出代理的访问日志之前运行marathon-lb没有打印lb的代理日志,在容器中是能看到marathon-lb获取marathon信息的日志。如果想查看访问量、代理状态、代理的具体的URL等信息的话,还是没办法的。 当然marathon-lb是有接口可以看到一些访问量、访问状态统计的信息的。 可以用: 1http://marathon-lb-ip:9090/haproxy?stats 但是这个接口没有访问的具体信息,有问题很难排查。 还有什么接口, 你可以查看我之前写的文章 https://sukbeta.github.io/marathon-lb-configure-nginx/ 所以,下面我们来说说这么收集marathon-lb的日志。 marathon-lb的配置进入容器修改配置 1docker exec -it container-id /bin/bash 这里没有vi 什么的,可以用sed修改 config.py 我的配置是: 123456789101112131415161718192021222324252627......global daemo ...
阅读全文 »

hadoop Cannot obtain block length for LocatedBlock 解决

发表于 2019-01-02 | 分类于 hadoop |
这几天发现HDFS上的个别文件出现读取异常,使用 hdfs dfs -get 下载文件的话也会报错 “get: Cannot obtain block length for LocatedBlock” 信息。 hdfs dfs -get 报错信息: 12[hadoop@-client00 linshi]$ hdfs dfs -get /data/logs/dt=2018-12-24/mx.1545619356868 .get: Cannot obtain block length for LocatedBlock{BP-2011896023-10.10.10.100-1494585324698:blk_1133914343_60174136; getBlockSize()=359; corrupt=false; offset=0; locs=[DatanodeInfoWithStorage[10.10.10.104:50010,DS-f83c59e0-b769-433e-92d3-db175fcd6717,DISK], DatanodeInfoWithStorage[10 ...
阅读全文 »

cgroup限制nodemanager、regionserver的资源

发表于 2018-12-24 | 分类于 hadoop |
cgroup限制nodemanager、regionserver的资源用系统自带的cgroup服务来限制nodemanager、regionserver的cpu使用率。 安装cgroup服务,1234567## centos 7.1 系统安装 cgroupchattr -i /etc/passwd /etc/shadow /etc/group /etc/gshadowyum install -y libcgroup libcgroup-tools## centos 6 系统安装 cgroupchattr -i /etc/passwd /etc/shadow /etc/group /etc/gshadowyum install -y libcgroup 编辑cgroup配置文件cpu 32盒 最大使用 90% ,yarn 32 0.9 100000 = 2880000 ,hbase 600000 6盒cpu 600 * 1000 123456789101112131415161718192021222324252627282930313233vim /etc/cgconfig ...
阅读全文 »

hive metastore ha 配置

发表于 2018-12-20 | 分类于 hive |
hive metastore 配置多台,可以避免单节点故障导致整个集群的hive client不可用。同时hive client配置多个merastore地址,会自动选择可用节点。 metastore单独配置metastore 的配置单独拿出来,这样不容易让别人看到连接数据库的信息。 12345[root@cd-client00 conf]# echo $HIVE_HOME/home/hadoop/apache-hadoop/hivemkdir -p /home/hadoop/apache-hadoop/hive/hive-metestore/confchmod 700 /home/hadoop/apache-hadoop/hive/hive-metestore/conf 这个目录的权限你可以设置为 700 ,只有自己的帐号可以看到。 其他的hive client也不需要这个目录的配置。 vim /home/hadoop/apache-hadoop/hive/hive-metestore/conf/hive-site.xml 123456789101112131415161718192 ...
阅读全文 »

kafka设置某个topic的数据过期时间

发表于 2018-12-19 | 分类于 kafka |
kafka 单独设置某个topic的数据过期时间kafka 默认存放7天的临时数据,如果遇到磁盘空间小,存放数据量大,可以设置缩短这个时间。 全局设置修改 server.properties 12log.retention.hours=72log.cleanup.policy=delete 单独对某一个topic设置过期时间如果你这样设置完,可以磁盘空间还是不够,或只有某一个topic数据量过大。 想单独对这个topic的过期时间设置短点, 可以这样设置:1./kafka-configs.sh --zookeeper localhost:2181 --alter --entity-name wordcounttopic --entity-type topics --add-config retention.ms=86400000 retention.ms=86400000 为一天,单位是毫秒。 查看设置:123[hadoop@kafka00 kafka]$ ./kafka-configs.sh --zookeeper localhost:2181 --describe --en ...
阅读全文 »

一个简单好用的ssh远程执行命令的脚本

发表于 2018-12-18 | 分类于 shell |
运维经常需要到其他机器上执行命令,copy等操作。其实也有很多工具可以实现的,如jenkins、saltstack、ansible等等。这样还需要安装工具什么的。下面的小脚本不需要任何工具。先实现copy和执行命令吧。 好了,直接看脚本吧。 脚本内容123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960#!/bin/bashCOMMAND=$1shiftSLAVES=$1shift#distribute filesif [ $COMMAND == "distribute" ] || [ $COMMAND == "copy" ];then SRC=$1 shift DEST=$1 shift if [ -f $SLAVES ];then cat $SLAVES | while read slave do #已#开头的注释可略过 echo "$sl ...
阅读全文 »

zookeeper清理日志

发表于 2018-12-17 | 分类于 hadoop |
zookeeper 清理日志在使用zookeeper过程中,会有dataDir和dataLogDir两个目录,分别用于snapshot和事务日志的输出(默认情况下只有dataDir目录,snapshot和事务日志都保存在这个目录中,正常运行过程中,ZK会不断地把快照数据和事务日志输出到这两个目录,并且如果没有人为操作的话,ZK自己是不会清理这些文件的,需要管理员来清理。 配置方法从3.4.0开始,zookeeper提供了自动清理snapshot和事务日志的功能,通过配置 autopurge.snapRetainCount 和 autopurge.purgeInterval 这两个参数能够实现定时清理了。这两个参数都是在zoo.cfg中配置的: For Example: 一个zoo.cfg配置的例子 1234567891011121314tickTime=2000initLimit=10syncLimit=5dataDir=/home/hadoop/apache-hadoop/zookeeper/var/dataclientPort=2181dataLogDir=/home/hadoop ...
阅读全文 »

Hue编译安装及Hadoop相关组建的配置

发表于 2018-12-06 | 分类于 hue |
Hue安装部署Hue是一个开源的Apache Hadoop UI系统,是基于Python Web框架Django实现的。Hue可以使开发者在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。 本文介绍CentOS6.5安装hue3.11.0,及Hadoop相关组建的配置。 安装依赖1234yum install -y ant asciidoc cyrus-sasl-devel cyrus-sasl-gssapi gcc gcc-c++ krb5-devel libtidy libxml2-devel libxslt-devel make mysql mysql-devel openldap-devel Python-devel sqlite-devel openssl-devel gmp-devel libffi-devel unzipyum install -y cyrus-sasl-plain yum install -y libssl-devel libffi-develyum install -y ...
阅读全文 »

源码编译安装 apache hadoop

发表于 2018-12-03 | 分类于 hadoop |
安装 apache hadoop 2.7.2 集群这是我安装编译hadoop得意个笔记手册,和大家分享一下。 环境: 系统 Centos 7 java : 1.8 apache hadoop 版本 : 2.7.2 hadoop集群hosts列表 IP hostname 运行服务 192.168.77.158 namenode00.host-shining.com namenode、zk、journalnode、standby-resourcemanager,hbase-master、spark-master 192.168.77.159 namenode01.host-shining.com namenode、zk、journalnode、resourcemanager,hbase-master、jobhistory 192.168.77.161 datanode00.host-shining.com datanode、nodemanager、zk、journalnode 192.168.77.162 datanode01.host-shining ...
阅读全文 »
1…567…9

北极企鹅

一步一步往前走!

81 日志
20 分类
38 标签
RSS
E-Mail Twitter FB Page 简书blog 微博 CSDN
Links
  • Web
© 2025 北极企鹅
本站总访问量次
访问人数 访问总量