Выгрузка HDFS FSImage в Hive для мониторинга и аналитики: руководство к действию

X5 Tech corporate blog
System administration
Big Data
Hadoop
hadoop
monitoring
hdfs
hive
FSImage
administrirovanie
X5 Tech corporate blog
System administration
Big Data
Hadoop
hadoop
мониторинг
hdfs
hive
FSImage
администрирование

Привет, Хабр! Меня зовут Борис Мурашин, я системный архитектор развития платформы больших данных в Х5 Tech. В статье делюсь своим опытом работы с кластером Hadoop: рассказываю, как с помощью сторонней библиотеки мне удалось организовать оперативную выгрузку образа файловой системы HDFS в Hive. И не только про это. Надеюсь, что мои инструкции помогут другим сэкономить массу времени в работе с кластером.

Сколько места на диске используют таблицы Hive в HDFS? В каких из них много мелких файлов? Какая динамика у этих цифр? Что происходит в домашних каталогах пользователей? Кто прямо сейчас создаёт таблицу с партиционированием по timestamp и скоро «уложит» нэймноду по GC pause? Давайте разбираться.

Читать далее
Show backup