Блог IQITO

Горячий анализ систем IT-мониторинга на 2020 год

Аналитика
Техническая поддержка IQITO в своей работе успешно использует Zabbix в качестве средства для IT-мониторинга в работе с заявками своих клиентов. Почему из множества доступных систем мониторинга мы отдали предпочтение Zabbix? Прежде чем выбрать именно эту систему, мы проводили собственный сравнительный анализ, и для нас основным критерием выбора была открытость кода, чтобы иметь возможность доработки системы под свои бизнес-задачи. На практике внедрение большинства систем мониторинга IT-инфраструктуры сопряжено с различными ограничениями и сложностями. Выбирая систему мониторинга IT-инфраструктуры, необходимо принимать во внимание не только характеристики и возможности отдельно взятого комплекса, но и учитывать такие нюансы, как сложность развертывания, стоимость сопровождения и наличие соответствующих компетенций в компании.

Делимся своим сравнительным анализом, в котором рассмотрены наиболее популярные open-source системы IT-мониторинга.

1 МЕСТО: ZABBIX, NAGIOS
Наиболее популярными и узнаваемыми системами IT-мониторинга являются Zabbix и Nagios. Они построены на базе программного обеспечения с открытым исходным кодом, и давно зарекомендовали себя как качественные продукты, успешно решающие целевые задачи. И Zabbix, и Nagios способны осуществлять мониторинг большинства компонентов любой современной IT-инфраструктуры, включая сетевое оборудование, ОС, различные приложения, базы данных, платформы виртуализации и т. д. Обе системы поддерживают агентский и безагентский сбор данных с целевых источников, имеют инструменты оповещения, визуализации и реагирования, а также сторонние плагины и возможность модернизации логики работы с помощью внешних скриптов. С коммерческой точки зрения у обоих решений предусмотрена платная поддержка, а у Nagios еще и платная версия системы – Nagios XI с дополнительными возможностями и более современной визуальной оболочкой.

Данные решения находятся в одной категории и схожи по своему функционалу, поэтому их достоинства и недостатки во многом схожи.

Достоинства

+ Продвинутые возможности по настройке триггеров и оповещений об инцидентах
+ Большая библиотека плагинов, существенно расширяющая возможности решений
+ Наличие официальной поддержки и крупного сообщества
+ Большое количество сторонних систем, поддерживающих интеграцию

Недостатки
- Использование РСУБД в качестве подсистемы хранения данных и, как следствие, высокая степень утилизации дисковой подсистемы
- Ограниченный интерфейс как в части функционала, так и в части визуализации
- Отсутствие инструментов по масштабированию и отказоустойчивости
- Ограниченные возможности по ретроспективному анализу собираемых данных

2 МЕСТО: PROMETHEUS, GRAPHITE
Во вторую категорию входят более современные решения, к которым можно отнести Prometheus и Graphite. Они появились сравнительно недавно и активно развиваются. Архитектура обоих решений направлена именно на работу с time-series data. Независимо от метода сбора (SNMP/агенты), итоговое представление и хранение данных в обоих решениях будет в формате временных рядов, за тем исключением, что Graphite хранит данные в кольцевой СУБД Whisper, а Prometheus – в файлах (используя многомерную модель с продвинутыми механизмами индексирования и тегирования).

Поскольку рассматриваемые решения появились сравнительно недавно, разработчики учли многие недостатки предыдущих систем и постарались сделать программы более гибкими и удобными. Помимо наличия основополагающего функционала по мониторингу IT-метрик, Graphite и Prometheus имеют ряд преимуществ, но не обошлось и без недостатков.

Достоинства
+ Современная архитектура хранения данных и относительно низкая степень утилизации дисковой подсистемы
+ Оптимизированный язык запросов, позволяющий более удобно работать с собираемыми данными
+ Продвинутые возможности по созданию и кастомизации дашбордов, их сортировке и расположению
+ Продвинутые возможности по настройке временных срезов и применению различных функций прямо на визуализациях

Недостатки
- Ограниченность функционала в части настройки логики триггеров и автоматизации реагирования на инциденты
- Отсутствие цельности решения – подсистема сбора данных требует множество сторонних агентов и плагинов. При этом решения не имеют встроенной подключаемой библиотеки
- Отсутствие официальной поддержки и относительно небольшое сообщество
- Отсутствие инструментов по масштабированию и отказоустойчивости

3 МЕСТО: CUSTOM IT-MONITORING STACKS
В третью категорию следует отнести индивидуальные разработки, основанные на различных технологических стеках. Принимая во внимание, что Graphite и Prometheus не являются готовыми решениями и не рассчитаны для работы «из коробки», их часто используют как основу для проектирования итоговой системы. Например, в том же Graphite можно заменить подсистему хранения данных с Whisper популярным InfluxDB, оптимизировав тем самым хранение массивов временных рядов. Для обеспечения отказоустойчивости и реализации OLAP-сценария обработки данных можно выбрать связку ClickHouse+ZooKeeper, обеспечив безопасное хранение и быструю обработку данных.

Если требуется более красивый и функциональный интерфейс, к любому из четырех вышерассмотренных решений можно добавить инструмент Grafana, позволяющий по-новому взглянуть на собираемые IT-метрики. А если добавить пару самописных сервисов для решения узкоспециализированных задач, удастся получить практически идеальную систему IT-мониторинга.

У этих систем есть основной недостаток: крайне высокая сложность сопровождения. При возникновении внештатных ситуаций или необходимости доработки системы, в случае отсутствия высококвалифицированных специалистов, компания может столкнуться с серьезными проблемами. Чтобы избежать такого развития событий, в штате компании обязательно должны присутствовать специалисты с соответствующими компетенциями.

Достоинства
+ Возможность комбинирования компонентов и создания индивидуальной системы под конкретные задачи
+ Наличие инструментов по масштабированию и отказоустойчивости
+ Продвинутая архитектура хранения и наглядная визуализация данных
+ Возможность доработки функционала системы с помощью самописных скриптов и сервисов

Недостатки
- Архитектурная сложность решения
- Низкий уровень информационной безопасности – отсутствие полноценной ролевой модели доступа и сложность организации безопасного взаимодействия между компонентами системы
- Отсутствие официальной поддержки
- Отсутствие поддерживаемой библиотеки плагинов

Вот парочка таких систем IT-мониторинга на зарубежном и российском рынке.
На зарубежном рынке представлено достаточно много решений от крупных вендоров – ManageEngine OpManager, IBM Tivoli Monitoring, Solarwinds Network Performance Monitor и других.

На российском рынке также имеются активно развивающиеся продукты в сфере IT-мониторинга, в частности Naumen Network Manager и NGRSOFTLAB Dataplan.

Каждая из этих систем предлагает современный стек технологий, продвинутые инструменты по оповещению и реагированию, а также качественную официальную поддержку.

Проанализировав наиболее популярные решения в области ИT-мониторинга, разбив их на категории и выделив ключевые преимущества и недостатки, мы выбрали Zabbix и подружили систему с другими нашими IT-сервисами.

ВЫВОД

При выборе системы мониторинга IT-инфраструктуры необходимо руководствоваться в первую очередь тем, какие задачи и бизнес-цели стоят перед ней, насколько сложна интеграция со сторонними IT-системами, сопровождение системы при обновлениях и доработках.

Если вам нужна проверенная временем система для классического мониторинга утилизации аппаратных и программных ресурсов IT-инфраструктуры, с отличными возможностями по оповещению и наличием официальной поддержки, то Zabbix или Nagios – отличный выбор. Лично мы очень довольны.

Если в вашей инфраструктуре ИT-мониторинг в первую очередь означает сбор узкоспециализированных метрик с различных приложений, самописных сервисов и систем, подсистемы хранения и визуализации данных в Zabbix или Nagios кажутся откровенно устаревшими, а наличие официальной поддержки для компании не является обязательным условием, то предпочтительны такие решения, как Prometheus или Graphite.

При выборе же решения, в котором необходимо наличие функционала по обеспечению отказоустойчивости хранения собираемых данных, возможности ретроспективного анализа и решения сложных комплексных задач ИT-мониторинга – выбирайте самописные коммерческие решения, предлагаемые в том числе и на российском рынке, только будьте готовы к большим затратам на сопровождение и доработку.