The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"Проблема с Nagios"
Вариант для распечатки  
Пред. тема | След. тема 
Форумы Открытые системы на сервере (Мониторинг, логи / Linux)
Изначальное сообщение [ Отслеживать ]

"Проблема с Nagios"  +/
Сообщение от Negator email(??) on 09-Фев-09, 14:36 
Есть
Нагиос 3.0.5
Линукс ядро 2.6.18
До определенного момента все работало отлично
Потом  перестали работать проверки

Сейчас нагиос после запуска работает от 2 часов до примерно суток, потом перестает проверять хосты и писать в логи

Заметил вот что:

ps ax | grep nagios

19871 ? Sl 0:43 /usr/local/nagios/bin/nagios /etc/nagios/nagios.cfg
29330 ? S 0:00 /usr/local/nagios/bin/nagios /etc/nagios/nagios.cfg
22830 ? 0:00 nagios(defunc)

После killall -9 nagios и запуска работает опять пару часов без нареканий.
В логах ничего нет на эту тему.

Высказать мнение | Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "Проблема с Nagios"  +/
Сообщение от Negator email(??) on 09-Фев-09, 15:12 
>Есть
>Нагиос 3.0.5
>Линукс ядро 2.6.18

До определенного момента все работало отлично
Потом  перестали работать проверки

Сейчас нагиос после запуска работает от 2 часов до примерно суток, потом
перестает проверять хосты и писать в логи

Заметил вот что:

ps ax | grep nagios
19871 ?        Sl     0:49 /usr/local/nagios/bin/nagios /etc/nagios/nagios.cfg
7295 ?        S      0:00 /usr/local/nagios/bin/nagios /etc/nagios/nagios.cfg
7296 ?        Z      0:00 [nagios] <defunct>


После killall -9 nagios и запуска работает опять пару часов без нареканий.

В логах ничего нет на эту тему.


Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

2. "Проблема с Nagios"  +/
Сообщение от ronin (??) on 09-Фев-09, 18:17 
>До определенного момента все работало отлично
>Потом  перестали работать проверки

Чудес не бывает. Что-то всё-таки поменялось. Апгрейд? Новые плугины прикрутили? Чем больше информации предоставите, тем больше вероятность что найдём причину проблемы.
И желательно показать логи нагиоса в период времени близкий к падению (+/- 15 минут до падения).


Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

3. "Проблема с Nagios"  +/
Сообщение от Negator email(??) on 09-Фев-09, 18:56 
>>До определенного момента все работало отлично
>>Потом  перестали работать проверки
>
>Чудес не бывает. Что-то всё-таки поменялось. Апгрейд? Новые плугины прикрутили? Чем больше
>информации предоставите, тем больше вероятность что найдём причину проблемы.
>И желательно показать логи нагиоса в период времени близкий к падению (+/-
>15 минут до падения).

Не помню уже. С нагиосом ничего нового не делал,да и с сервером в общем тоже(добавил 2 хоста в мртг мониторинг)
Сначала падал редко - раз в неделю.
регулярно вижу еще вот что в консоли, в логи не кидает
*** glibc detected *** double free or corruption (out): 0x082400c0 ***

Логи нагиоса в момент падения - стандартны. Просто после падения он перестает в них писать. Каждую неделю в нагиос добавляется штук 5 хостов(простой пинг)

После появления проблемы убрал snmp проверки со свичей. Ничего не изменилось.
Всего 540 хостов, машинка не нагружена

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

4. "Проблема с Nagios"  +/
Сообщение от ronin (??) on 10-Фев-09, 10:29 
>[оверквотинг удален]
>Сначала падал редко - раз в неделю.
>регулярно вижу еще вот что в консоли, в логи не кидает
>*** glibc detected *** double free or corruption (out): 0x082400c0 ***
>
>Логи нагиоса в момент падения - стандартны. Просто после падения он перестает
>в них писать. Каждую неделю в нагиос добавляется штук 5 хостов(простой
>пинг)
>
>После появления проблемы убрал snmp проверки со свичей. Ничего не изменилось.
>Всего 540 хостов, машинка не нагружена

Как у нагиоса с памятью? Не выжирает ли его процесс всё что есть на машине (подозрение на memory leak или ограничения по ulimit для юзера, под которым крутится нага)? Что ещё крутится на этой машине кроме самого нагиоса? Всем памяти хватает?
Ещё одна версия (судя по тому что стал валиться только после некоторого момента времени) - проблемы с планками памяти на машине (маловероятно, иначе крашился бы не только нагиос).
Ну, и самое вероятное - просто подвисает один из плугинов (то ли от бага в плугине, то ли от большово количества инстансов этого плугина, запушенных одновременно). Все плугины стандартные? Самописные? Хорошо было бы отследить по истории падений что именно выполнялось в последние минуты жизни наги - может там есть закономерность.

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

5. "Проблема с Nagios"  +/
Сообщение от Negator1983 email on 10-Фев-09, 11:57 
>[оверквотинг удален]
>для юзера, под которым крутится нага)? Что ещё крутится на этой
>машине кроме самого нагиоса? Всем памяти хватает?
>Ещё одна версия (судя по тому что стал валиться только после некоторого
>момента времени) - проблемы с планками памяти на машине (маловероятно, иначе
>крашился бы не только нагиос).
>Ну, и самое вероятное - просто подвисает один из плугинов (то ли
>от бага в плугине, то ли от большово количества инстансов этого
>плугина, запушенных одновременно). Все плугины стандартные? Самописные? Хорошо было бы отследить
>по истории падений что именно выполнялось в последние минуты жизни наги
>- может там есть закономерность.

Кроме нагиоса там апач, мускуль с небольшой базой, php. Ну и рисуется несколько мртг графиков со свичей.
Памяти свободной - чуть больше гига всегда. Это постоянно рисуется тем же мртг.
Падает только нагиос
Плугины стандартные, ручками дописаны только notifications(чтобы на смс слало), но в момент падения - эти вещи еще не разу не срабатывали.
Закономерность попробую поискать, но мне кажется ее нет.

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

6. "Проблема с Nagios"  +/
Сообщение от ronin (??) on 11-Фев-09, 10:15 
>Плугины стандартные, ручками дописаны только notifications(чтобы на смс слало), но в момент
>падения - эти вещи еще не разу не срабатывали.
>Закономерность попробую поискать, но мне кажется ее нет.

Ну что ж, поскольку идей больше никаких - остаётся предположить баг в самом нагиосе. Тока непонятно почему он проявился только спустя некоторое время. Может зависит от количества машин, которые мониторятся. Предлагаю проапдейтить нагиос до latest & greatest.

Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

7. "Проблема с Nagios"  +/
Сообщение от pavel4 (ok) on 08-Фев-10, 13:37 
а что параметры типа notification_options в define service не работают?
Высказать мнение | Ответить | Правка | ^ | Наверх | Cообщить модератору

Архив | Удалить

Индекс форумов | Темы | Пред. тема | След. тема




Спонсоры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2023 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру