>>> Средняя плотность выделения тепла AFAIK выше
>> иии что?
> Иии соответственно охлаждать приходится интенсивней[, мониторить оперативней].охлаждать интенсивнее - да, мониторить оперативнее - не обязательно. конечно, можно превратить систему мониторинга в АСУ, но АСУ заметно дороже.
>> во-первых, не загруженные на 100% серверы в ДЦ - это не нормально, КМК
> Интересно, я до сих пор сталкивался только с народом, который предпочитает оперативный
> запас порядка хотя бы 10--20%. (без подковырок, сам-то не ДЦ-шник)
не вижу в этом ничего плохого. LA 3-5 это нормально, главное, чтобы оно не прыгало непредсказуемо и не упиралось в i/o. конечно, следует смотреть, как такая нагрузка выглядит со стороны клиента; виндовым терминальным серверам может поплохеть и при загрузке меньше 80%. и без вопросов, закладываться на полную нагрузку, не имея в ферме резервных машин в стендбае это плохо.
>> там есть какая-то HPC специфика, которую я упустил?
> Ну и опосредованная -- через латентность -> длину линков -> плотность размещения
> -> плотность тепловыделения: при ~70 кВт на шкаф типичная минута на
> реакцию оказывается непозволительной роскошью, здесь решение об аварийном складывании
> установки по IPMI/на UPS может быть принято за единицы секунд.
эм. 70 ква на шкаф и единицы десятки секунд на решение. Я бы сказал, что что-то всерьез не так с охлаждением. я бы даже сказал, что у вас там пожар. в такой ситуации нужен не мониторинг, а баллончик с таблом "ГАЗ УХОДИ".
1 блейдцентр под полной нагрузкой - это грубо 10 ква. при максимальной набивке четыре шасси в стойке. они начинают орать о высокой температуре при 35-40 кому как нравится и погасятся менеджмент модулем при 50 безо всяких команд. Серьезно, если они проскочат температуру от 35 до 50 в течение десятков секунд, это или пожар в ДЦ или одновременный отказ всей вентиляции внутри шасси. з
а счет чего там у вас такой быстрый рост температуры?