The OpenNET Project / Index page

[ новости /+++ | форум | wiki | теги | ]

форумы  помощь  поиск  регистрация  майллист  вход/выход  слежка  RSS
"GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."
Вариант для распечатки  
Пред. тема | След. тема 
Форум Разговоры, обсуждение новостей
Изначальное сообщение [ Отслеживать ]

"GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от opennews (??) on 04-Фев-16, 13:49 
GitHub раскрыл (https://github.com/blog/2106-january-28th-incident-report) подробности об инциденте, из-за которого 28 января сервис оказался выведен из строя более чем на два часа.  Имел место достаточно сложный каскадный сбой, в котором проявились как недоработки в программном обеспечении GitHub, так и ошибки в прошивках серверов, что потребовало значительного времени на выяснение причин и возвращение сайта к жизни.


Из-за сбоя в системе электропитания около 25% серверов GitHub были перезагружены. Проблема не затронула балансировщики нагрузки и большинство фронтэнд-серверов, которые продолжили работу в штатном режиме, но некоторые системы, необходимые для обработки запроса, на какое-то время оказались полностью недоступны, что привело к выводу страницы с ошибкой при любом обращении к GitHub.


В том числе перезагрузка затронула серверы ChatOps, обеспечивающие механизмы взаимодействия разработчиков на GitHub. После завершения перезагрузки и восстановления работы кластера серверов ChatOps, работа сайта не восстановилась. Ситуацию усугубила неразбериха, вызванная тем, что первые 8 минут после сбоя на странице status.github.com отображался нормальный статус функционирования сервиса, хотя фактически запросы приводили к ошибке.

Первичный разбор причин неработоспособности серверов ChatOps показал, что проблема заключается невозможности установить сетевое соединение с кластером СУБД Redis. Первые предположения были связаны с возможным влиянием DDoS-атаки, но через какое-то время, которое было потрачено на диагностику работы сети и организацию защиты от DDoS, стало ясно, что причина не в атаке. Дальнейшее пошаговое инспектирование инфраструктуры показало, что имеет место перезагрузка некоторых бэкенд-серверов для которых в централизованной системе мониторинга данные перезагрузки не были отражены.


Далее выяснилось, что почти все недоступные серверы построены на базе оборудования одного класса и разнесены по разным стойкам и кластерам в центре обработки данных. Также стало ясно, что обеспечивающие работу сервиса приложения после перезагрузки не запустились - из-за невозможности подключиться к кластеру СУБД Redis попытка запуска процессов привела к преждевременному завершению их работы. Разработчики изменили скрипты запуска, добавив обязательную проверку работы Redis и ожидание его доступности перед запуском приложений.

Проблемы с Redis были вызваны аппаратным сбоем серверов, из-за которые прошивка не смогла подключить имеющиеся диски после кратковременного прекращения питания. Диски удалось подключить после дополнительной холодной перезагрузки, после чего потребовался достаточно длительный перенос данных проблемных узлов на запасные серверы. В итоге, кластер Redis был восстановлен и, шаг за шагом, все некорректно перезагруженные серверы с приложениями были возвращены к работе.


Для предотвращения подобных ситуаций в будущем будет пересмотрен процесс применения обновлений прошивок к серверам и анализа логов для оценки возможных аномалий. Тестовый набор будет расширен средствами для проверки влияния на функционирования приложений работоспособности внешних компонентов. Планируется реализовать возможность частичного снижения функциональности для сохранения общей работоспособности в экстренном режиме, при недоступности определённых бэкенд-серверов.

URL: https://github.com/blog/2106-january-28th-incident-report
Новость: http://www.opennet.ru/opennews/art.shtml?num=43817

Ответить | Правка | Cообщить модератору

Оглавление

Сообщения по теме [Сортировка по времени | RSS]


1. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +17 +/
Сообщение от Аноним (??) on 04-Фев-16, 13:49 
Жизнь мою сгубили зря
Электрики и слесаря.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

5. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +5 +/
Сообщение от pkdr (ok) on 04-Фев-16, 14:35 
Страшные люди, если с ними приходилось сталкиваться.
Есть ещё более жуткие монстры - экскаваторщики.
Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

10. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +12 +/
Сообщение от Дегенератор on 04-Фев-16, 15:09 
Страшнее уборщицы, которая спешит, не найти.
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

12. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +2 +/
Сообщение от IZh. on 04-Фев-16, 15:15 
Да, страшнеее fiber-seeking backhoe зверя нет.
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

46. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  –1 +/
Сообщение от Аноним (??) on 05-Фев-16, 03:03 
Страшные люди это те кто проектирует цод по третьей категории надёжности электроснабжения и не ставит бесперебойники
Ответить | Правка | ^ к родителю #5 | Наверх | Cообщить модератору

54. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Sabakwaka (ok) on 05-Фев-16, 15:04 
Тот, кто не проводит учений.
Учения выглядят так — топором перерубается силовой кабель,
а затем проверяется подъем кластера после починки.
Ответить | Правка | ^ к родителю #46 | Наверх | Cообщить модератору

55. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Andrey Mitrofanov on 05-Фев-16, 15:10 
> Тот, кто не проводит учений.
> Учения выглядят так — топором

Амазон что ли хвастал, что у них спец.зондкер команда (отдельная от админов/девелов) занимается тем, что ломает инфраструктурные сервисы для проверки и улуч-чения устойчивости к отказам.

Ответить | Правка | ^ к родителю #54 | Наверх | Cообщить модератору

59. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  –1 +/
Сообщение от SnoWLight on 05-Фев-16, 20:03 
> Тот, кто не проводит учений.
> Учения выглядят так — топором перерубается силовой кабель,
> а затем проверяется подъем кластера после починки.

Ну допустим не топором.
По крайней мере я бы дал тебе топор и заснял бы видео....


Ответить | Правка | ^ к родителю #54 | Наверх | Cообщить модератору

69. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Аноним (??) on 09-Фев-16, 15:56 
> Учения выглядят так — топором перерубается силовой кабель,
> а затем проверяется подъем кластера после починки.

Переруби силовой кабель к гуглу? Это пример правильной инфраструктуры.

Ответить | Правка | ^ к родителю #54 | Наверх | Cообщить модератору

6. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +4 +/
Сообщение от Аноним (??) on 04-Фев-16, 14:35 
Незваный электрик хуже татарина.
Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

71. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Аноним (??) on 09-Фев-16, 16:32 
> Жизнь мою сгубили зря
> Электрики и слесаря.

Программисты хуже. Однажды сбой в прошивке контроллера привел к включению большого промышленного вентилятора. Рядом работал слесарь...

Ответить | Правка | ^ к родителю #1 | Наверх | Cообщить модератору

2. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +16 +/
Сообщение от MPEG LA (ok) on 04-Фев-16, 13:49 
два часа - хорошее время реакции, и не просто так, а с полезными выводами. молодцы.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

3. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +5 +/
Сообщение от IMHO on 04-Фев-16, 14:00 
Наш админ возомнил себя богом сети, но электрик развеял этот миф
(с) ибаш
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

13. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  –5 +/
Сообщение от manster (ok) on 04-Фев-16, 15:17 
> прошивка не смогла подключить имеющиеся диски

оказывается прошивки умеют включают диски! - это несомненно прорыв ...

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору
Часть нити удалена модератором

57. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Аноним (??) on 05-Фев-16, 15:39 
> Изящный способ сказать: "линь гумно".

Я на такое на виндовом сервере нарывался. Знаешь как весело, когда BIOS не может загрузочный диск найти, потому что при провале питания контроллер одурел? При этом не важно какая была ОС - до нее дело может не дойти вообще.

Ответить | Правка | ^ к родителю #71 | Наверх | Cообщить модератору

39. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Andrey Mitrofanov on 04-Фев-16, 19:37 
>> прошивка не смогла подключить имеющиеся диски
> оказывается прошивки умеют включают диски! - это несомненно прорыв ...

Не _в_ключать, читалка притупилась? Перезатачивай.

Сторадж, фибер-чэнел, FC-контролёр... В "полках" и контролёрах м.б. свои прошивки. Эти "сурьёзные люди" и диски в полках перепрошивают.  Любая из обновлённых прошивок может сожержать баги или изменения поведения, в т.ч. и перестать дружиться с соседними ещё недообновлёнными прошивками, например.

///Да, заголовку не хватает "Обновление прошивок ■й■иэ■ положило ■it■ub" желтизны

Ответить | Правка | ^ к родителю #13 | Наверх | Cообщить модератору

16. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Кляйнер on 04-Фев-16, 15:34 
У них там прямо каскадный резонанс случился :)
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

18. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +5 +/
Сообщение от Аноним (??) on 04-Фев-16, 15:56 
эх, не умеют редакторы опеннета заголовки делать... надо было "Гитхаб упал на джва часа из-за Редиса!"
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

20. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  –1 +/
Сообщение от myhand (ok) on 04-Фев-16, 16:02 
s/../из-за какой-то редиски/
Ответить | Правка | ^ к родителю #18 | Наверх | Cообщить модератору

30. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +1 +/
Сообщение от . on 04-Фев-16, 17:53 
Какие то редиски завалили гитхаб! :)
Ответить | Правка | ^ к родителю #20 | Наверх | Cообщить модератору

34. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Адекват (ok) on 04-Фев-16, 19:20 
> s/../из-за какой-то редиски/

Дениски.

Админ Дениска угандошил гитхуб своим невежеством.

Ответить | Правка | ^ к родителю #20 | Наверх | Cообщить модератору

49. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от КО on 05-Фев-16, 11:59 
ГитХаб джва часа ждал Редис!
Ответить | Правка | ^ к родителю #18 | Наверх | Cообщить модератору

35. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  –1 +/
Сообщение от Адекват (ok) on 04-Фев-16, 19:22 

> Из-за сбоя в системе электропитания около 25% серверов GitHub были перезагружены.

Я дико извиняюсь, а что - УПСов у них нет ?
Что-то мне подсказывает, что это был не сбой электропитания, и что это не последний выход из строя гитхуба, следющий будет на несколько суток, с полной потерей всех данных.

Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

42. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от редис on 04-Фев-16, 21:40 
Вот упсы-то и сбойнули. Точнее на сами упсы, система управления питанием.
Ответить | Правка | ^ к родителю #35 | Наверх | Cообщить модератору

50. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от КО on 05-Фев-16, 12:02 
Сбой в системе электропитания вполне может быть вызван очень умными Упсами. Им легко отправить по сети сигнал - ну-ка все быстро выключаемся.
Ответить | Правка | ^ к родителю #35 | Наверх | Cообщить модератору

38. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +2 +/
Сообщение от абвгдейка (ok) on 04-Фев-16, 19:35 
я понял - виноват редис :)
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

41. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Аноним (??) on 04-Фев-16, 20:25 
Решительно детектирую пролианты под редисом. только эта фекаль способна терять диски до сброса питания
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

44. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +6 +/
Сообщение от Led (ok) on 04-Фев-16, 22:47 
> Решительно детектирую пролианты под редисом. только эта фекаль способна терять диски до
> сброса питания

Обижаешь! Она не только это умеет, а ещё много чего!

Ответить | Правка | ^ к родителю #41 | Наверх | Cообщить модератору

47. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  –1 +/
Сообщение от stalker37 email(ok) on 05-Фев-16, 10:57 
Не всё. работать без сбоев оно не умеет! И не  тормозить местами
Ответить | Правка | ^ к родителю #44 | Наверх | Cообщить модератору

56. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Аноним (??) on 05-Фев-16, 15:35 
Довольно распостраненный баг. Им страдали серверные мамки интела, встречающиеся в разных серверах. Тоже сбой контроллера дисков при проскоке питания. Даже апдейты прошивок контроллера были с исправлениями.
Ответить | Правка | ^ к родителю #41 | Наверх | Cообщить модератору

58. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  –1 +/
Сообщение от anoo email(ok) on 05-Фев-16, 18:07 
У HP тоже самое - меняли память контроллера, контроллер, мамку и так неск. раз, на разных машинах, все по совету техподдержки, новое курьером, за сутки.
Но сутки сервака нет.
Хорошо что не один был.
И точно так же какс гитхабом - неск. месяцев аптайма, сбой питания и пи*дец.
Ось, кстати - windoze, крутилась "галактика" erp
Ответить | Правка | ^ к родителю #56 | Наверх | Cообщить модератору

70. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Аноним (??) on 09-Фев-16, 16:01 
От ОС вообще не зависит - виснет проц контроллера, системный reset на него видимо не действует, а вот проскок питания его клинит. Дальше только выключение питания помогает.
Ответить | Правка | ^ к родителю #58 | Наверх | Cообщить модератору

64. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  –1 +/
Сообщение от nich (ok) on 08-Фев-16, 07:38 
Github катится в унылое говно.  Начилась делёжка денег, адекватные люди начинают валить, на их место приходят эффективные менеджеры.  Со временем проблем ожидается всё больше и больше.
Ответить | Правка | ^ к родителю #0 | Наверх | Cообщить модератору

72. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Dmitry email(??) on 10-Фев-16, 14:38 
Наконец-то! Такой шанс для open source индустрии перейти на mercurial сервис (для совместной работы людей самой разной квалификации и под разными ОС он подходит лучше гита, от которого сквозит гиковостью и никсовостью).
Ответить | Правка | ^ к родителю #64 | Наверх | Cообщить модератору

73. "GitHub опубликовал отчёт с анализом аварии, приведшей к недо..."  +/
Сообщение от Andrey Mitrofanov on 10-Фев-16, 14:45 
> Наконец-то! Такой шанс для open source индустрии перейти на mercurial
>людей самой разной квалификации и под разными ОС

Польские вендузятнеге в поисках крестьянина-проводника? В добрый путь.

> подходит лучше гита, от которого сквозит гиковостью и никсовостью).

Ответить | Правка | ^ к родителю #72 | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру