Часовой даунтайм в облаке Webasyst

Сегодня ночью впервые произошел столь значительный перебой в работе облака Webasyst. Для всех пользователей сервиса и посетителей их сайтов проблема проявилась в невозможности использования приложений Webasyst в течение 59 минут.

Столь длительный перерыв в работе нашего сервиса был вызван нарушением работы серверного оборудования. Облако Webasyst организовано на серверном кластере таким образом, что даже полный выход из строя одного из серверов не приводит к остановке всего кластера. Однако в этот раз возникла экзотическая ситуация. Все внешние запросы проходят через специальный сервер балансировки нагрузки, у которого есть дублер на случай его выхода из строя. Сервер-дублер постоянно следит за состоянием главного сервера через внутреннюю сеть и, если «теряет его из виду», то в течение минуты занимает место главного. Так случилось, что у дублера вышла из строя именно та сетевая карта, через которую происходит отслеживание главного сервера. Сервер-дублер решил, что он должен стать главным, и начал отвечать на внешние запросы, что, в свою очередь, привело к коллизии на сетевом оборудовании дата-центра, т. к. сразу два сервера не должны отвечать на запросы по одному IP-адресу.

Единственный способ устранения такой неисправности — замена материнской платы на поврежденном сервере, на которой интегрирована сетевая карта. Собственно, эта замена и заняла основную часть даунтайма.

Мы приносим искренние извинения всем пользователям нашего облака за причиненные неудобства и гарантируем использовать весь наш профессионализм для предотвращения подобных ситуаций в будущем.

Спасибо, что выбрали Webasyst!