Но вот сгорел один диск, правда не SSD, а NVME более новый и более современный, всего 2 года отслужил на 4 ТБ диск был. И я вспомнил что давно не проверял SSD где 6700k
Осень 2022 — пятый SMART отчет
Игнорируем все ноды где по 2 диска, смотрим только огнеопасные 6700k где 1 диск всего лишь.
Кстати в 2021 году еще и сам ДЦ SBG сгорел нахуй вместе с некоторыми нодами :) Прямо как я писал — работает, пока не сгорит :)))
Ну так вот смотрим только ноды, где 1 SSD без raid1:
В ОВХ каждая услуга под бесплатным мониторингом от ДЦ.
А кому он не нужен — в ПУ просто его отключают и тогда сотрудники ДЦ не трогают сервер вообще (который кстати меньше сотни обычно, а не по 500 человек как в РФ инженеров)
Так вот, когда в ОВХ сгорает что-то — 15 минут и готово — уже чинят, может быть пол часа, может быть час — все само, все автоматически потом сервер оживет.
А в Хетзнер — ты можешь даже и не знать о том, что сервер сдох.
В 10 утра сервер сдох. Если бы у меня не было своего мониторинга — вероятно я бы и не узнал.
Но буду честен — утром я не придал значения этому. И как-то похуй было даже на уведомление )
И вот мне пишет чел — не работает.
Уже в обед.
И я решил проверить — и правда не работает.
Пошел ребутнул.
Не ребутается.
Ну думаю опять процессор перегрелся и сервак завис.
Отправляю на ручную перезагрузку сотрудником.
А через 15 минут сервер поднимается. И там пишут что сгорел Блок Питания
Неужели Хетзнеру трудно сделать так же как в ОВХ?
Это же конкурентное преимущество!
Обычно все привыкли к тому, что ну сгорел и сгорел.
Но тут такое дело получилось. Вот мы уже 5 лет делаем ноды. И конечно же не актуальные конфиги постепенно умирали, но на них всегда оставалось 1-2 похуиста которые упорно продляли — и эти ноды становились убытками уже из-за пустых долей. Так вот похуистов мы вручную переносили на архивный мощный Райзен с NVME дисками и где можно было 256 IP держать, а не 16.
И вдруг такая подстава. Горит диск не на боевом сервере каком-ниб где все знают. А горит новый NVME диск, которому даже 2х лет не было. Но там сидят одни похуисты — а они сука не делают бекапов.
Притом всякие 8 летние диски SSD — до сих пор не один не сломался. А тут вдруг NVME ломается. Ну чисто бывает.
Короче больше суток простоя и утеря данных.
Кто-то делал, но кто-то написал что не делал.
Само восстановление — лично мной — заняло около 3х часов.
Соблюсти все IP
Притом еще методом подбора, т.к. нельзя было назначить нужные.
Нада было создавать мусорные услуги чтобы истратить IP, а потом когда подходила очередь нужного — уже добавлять его на клиента ))
Ну короче за 3 часа справился.
Вот так, каждую ВМ чекал
И добавлял в ВМ-6
Начислил или бонусные продления, либо отсыпал дополнительных сеток — все равно без дела валяются, ну тем кто держал там ВМ из-за дох IP за 500р.
Когда настраиваешь бекапы средством бекапа от VMmanager 5 — оно копирует базу данных только.
Но не копирует файлы конфига.
Поэтому не стоит полагаться на бекап от панели.
Нужно самому просто настраивать СОБСТВЕННЫЕ бекапы.
Например в облаке если панель — делать копирую средствами облака.
Например если на дедике, то самому настроить. А не через бекап от панели, который тупо не делает качественно бекап.
Мне проще закрыть панель и заставить людей мигрировать на новые ВМ, чем дрочить с ключами что-то.
Увы — публичный отчет — сгорел диск и панель тоже сдохла.
Как и писал — РАБОТАЕТ ПОКА НЕ СГОРИТ )))