Публичные отчеты и различная статистка по нашим нодам, что мы насоздавали от балды.
  • Дата создания
    7 ноября 2017
  • Топиков
    47
  • Ограничение на постинг
    1.000
  • Категория:
    VM.Center

Первая авария на VMmanager 6 версии (всем пострадавшим 1 месяц начислено бесплатно)

Хоть они и заявляют о стабильности, но на 2021 год — пока что это не так.


За 2020 было проделано много работы, что-то стало лучше, что-то стало хуже.
Например хуже стало то, что при создании кластера нельзя теперь указать настройки для него, например выставить лимит на канал, в итоге все ВМ создаются без ограничений и потом приходится вручную уже всем настраивать после создания ВМ. А раньше эта функция бралась из создания кластера, просто когда его создашь там указывалось.
А лучше стало наверно то, что больше функционала, все таки Март 2020, Апрель 2020 и Ноябрь 2020 — это небо и земля.

Короче по каким-то причинам часть узлов стала писаться якобы проблемы на узле.
Но узлы работали и ВМ на них работали.
Хотя в панели показывался статус что ВМ отключена и не работает.

Ради теста я перезагрузил 1 узел, он перестал писаться с ошибками. Но зато ВМ-ки на нем перестали работать.

В итоге почти сутки ISPsystem пытались разобраться в проблеме.

И до сих пор пока что проблема не исправлена.
Пишут что утечка ОЗУ, хотя сама панель их показывает что 2 ГБ в запасе.


Вероятно эта проблема случилась после обновления
Версия 6.15.0 VMmanager KVM 6


На VMmanager 5 — были похожие проблемы ранее.
Так вот, короче я перезагрузил 1 узел — и он сдох.
И вот всем кто пострадал на этом узле — 1 месяц бесплатно :)

Вот этим чувакам.

И в публичные отчеты честности для истории.
Дата подачи заявки о проблеме панели.
2021-02-05 15:39:27

Но восстановлен узел был только.
2021-02-06 19:48:21


Почти 24 часа короче.
Такие вот дела. Извиняюсь хоть это и не косяк хостера.

SMART отчет №4 - HDD SATA

А теперь я решил глянуть HDD ноды, которые в raid, и которые мы давно не делаем уже, т.к. тариф не особо интересный был. Чисто остатки прошлого висят.

noda1 — 43790 часов — 0 ошибок
noda2 — 51440 часов — 0 ошибок
noda3 — 56165 часов — 0 ошибок (6 лет)
noda4 — 48623 часов — 0 ошибок
noda5 — 30930 часов — 0 ошибок
noda6 — 16306 часов — 0 ошибок
noda7 — 42814 часов — 0 ошибок
noda8 — 51034 часов — 0 ошибок
noda9 — 48798 часов — 0 ошибок

Как так? Даже HDD диски — не сгорают у нас!

Читать дальше

SMART отчет №3


Первый был летом 2018
SSD Total Bytes Written

Второй был весной 2019
SMART отчет №2

Третий отчет. Лето 2020.
У нас так и не сгорел не один диск.
За эти годы я успел уже закрыть кучу нод из-за старых процессоров.
За эти годы я уже придумал новые тарифные модели.
За эти годы я уже успел разочароваться в дешевой аудитории.
Но — у нас так и не сгорел не один диск. Я так и не увидел собственными глазами как они сгорят ;(

SBG i7-6700k
noda1 — закрыли ее уже, сделали перенос на VM-6
noda2 — 295425295251 357302316667 — 137.57 TB 166.38 TB — 0 ошибок
noda3 — закрыли ее уже, сделали перенос на VM-6
noda4 — закрыли ее уже, сделали перенос на VM-6
noda5 — закрыли ее уже, сделали перенос на VM-6
noda6 — закрыли ее уже, сделали перенос на VM-6
noda7 — появилась новая нода, 231009455557 — 107.57 TB — 0 ошибок
noda8 — появилась новая нода, 133745752064 — 62.28 TB — 0 ошибок
noda01 2016 — закрыли ее уже цены 2016 отличаются от цен соврменности, сделали перенос на Райзен
noda02 2016 — закрыли ее уже цены 2016 отличаются от цен соврменности, сделали перенос на Райзен

GRA i7-6700k
noda1 — закрыли ее уже, сделали перенос на VM-6
noda2 — 53503605961 212621713408 — 24.91 TB 99.01 TB — 0 ошибок
noda3 — закрыли ее уже, сделали перенос на VM-6
noda4 — 233938 1701297 — 0 ТБ (либо ошибка, либо так и осталось с прошлого замера) — 0 ошибок
noda5 — 106640635623 292179512829 — 49.66 TB 136.06 TB — 0 ошибок
noda6 — 86617391991 243250025384 — 40.33 TB 113.27 TB — 0 ошибок
noda7 — 38769693909 356324041216 — 18.05 TB TB 165.93 TB — 0 ошибок
noda8 — 13825987528 119205617664 — 6.44 TB 55.51 TB — 0 ошибок
noda9 — появилась новая нода, 1318151026488 — 613.81 TB — 0 ошибок
noda10 — появилась новая нода, 132548597248 — 61.72 TB — 0 ошибок
noda01 2016 — закрыли ее уже цены 2016 отличаются от цен соврменности, сделали перенос на Райзен
noda02 2016 — закрыли ее уже цены 2016 отличаются от цен соврменности, сделали перенос на Райзен

Все остальные 1245 всякие — в raid1, хотя тоже не мешало бы замерить как-ниб.
Еще Райзены новые делаем в raid0 — но там NVME диски, там смарты не показываются даже. Но пока тоже не разу ничего не сгорело.

Так же было решено сохранить для будущего понимания.
Полноценные смарты.
Читать дальше

noda5.1245 Power Suply replacement

[TICKET#8046222242] Operation Power Suply replacement finished

  • Проснулся я значит с утра. Вижу там БП сгорел и его поменяли, автоматически сами в ОВХ.


  • Как видно в узлах E3-1245v2


Похоже никто не заметил даже, тикетов создано не было.
Но для истории топик. Все по честному.

noda3 6700k

Днем 23/06/2019 сдохла нода3 из GRA2 узлов.
Оказалось сотрудник ОВХ хотел что-то обновить в CPU дырках intel
Stable kernel, hz1000 — 64bit (includes up-to-date intel microcodes)
Но убил ОС
И сбросил ее типо ОС должна быть исправлена заказчиком.


Пришлось восстанавливать



Пришлось переустанавливать ОС с нуля и накатывать из бекапа.
Копирование данных. 21-23 00-40, т.е почти 3 часа выкачивали



Пол часа переустановка ОС, настройка узла.
И восстановление. 02-33, 03-39, копирование оказалось быстрее.



Итого на все про все ушло. 8 часов :) Закладывали 10.


Статистка по ОС №2

Первая статистика была в самом начале
Решил вести паблик примеры [Осень 2017]

Теперь статистика на март 2019
Нагрузку мы так и не поняли как нужно считать, поэтому просто положили хуй короче. Как говорится работает и ладно :) Оптимизацией не занимаемся.
Как и написано в правилах услуги.


А теперь факты, просто факты.
















SMART отчет №2


Первый был летом 2018
SSD Total Bytes Written

Точно так же смотрим только ноды, где 1 SSD без raid1
Потому что там сгорание равносильно смерти узла.

SBG i7-6700k
noda1 — 272379466896 — 126.84 TB — 0 ошибок
noda2 — 295425295251 — 137.57 TB — 0 ошибок
noda3 — 766966834999 — 357.15 TB — 0 ошибок
noda4 — 185514307689 — 86.39 TB — 0 ошибок
noda5 — 181434747397 — 84.49 TB — 0 ошибок
noda6 — 558204424554 — 259.93 TB — 0 ошибок
noda01 2016 — 378695466309 — 176.34 TB — 0 ошибок
noda02 2016 — 165944088769 — 77.27 TB — 0 ошибок

GRA i7-6700k
noda1 — 172324367138 — 80.24 TB — 0 ошибок
noda2 — 53503605961 — 24.91 TB — 0 ошибок
noda3 — 50002184870 — 23.28 TB (меняли ноду) — 0 ошибок
noda4 — 233938 — 0 ТБ (либо ошибка, либо так и осталось с прошлого замера) — 0 ошибок
noda5 — 106640635623 — 49.66 TB (меняли ноду) — 0 ошибок
noda6 — 86617391991 — 40.33 TB — 0 ошибок
noda7 — 38769693909 — 18.05 TB — 0 ошибок
noda8 — 13825987528 — 6.44 TB — 0 ошибок
noda01 2016 — 266791112841 — 124.23 TB — 0 ошибок
noda02 2016 — 250296977064 — 116.55 TB — 0 ошибок

Так же было решено сохранить для будущего понимания.
Полноценные смарты.
И в конце 2019 года сохранить еще раз.
И сравнить какие показатели увеличились, какие наоборот уменьшились.
Чтобы понять что происходит со временем.

Судя по всему, возможно мы так и не увидим собственными глазами как сгорят эти ноды :)
Быстрее процессоры потеряют актуальность.
Читать дальше

bhs.i7k => bhs6.i7-4790k.ovh

Как вы уже знаете из старых топиков, ISP закрывает Debian ноды.
Поэтому процесс переезда.

Еще одна нода переезжала из Debian 7 на CentOS 7
Она была создана еще в 2016 году в самом начале, и вот в январе 2019 переехала.

И даже оказалось, что там диск один сгорел.

Raid1 был, 2 диска, один издох, а все работало на втором и никто не заметил даже.


Переезд занял вот столько. Около 2 часов.
Никто даже не заметил, так как 3 января :)



Старый сервер работал

Operation Motherboard replacement finished (noda2 sbg2.i7-6700k)

[TICKET#8492399526] OVH Monitoring
06:08 (7 ч. назад)
Mūsų technikai (dirbantys 24 val./24, 7 d./7) buvo informuoti ir
prisijungs prie Jūsų serverio.
Šiuo metu gali būti atliekamos kitos intervencijos, vidutiniškai jos trunka
30 minučių.
Sutrikimo priežastį žinosime tik pradėję intervenciją.
Bendrą sutrikusių serverių kiekį ir vykdomas intervencijas galite
matyti šiuo adresu:
darbai.ovh.lt/vms/
Jūsų serveris yra spintoje 75A33.
Kai technikas ims tikrinti Jūsų serverį, gausite pranešimą apie tai.
Šiuo metu galite perkrauti serverį tvarkytuve.
Logs:

PING ns3054529.ip-164-132-205.eu (164.132.205.111) from 213.186.33.13: 56(84) bytes of data.
From 213.186.33.13: Destination Host Unreachable
From 213.186.33.13: Destination Host Unreachable
From 213.186.33.13: Destination Host Unreachable
— 164.132.205.111 ping statistics —
10 packets transmitted, 0 packets received, +6 errors, 100% packet loss
---------------------

[TICKET#4862680610] Operation Motherboard replacement finished
07:47 (5 ч. назад)
Operacija baigta 2019-01-02 01:47:11 CET (UTC +01:00).
Toliau pateikiamos intervencijos detalės:
Motherboard replacement
Date 2019-01-02 00:30:55 CET (UTC +01:00), jonas B made Motherboard replacement: Diagnosis:
HS motherboard
Actions:
Replacing the motherboard.
Updating the MAC address for DHCP.
Server restart on the OVH kernel «BZimage» because when boot on disk it stuck on «GRUB interface».
Result:
DHCP OK. Boot on the OVH kernel. Server on login screen. Ping OK, services started.
OVH как всегда все сделало само
Сгорела мать, поменяли мать, перезапустили сервер.
Ты с утра проснулся, увидел что что-то падало и что все уже работает :)