Как вы знаете, мы в Welltory применяем методы кардиоинтервалографии для анализа вариабельности сердечного ритма, активности симпатического и парасимпатического отдела нервной системы, выявления физического и ментального стресса и запаса энергии человека.

Недавно, совершенно случайно, мы обратили внимание на то, как выглядит график нагрузки на наших серверах и насколько он похож на график вариабельности сердечного ритма.

Рисунок 1. График задержки HDD (rotational latency / rotational delay)


Рисунок 2. RR интервалы

Что такое кардиоинтервалография?

Это метод анализа данных о временных промежутках между ударами сердца, которые называются RR-интервалами. Вот так это выглядит на классической ЭКГ:

Есть такой великий человек, Баевский, Роман Маркович — доктор медицинских наук, профессор, сотрудник РАН, один из основоположников космической кардиологии, Заслуженный деятель науки Российской Федерации (2003). Ему поставили задачу — научиться дистанционно определять состояние космонавтов, чтобы знать, в какой момент пора перехватывать управление ракетой, на случай, если им там стало плохо. Из этой задачи и появилась кардиоинтервалография, поскольку по ходу дела по этим данным научились определять довольно много всего.

Обойдем все специфические медицинские термины и объясним простыми словами: вариабельность сердечного ритма (ВСР) — это язык, на котором разговаривает наше сердце. А кардиоинтервалограмма, которая оценивает ВСР — это карта, на которой отражено состояние нашей нервной вегетативной системы. Этот показатель вполне может объяснить нам, работает ли наш организм на износ, не успевая восстанавливать запас энергии или он успешно адаптируется к нагрузке, которой мы его ежедневно награждаем.

На первый взгляд может показаться, что наше сердце бьется равномерно, но это не так. В сердце, как в высокотехнологичном гаджете, встроен “чувствительный датчик” — водитель ритма, который регулирует какую порцию крови и когда необходимо предоставить нашему организму. Этот механизм управляется мозгом, который сканирует состояние нашего тела, оценивая его потребности. Поэтому этот показатель и называется вариабельностью. И именно он может рассказать нам в каком состоянии находится наша нервная система.


Что мы сделали дальше?

Попросили друзей прислать их данные о нагрузках серверов, они выглядят примерно так же.

А дальше мы сделали простую вещь — применили наши алгоритмы оценки запаса жизненных сил, которые мы используем для людей — к серверам. И что вы думаете?


С точностью до 5% мы научились вычислять износ HDD дисков.

Но давайте немного подробнее.

Задержка диска (rotational latency) — это то время, которое требуется, чтобы «докрутить» необходимый сектор диска до читающей головки. Подробнее этот процесс описан в Wikipedia.

При сильной фрагментации данных это время скачет. Фрагментация появляется по множеству причин, одна из них — битые сектора. Соответственно, если график задержки чтения с диска в фоновой эксплуатации будет иметь некую явную периодичность (как в человеческой кардиограмме), то состояние диска не кажется нам критичным. Продолжая аналогию — кардиоинтервалы спринтера во время забега и график чтения при работе с большим массивом маленьких файлов будут иметь явную общую черту — увеличение видимых глазу «скачков» (QRS-комплексов) на единицу времени.

Вернёмся от теории к практике. Очистим исходный сигнал от шума (обычная линейная фильтрация Фурье) и представим, что на Рисунке 1 перед нами кардиограмма человека. Составим таблицу соответствия между рассчитанным нами запасом жизненных сил, процентом битых секторов на диске и временем службы диска.

Запас жизненных сил Процент битых секторов Время службы диска
1 80% 3% 2 месяца
2 67% 5% 1,5 года
3 30% 20% 3 года
4 14% 37% 4 года
5 1% 69% 5 лет

Примечание — первый диск из таблицы был куплен с рук у метро, его настоящее время службы под вопросом. Возможно, время службы были скручено.

Планы развития технологии.

  1. Очевидно, что при неравномерном износе дисков в RAID-массиве под вопросов оказывается как производительность (RAID 0), так и отказоустойчивость (RAID 1). Сейчас в наших планах формирование новой спецификации — RAID-RR, в который диски будет изнашиваться одновременно! При использовании такой конфигурации RAID, диски выйдут из строя одновременно и предсказуемо.
  2. Выпуск плагина к Zabbix для отображения графика жизненных сил HDD.
  3. Применение технологии для анализа жизненных сил процессора и видеокарты.

Мы планируем провести более серьёзное изучение найденного феномена и если вам интересно поучаствовать в развитии технологии, отмечайтесь в комментариях к этому посту, мы с вами свяжемся и обсудим, что делать дальше!

Pin It on Pinterest