llivejo: (Default)
[personal profile] llivejo
Тестировал жесткие диски, обнаружил что многие не знают о существовании средств мониторинга здоровья винта - Технология SMART (кстати, англоязычный оригинал лучше). Не буду пересказывать статью - прочитайте, полезно! - расскажу случай из жизни:

Вчера ставлю новенький 250-гигабайтный Сигейт Барракуду в сервер вторым винтом, назначаю его частью программного RAID1, начинаю синхронизировать разделы /dev/mdN, все как обычно. И вдруг сыплются ошибки, вылазят dma timeouts, полный набор "кошмар линуксоида".

Ладно. Заменил кабель, пересадил на другой контроллер - та же фигня. Вспомнил про SMART, переставил горе-винт на путер с Windows (для чистоты эксперимента), скачал smartmontools, запустил Short и Extended Offline Test, получил кучу ошибок. Начиная с сектора LBA такого-то, сплошные ошибки чтения. Причем ошибки не операционной системы, а ошибки поверхности, выявленные электроникой винта.
Хорошо, что винт на гарантии - пошел и заменил (Евгений, спасибо!). А не знал бы прикуп про SMART - мучился бы неизвестно сколько.

Другой пример:
Есть у меня в одном из серверов 10-гигабайтный HDD Fujitsu. Еженощный SMART-тест показывает что всё у этого винта нормально, только один SMART-атрибут FAILED - Power_On_Seconds. То есть винт отработал дольше, чем планировал производитель, лишних лет пять, и контроллер предупреждает - "бойтесь, могу накрыться".

Еще пример:
Ядро получило ошибку записи на одно из устройств, входящих в RAID1, и отключило этот раздел. RAID стал degraded, но работать не перестал, сервер все-таки, по статусу положено. В журнале SMART стало видно первый сектор, на котором начались ошибки. Как чинить? Начинаем писать в это устройство чем-нибудь вроде dd if=/dev/zero of=/dev/hdc11, то есть затираем раздел нулями. При записи в ошибочный сектор электроника винта подменяет сектор на резервный, дальнейший Extended SMART тест показывает отсутствие проблемы, раздел успешно подключается обратно в RAID.

Вообще, все серверы с винтами IDE/ATA у меня мониторятся по SMART, благо ныне это легко и просто: apt-get install smartmontools. Тесты проводятся демоном каждую ночь, практически без ущерба производительности, и только по чтению (ошибки записи тоже попадают в журнал SMART, но только при попытке операционки записать что-то в битый сектор). Винтов пять уже заменил благодаря SMARTу, не дожидаясь внезапной кончины.


Очень и очень рекомендую: проверьте свой HDD сегодня. Smartmontools'ом или еще чем - неважно.

Лучше грамм профилактики, чем тонна лечения.

December 2020

S M T W T F S
  12345
6789101112
13141516171819
20212223242526
27282930 31  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 16th, 2026 10:47 pm
Powered by Dreamwidth Studios