llivejo: (Default)
[personal profile] llivejo
Тестировал жесткие диски, обнаружил что многие не знают о существовании средств мониторинга здоровья винта - Технология SMART (кстати, англоязычный оригинал лучше). Не буду пересказывать статью - прочитайте, полезно! - расскажу случай из жизни:

Вчера ставлю новенький 250-гигабайтный Сигейт Барракуду в сервер вторым винтом, назначаю его частью программного RAID1, начинаю синхронизировать разделы /dev/mdN, все как обычно. И вдруг сыплются ошибки, вылазят dma timeouts, полный набор "кошмар линуксоида".

Ладно. Заменил кабель, пересадил на другой контроллер - та же фигня. Вспомнил про SMART, переставил горе-винт на путер с Windows (для чистоты эксперимента), скачал smartmontools, запустил Short и Extended Offline Test, получил кучу ошибок. Начиная с сектора LBA такого-то, сплошные ошибки чтения. Причем ошибки не операционной системы, а ошибки поверхности, выявленные электроникой винта.
Хорошо, что винт на гарантии - пошел и заменил (Евгений, спасибо!). А не знал бы прикуп про SMART - мучился бы неизвестно сколько.

Другой пример:
Есть у меня в одном из серверов 10-гигабайтный HDD Fujitsu. Еженощный SMART-тест показывает что всё у этого винта нормально, только один SMART-атрибут FAILED - Power_On_Seconds. То есть винт отработал дольше, чем планировал производитель, лишних лет пять, и контроллер предупреждает - "бойтесь, могу накрыться".

Еще пример:
Ядро получило ошибку записи на одно из устройств, входящих в RAID1, и отключило этот раздел. RAID стал degraded, но работать не перестал, сервер все-таки, по статусу положено. В журнале SMART стало видно первый сектор, на котором начались ошибки. Как чинить? Начинаем писать в это устройство чем-нибудь вроде dd if=/dev/zero of=/dev/hdc11, то есть затираем раздел нулями. При записи в ошибочный сектор электроника винта подменяет сектор на резервный, дальнейший Extended SMART тест показывает отсутствие проблемы, раздел успешно подключается обратно в RAID.

Вообще, все серверы с винтами IDE/ATA у меня мониторятся по SMART, благо ныне это легко и просто: apt-get install smartmontools. Тесты проводятся демоном каждую ночь, практически без ущерба производительности, и только по чтению (ошибки записи тоже попадают в журнал SMART, но только при попытке операционки записать что-то в битый сектор). Винтов пять уже заменил благодаря SMARTу, не дожидаясь внезапной кончины.


Очень и очень рекомендую: проверьте свой HDD сегодня. Smartmontools'ом или еще чем - неважно.

Лучше грамм профилактики, чем тонна лечения.
This account has disabled anonymous posting.
If you don't have an account you can create one now.
HTML doesn't work in the subject.
More info about formatting

December 2020

S M T W T F S
  12345
6789101112
13141516171819
20212223242526
27282930 31  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 17th, 2026 03:00 am
Powered by Dreamwidth Studios