здоров ли ваш HDD?
Aug. 22nd, 2006 11:34 amТестировал жесткие диски, обнаружил что многие не знают о существовании средств мониторинга здоровья винта - Технология SMART (кстати, англоязычный оригинал лучше). Не буду пересказывать статью - прочитайте, полезно! - расскажу случай из жизни:
Вчера ставлю новенький 250-гигабайтный Сигейт Барракуду в сервер вторым винтом, назначаю его частью программного RAID1, начинаю синхронизировать разделы /dev/mdN, все как обычно. И вдруг сыплются ошибки, вылазят dma timeouts, полный набор "кошмар линуксоида".
Ладно. Заменил кабель, пересадил на другой контроллер - та же фигня. Вспомнил про SMART, переставил горе-винт на путер с Windows (для чистоты эксперимента), скачал smartmontools, запустил Short и Extended Offline Test, получил кучу ошибок. Начиная с сектора LBA такого-то, сплошные ошибки чтения. Причем ошибки не операционной системы, а ошибки поверхности, выявленные электроникой винта.
Хорошо, что винт на гарантии - пошел и заменил (Евгений, спасибо!). А не знал быприкуп про SMART - мучился бы неизвестно сколько.
Другой пример:
Есть у меня в одном из серверов 10-гигабайтный HDD Fujitsu. Еженощный SMART-тест показывает что всё у этого винта нормально, только один SMART-атрибут FAILED - Power_On_Seconds. То есть винт отработал дольше, чем планировал производитель, лишних лет пять, и контроллер предупреждает - "бойтесь, могу накрыться".
Еще пример:
Ядро получило ошибку записи на одно из устройств, входящих в RAID1, и отключило этот раздел. RAID стал degraded, но работать не перестал, сервер все-таки, по статусу положено. В журнале SMART стало видно первый сектор, на котором начались ошибки. Как чинить? Начинаем писать в это устройство чем-нибудь вроде dd if=/dev/zero of=/dev/hdc11, то есть затираем раздел нулями. При записи в ошибочный сектор электроника винта подменяет сектор на резервный, дальнейший Extended SMART тест показывает отсутствие проблемы, раздел успешно подключается обратно в RAID.
Вообще, все серверы с винтами IDE/ATA у меня мониторятся по SMART, благо ныне это легко и просто: apt-get install smartmontools. Тесты проводятся демоном каждую ночь, практически без ущерба производительности, и только по чтению (ошибки записи тоже попадают в журнал SMART, но только при попытке операционки записать что-то в битый сектор). Винтов пять уже заменил благодаря SMARTу, не дожидаясь внезапной кончины.
Очень и очень рекомендую: проверьте свой HDD сегодня. Smartmontools'ом или еще чем - неважно.
Лучше грамм профилактики, чем тонна лечения.
Вчера ставлю новенький 250-гигабайтный Сигейт Барракуду в сервер вторым винтом, назначаю его частью программного RAID1, начинаю синхронизировать разделы /dev/mdN, все как обычно. И вдруг сыплются ошибки, вылазят dma timeouts, полный набор "кошмар линуксоида".
Ладно. Заменил кабель, пересадил на другой контроллер - та же фигня. Вспомнил про SMART, переставил горе-винт на путер с Windows (для чистоты эксперимента), скачал smartmontools, запустил Short и Extended Offline Test, получил кучу ошибок. Начиная с сектора LBA такого-то, сплошные ошибки чтения. Причем ошибки не операционной системы, а ошибки поверхности, выявленные электроникой винта.
Хорошо, что винт на гарантии - пошел и заменил (Евгений, спасибо!). А не знал бы
Другой пример:
Есть у меня в одном из серверов 10-гигабайтный HDD Fujitsu. Еженощный SMART-тест показывает что всё у этого винта нормально, только один SMART-атрибут FAILED - Power_On_Seconds. То есть винт отработал дольше, чем планировал производитель, лишних лет пять, и контроллер предупреждает - "бойтесь, могу накрыться".
Еще пример:
Ядро получило ошибку записи на одно из устройств, входящих в RAID1, и отключило этот раздел. RAID стал degraded, но работать не перестал, сервер все-таки, по статусу положено. В журнале SMART стало видно первый сектор, на котором начались ошибки. Как чинить? Начинаем писать в это устройство чем-нибудь вроде dd if=/dev/zero of=/dev/hdc11, то есть затираем раздел нулями. При записи в ошибочный сектор электроника винта подменяет сектор на резервный, дальнейший Extended SMART тест показывает отсутствие проблемы, раздел успешно подключается обратно в RAID.
Вообще, все серверы с винтами IDE/ATA у меня мониторятся по SMART, благо ныне это легко и просто: apt-get install smartmontools. Тесты проводятся демоном каждую ночь, практически без ущерба производительности, и только по чтению (ошибки записи тоже попадают в журнал SMART, но только при попытке операционки записать что-то в битый сектор). Винтов пять уже заменил благодаря SMARTу, не дожидаясь внезапной кончины.
Очень и очень рекомендую: проверьте свой HDD сегодня. Smartmontools'ом или еще чем - неважно.
Лучше грамм профилактики, чем тонна лечения.
no subject
Date: 2006-08-22 08:11 am (UTC)