Восстановление RAID-массива на контроллере LSI (Avago) в сервере Supermicro
Отказ RAID-контроллера — одна из самых критичных ситуаций в жизни администратора. Когда сервер на базе Supermicro с контроллером LSI (Avago) перестаёт видеть массив, а данные кажутся потерянными, важно сохранять спокойствие и действовать по чёткому плану. В этом руководстве мы разберём все этапы диагностики и восстановления: от простых перезагрузок до работы с утилитой StorCLI и замены контроллера.
1. Быстрая диагностика: что именно произошло?
Прежде чем лезть в настройки, оцените симптомы:
- Контроллер не определяется в системе — отсутствует в POST, не виден в Device Manager / lspci.
- Контроллер виден, но не работает — ошибки вида
Avago EFI SAS Driver Failed, зависание на инициализации, сообщениеConfiguration Required. - Пропал виртуальный диск (VD) — массив отображается как
Foreign(чужой) или отсутствует в списке. - Проблемы с дисками — один или несколько HDD/SSD имеют статус
Failed,Degraded,Unconfigured Bad.
Запишите модель контроллера (например, MegaRAID 9361-8i) и версию прошивки, если видите её при загрузке.
2. Первичные аппаратные проверки
В 90% случаев проблема решается простыми действиями с «железом».
2.1 Глубокий сброс питания (Full Power Cycle)
- Полностью выключите сервер.
- Отключите все кабели питания от блоков питания (PSU) или выньте блоки из корпуса.
- Подождите 2–3 минуты — это сбросит состояние контроллера и накопителей.
- Включите питание и запустите сервер.
2.2 Проверка кабелей и подключений
Осмотрите кабели SAS/SATA от контроллера к backplane или напрямую к дискам. Убедитесь, что они надёжно зафиксированы, нет перегибов и окисления контактов. Попробуйте переключить кабели на другой порт контроллера.
2.3 Запуск без дисков
Отключите все диски от сервера и включите его. Если контроллер теперь определяется нормально (например, утилита Ctrl+H загружается без ошибок), значит проблема в конфигурации на дисках или в самом диске. Выключите сервер, подключите диски по одному и следите за появлением ошибки.
3. Восстановление через утилиту WebBIOS (Ctrl+H)
Большинство контроллеров LSI/Avago имеют встроенную утилиту настройки, доступную по Ctrl+H во время POST. Если этот экран не появляется, попробуйте войти в UEFI Boot Manager и выбрать «MegaRAID Configuration Utility».
3.1 Импорт чужой конфигурации (Foreign Configuration)
- Зайдите в WebBIOS и перейдите на вкладку Foreign View (обычно в правом верхнем углу).
- Если контроллер обнаружил конфигурацию на дисках, вы увидите опции Import и Clear.
- Выберите Import. Это безопасно — контроллер прочитает метаданные RAID с дисков и восстановит виртуальный диск.
- После импорта перезагрузите сервер.
3.2 Если импорт не удался или Foreign View пуст
Попробуйте выполнить «сканирование дисков» через Scan Devices или Rescan. Иногда помогает переход на вкладку Physical View и ручное переключение статуса дисков с Unconfigured Good на Online (только если вы уверены, что диск является частью массива).
4. Продвинутое восстановление через StorCLI
Если WebBIOS не помог, используйте утилиту командной строки StorCLI. Она доступна для Windows, Linux и UEFI Shell. Скачайте её с официального сайта Broadcom или из пакета поддержки Supermicro.
4.1 Подготовка и запуск StorCLI
Загрузите сервер с Live USB (например, Ubuntu Live) или войдите в UEFI Shell. Поместите исполняемый файл storcli64 (для Linux) или storcli.efi (для UEFI) на флешку и запустите.
# Пример для Linux (с правами root)
chmod +x storcli64
./storcli64 show
# Вы увидите список контроллеров, например, Controller = 0 (c0)
4.2 Основные диагностические команды
# Информация о контроллере
./storcli64 /c0 show
# Статус виртуальных дисков (VD)
./storcli64 /c0 /vall show
# Статус физических дисков (PD)
./storcli64 /c0 /eall /sall show
# Подробный журнал событий
./storcli64 /c0 show events
4.3 Импорт Foreign Configuration через CLI
# Мягкий импорт (рекомендуется)
./storcli64 /c0 /fall import
# Принудительный импорт (если мягкий не сработал)
./storcli64 /c0 /fall import force
4.4 Сброс контроллера в заводское состояние (только для продвинутых)
Если контроллер «завис» с битой конфигурацией в NVRAM, можно сбросить его настройки, затем перезагрузить и импортировать массив заново.
# Сброс настроек контроллера
./storcli64 /c0 set factory defaults
# Очистка NVRAM (не удаляет данные на дисках)
./storcli64 /c0 delete nvram
# После этого выключите сервер, отключите питание на минуту,
# включите и снова выполните импорт Foreign Config.
set factory defaults и delete nvram не трогают данные на жёстких дисках. Однако после этих операций контроллер будет «чистым», и вам обязательно нужно будет импортировать Foreign Configuration. Если сделать это неправильно, можно потерять доступ к данным.
4.5 Замена отказавшего диска и перестроение (Rebuild)
Если массив деградировал (статус Degraded), найдите сбойный диск в списке (Failed или Unconfigured Bad). Замените его на новый, того же или большего объёма. Затем запустите перестроение:
# Узнать идентификатор диска, например, 252:1
./storcli64 /c0 /e252 /s1 show
# Начать перестроение
./storcli64 /c0 /vall start rebuild
5. Замена контроллера на аналогичный
Если оригинальный контроллер физически сломан (не виден в шине, не отвечает на команды), лучший способ восстановить доступ к данным — установить точно такой же (или совместимый) контроллер LSI/Avago MegaRAID с той же версией прошивки или новее.
- Приобретите идентичную модель (например, 9361-8i вместо 9361-8i).
- Установите контроллер в тот же слот PCIe.
- Подключите диски в том же порядке (порты контроллера и кабели).
- Включите сервер. Новый контроллер должен обнаружить конфигурацию на дисках как Foreign.
- Выполните импорт (через WebBIOS или StorCLI).
В большинстве случаев массив восстанавливается автоматически, и данные остаются нетронутыми.
6. Крайние меры: извлечение данных через Linux (mdadm)
Если нет возможности заменить контроллер или импорт не сработал, можно попытаться собрать программный RAID на Linux.
- Этот метод сложен и требует знаний командной строки.
- Подключите все диски от массива к SATA-портам обычного компьютера с Linux (например, Ubuntu Live).
- Убедитесь, что диски видны:
lsblk. - Попробуйте автоматическое обнаружение:
sudo mdadm --assemble --scan. - Если не собралось, создайте массив в ручном режиме только для чтения:
Параметрsudo mdadm --create /dev/md0 --level=raid5 --raid-devices=4 --assume-clean /dev/sdb /dev/sdc /dev/sdd /dev/sde--assume-cleanзапрещает перезапись данных. Указывайте точный порядок дисков, который был в исходном массиве. - Смонтируйте результат и скопируйте данные на другой носитель.
mdadm --create без ключа --assume-clean уничтожит суперблоки и данные. Если вы не уверены в своих действиях, лучше обратитесь к профессионалам по восстановлению данных.
7. Профилактика и мониторинг после восстановления
- Обновите прошивку (Firmware) контроллера — скачайте последнюю версию с сайта Supermicro (для вашей модели) и установите через StorCLI или утилиту
storcli64 /c0 download file=mr_fw.rom. - Настройте мониторинг: Установите MegaRAID Storage Manager (MSM) или используйте скрипты с уведомлениями о статусе дисков и контроллера.
- Регулярно проверяйте резервные копии — RAID не отменяет необходимость бэкапов.
- Планово заменяйте диски при появлении предупреждений
Predictive Failure.
8. Чек-лист действий при отказе RAID
- Отключите питание сервера на 2-3 минуты (глубокий сброс).
- Проверьте кабели и подключение дисков.
- Попробуйте загрузить утилиту WebBIOS (Ctrl+H).
- Если массив виден как Foreign — выполните Import.
- Если нет — загрузитесь с Live USB и используйте StorCLI для диагностики и импорта.
- При необходимости сбросьте контроллер в заводские настройки (
set factory defaults+delete nvram) и затем импортируйте Foreign. - Если контроллер неисправен — замените на аналогичный и импортируйте конфигурацию.
- Если данные критичны, а все попытки не увенчались успехом — обратитесь в специализированную лабораторию по восстановлению данных.
9. Заключение
Восстановление RAID-массива на контроллере LSI/Avago в сервере Supermicro — процесс, который в большинстве случаев заканчивается успешно, если следовать алгоритму: не паниковать, не делать лишних действий, использовать импорт Foreign Configuration. В тяжёлых ситуациях на помощь приходит утилита StorCLI и замена контроллера на аналогичный. Помните, что резервное копирование — единственная гарантия сохранности данных, поэтому после восстановления обязательно настройте мониторинг и систему бэкапов.

