Показать полную графическую версию : Видимость RAID-массива контроллером
shevgenius
06-12-2016, 17:00
Всем доброго дня, с недавнего времени в системном журнале и MegaRAID Storage Manager на одном из дисков появились следующие ошибки:
MegaRAID Storage Manager 16.02.00.04 Event Log - Generated on Tue Dec 06 14:24:36 EET 2016
------------------------------------------------------------------------------------------
ID = 58
SEQUENCE NUMBER = 41532
TIME = 03-12-2016 01:51:09
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check done on VD: 0
..........
ID = 57
SEQUENCE NUMBER = 41241
TIME = 03-12-2016 01:06:49
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check corrected medium error: ( VD 0 Location 0x30dd52e, PD Port 0 - 3:0:0 Location 0x30dd52e)
ID = 57
SEQUENCE NUMBER = 41240
TIME = 03-12-2016 01:06:49
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check corrected medium error: ( VD 0 Location 0x30dd52a, PD Port 0 - 3:0:0 Location 0x30dd52a)
ID = 113
SEQUENCE NUMBER = 41239
TIME = 03-12-2016 01:06:49
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = Port 0 - 3:0:0Unrecovered read error, CDB = 0x28 0x00 0x03 0x0d 0xd5 0x2b 0x00 0x00 0x55 0x00 , Sense = 0xf0 0x00 0x03 0x03 0x0d 0xd5 0x2e 0x0a 0x00 0x00 0x00 0x00 0x11 0x00 0x81 0x80 0x00 0x97
ID = 113
SEQUENCE NUMBER = 41238
TIME = 03-12-2016 01:06:47
LOCALIZED MESSAGE = Controller ID: 0 Unexpected sense: PD = Port 0 - 3:0:0Unrecovered read error, CDB = 0x28 0x00 0x03 0x0d 0xd5 0x00 0x00 0x00 0x80 0x00 , Sense = 0xf0 0x00 0x03 0x03 0x0d 0xd5 0x2a 0x0a 0x00 0x00 0x00 0x00 0x11 0x00 0x81 0x80 0x00 0x97
ID = 35
SEQUENCE NUMBER = 41217
TIME = 03-12-2016 01:01:11
LOCALIZED MESSAGE = Controller ID: 0 Patrol Read complete
ID = 66
SEQUENCE NUMBER = 41216
TIME = 03-12-2016 01:01:11
LOCALIZED MESSAGE = Controller ID: 0 Consistency Check started on VD: 0
ID = 39
SEQUENCE NUMBER = 41215
TIME = 03-12-2016 01:01:11
LOCALIZED MESSAGE = Controller ID: 0 Patrol Read started
ID = 96
SEQUENCE NUMBER = 41213
TIME = 02-12-2016 00:28:25
LOCALIZED MESSAGE = Controller ID: 0 PD Predictive failure: Port 0 - 3:0:2
Контроллер: LSI MegaRAID SAS 9260-4i
Для диска: Slot: 2, SAS, 279,397 Gb, Online (512 B)
с каждым днем растут значения:
Media Error Count: 5
Pred Fail Count: 31
Статус RAID-массива: Optimal и все диски светятся синими диодами, т.е. с виду все ок, но симптомы присутствуют.
Т.к. в массиве диски, которые уже не купить было принято решение взять комплект новых дисков и собрать RAID-массив заново.
Вопрос в следующем:
1) Где храниться информация о RAID-массиве, в памяти RAID-массива или на каждом диске не завися от RAID-массива.
2) Если из RAID-массива извлечь все диски (физически вынимая из корзин), поставить новые чистые диски, чтобы накатить бекап,
RAID-контроллер предложит создать массив или будет говрить об отсутствующих дисках из старого массива.
3) Если развернув на новых дисках RAID-массив, извлечь их и вернуть старые диски, старый RAID-массив с ОС будет виден?
Из статьи Что делать, если вышел из строя RAID-контроллер? (https://habrahabr.ru/company/advanserv/blog/163451/) понял что информация о RAID-массиве хранится на дисках, но как на практике?
Спасибо.
shevgenius, самое простое — заменили один, дождались конца ресинхронизации, заменили второй. Да, часть пространства, вероятно, пойдёт псу под хвост, но так меньше всего головной боли.
Angry Demon
06-12-2016, 18:53
Где храниться информация о RAID-массиве, в памяти RAID-массива или на каждом диске не завися от RAID-массива
Вопрос лишён смысла, ибо "RAID-массив" - совокупность дисков. А информация хранится в памяти контроллера.
Если из RAID-массива извлечь все диски (физически вынимая из корзин), поставить новые чистые диски, чтобы накатить бекап
Сначала удалите старый массив. Новый не даст создать.
shevgenius
07-12-2016, 11:39
Изучение User Guide дало ответы на некоторые вопросы, в частности:
информация хранится в памяти контроллера
там я в самом вопросе накрутил с формулировкой...
1.6.7 Drive Roaming
Configuration data is saved in both the NVRAM on the RAID controller and on the drives attached to the controller.
This action maintains the integrity of the data on each drive, even if the drives have changed their physical device ID.
Так скорее всего RAID-контроллер определяет замену диска, сверяя конфигурацию на дисках и в NVRAM контроллера.
Сначала удалите старый массив. Новый не даст создать.
Здесь вы правы, но делать это нужно на контроллере с отключенными дисками, чтобы подключив диски с массивом, контроллер подхватил конфигурацию RAID-массива с дисков.
1.6.8 Drive Migration
Drive migration is the transfer of a set of drives in an existing configuration from one controller to another. The drives
must remain on the same channel and must be reinstalled in the same order as in the original configuration. The
controller to which you migrate the drives cannot have an existing configuration.
Смущает, только эта оговорка. Что значит virtual drive (not all of the drives in a drive group)?
Т.е. это физические диски, из которых состоит/размечен virtual drive, который видит ОС, но в этот набор не включены диски hot spare или еще что-то?
When you migrate drives, move only the drives that make up the virtual drive (not all of the drives in a drive group), so that you do not see an NVRAM mismatch error (providing a configuration is on the destination controller). The NVRAM mismatch error appears only if you move all of the drives to the other controller.
А какой именно рейд то?
заменили один, дождались конца ресинхронизации, заменили второй
Сейчас используется аппаратный RAID10 на четырех дисках, дожидаться четыре ресинхронизации думаю будет дольше, к тому же их нужно делать последовательно,
чем собрать чистый RAID10 и накатить на него бекап.
А если верить User Guide, то вариант извлечь старый RAID-массив и собрав новый надежнее, т.к. всегда останется старый хромающий но еще работающий.
Да и диски старые и новые разных производителей, хоть и объем одинаковый.
Drive roaming occurs when the drives are changed to different ports on the same controller. When the drives are
placed on different channels, the controller detects the RAID configuration from the configuration data on the drives.
Configuration data is saved in both the NVRAM on the RAID controller and on the drives attached to the controller.
This action maintains the integrity of the data on each drive, even if the drives have changed their physical device ID.
NOTE
If you move a drive that is being rebuilt, the rebuild operation restarts;
it does not resume from the stopping point.
Follow these steps to use the drive roaming feature:
1. Turn off the power to the server and all drives, enclosures, and system components. Disconnect the power cords from the system.
2. Open the host system by following the instructions in the host system technical documentation.
3. Move the drives to different positions on the backplane to change the targets.
4. Determine the SAS target requirements.
5. Perform a safety check.
a. Make sure that the drives are inserted correctly.
b. Close the cabinet of the host system.
6. Reconnect the power cords to the system.
7. Turn on the power to the system.
The controller then detects the RAID configuration from the configuration data on the drives.
Drive migration is the transfer of a set of drives in an existing configuration from one controller to another.
The drives must remain on the same channel and must be reinstalled in the same order as in the original configuration.
The controller to which you migrate the drives cannot have an existing configuration.
NOTE
Partial configurations, which include individual virtual drives, can be migrated.
NOTE
Drive roaming and drive migration cannot be supported at the same time.
Follow these steps to migrate drives:
1. Make sure that you clear the configuration on the system to which you migrate the drives to prevent a configuration data mismatch between the drives and the NVRAM.
NOTE
When you migrate drives, move only the drives that make up the virtual drive (not all of the drives in a drive group), so that you do not see an NVRAM mismatch error (providing a configuration is on the destination controller). The NVRAM mismatch error appears only if you move all of the drives to the other controller.
2. Turn off power to the server and all drives, enclosures, and system components. Disconnect the power cords from the systems.
3. Open the host system by following the instructions in the host system technical documentation.
4. Either remove the SAS cable connectors from the internal drives, or remove the shielded cables from the external drives that you want to migrate.
a. Make sure that pin 1 on the cable matches pin 1 on the connector.
b. Make sure that the SAS cables conform to all SAS specifications.
5. Remove the drives from the first system, and insert them into the drive bays on the second system.
6. Connect the SAS cables to the drives in the second system.
7. Determine the SAS target requirements.
8. Perform a safety check.
a. Make sure that all of the cables are attached correctly.
b. Make sure that the RAID controller is installed correctly.
c. Close the cabinet of the host system.
9. Reconnect the power cords to the system.
10. Turn on the power to the system.
The controller detects the RAID configuration from the configuration data on the drives.
Сейчас используется аппаратный RAID10 на четырех дисках, »
Тут даже советовать не буду, ибо сам не пробовал.
Да и диски старые и новые разных производителей, хоть и объем одинаковый. »
С этим проблем как раз не возникало.
Angry Demon
07-12-2016, 14:25
Здесь вы правы, но делать это нужно на контроллере с отключенными дисками
С отключенными дисками, насколько я помню, MegaRAID не позволяет ничего сделать с массивом. Ещё раз, сначала разбиваете массив, затем подключаете новые диски и создаёте новый. Это если хотите использовать полную ёмкость дисков. Иначе - как указал коллега Iska.
чтобы подключив диски с массивом, контроллер подхватил конфигурацию RAID-массива с дисков
О каких ещё "дисках с массивом" вы говорите??? Насколько я понял, вы собираетесь новые диски купить. Вот и создавайте из них новый массив.
shevgenius
07-12-2016, 16:38
О каких ещё "дисках с массивом" вы говорите
для ясности:
RAID10-старый, массив из 4х дисков, которые сейчас установлены в сервере и работают, из которого, готовится отвалится диск.
RAID10-новый, массив из 4х новых дисков, если его собрать наново без участия старых дисков.
Хочу все сделать по такой схеме:
* бекап системного диска сервера;
* вытащили из корзин диски RAID10-старого - это и работающий образ системы и еще один бекап на старых дисках;
* очистить конфигурацию в контроллере и собрать RAID10-новый, накатить бекап, если все ок, так и оставляем;
Если RAID10-новый не взлетел, тогда:
* вытащили из корзин диски RAID10-нового;
* очистили конфигурацию в контроллере, подключили RAID10-старый, пользователи продолжают работу с сервером;
* думаем, почему не взлетело
Можно конечно и через ресинхронизацию попробовать, если будет работать вышеописанная схема.
Но если ресинхронизация завалит RAID-старый, например под утро или в течении дня,
то нужно будет больше времени на накатывание бекапа, а пользователи, как известно долго не ждут...
С этим проблем как раз не возникало.
Хорошо, тогда, сколько приблизительно будет идти ресинхронизиция для одного 300Gb диска? А их таких нужно будет сделать четыре.
В лучшем случаем ставим вечером и на утро получаем его в строю, а если дольше, то от пользователей, разумное: что же это оно так все тормозит то?..
И как скажется на процессе ресинхронизации работа пользователей на сервере?
С отключенными дисками, насколько я помню, MegaRAID не позволяет ничего сделать с массивом.
Утверждать не стану, еще не проверял, но вытащив диски RAID10-старого из корзин, в памяти контроллера останется текущая конфигурация RAID-массива.
О чем подтверждает этот абзац:
Configuration data is saved in both the NVRAM on the RAID controller and on the drives attached to the controller.
Идем дальше, включаем сервер без дисков, контроллер сообщает нам: помню был RAID10, вот здесь, а где сейчас не знаю...
Ну или, например, RAID-массив деградировал, можно же очистить конфигурацию в контроллере и создавать новый RAID-массив.
Котроллеру же не нужно для этого теребить почившего, чтобы сказать ему, что, да отпускаю...
Или перенос RAID-массива с одного контроллера на другой, но у меня в распоряжении один контроллер, а вышеописанная схема подразумевает маневры с двумя RAID-массивами.
И на этот счет из 1.6.8 Drive Migration читаем:
Make sure that you clear the configuration on the system to which you migrate the drives to prevent a configuration data mismatch between the drives and the NVRAM.
и дальше по тексту...
Angry Demon
07-12-2016, 19:09
shevgenius, вы сильно усложняете и искривляете путь к результату.
0. Делаете образ тома RAID-массива.
1. Разбиваете RAID-массив.
2. Отключаете старые диски.
3. Подключаете новые диски.
4. Создаёте новый RAID-массив, не забыв установить загрузочный атрибут, если он должен быть.
5. Разворачиваете на него ранее сохранённый образ.
Делов на полчаса - сорок минут. Проделывалось неоднократно.
Но если ресинхронизация завалит RAID-старый, например под утро или в течении дня
Бред.
Хорошо, тогда, сколько приблизительно будет идти ресинхронизиция для одного 300Gb диска?
ИМХО, часа три - четыре.
от пользователей, разумное: что же это оно так все тормозит то?
С чего он будет тормозить? Это не RAID1, а RAID10.
И как скажется на процессе ресинхронизации работа пользователей на сервере?
Тот же самый процесс происходит, что и при отражении, ничего экстраординарного.
shevgenius
08-12-2016, 13:42
4. Создаёте новый RAID-массив, не забыв установить загрузочный атрибут, если он должен быть. »
Можно об этом подробнее, это в настройках при создании RAID-массива или речь идет об активном разделе логического диска с системой? или еще нужно будет загрузчик системы настраивать?
С чего он будет тормозить? Это не RAID1, а RAID10. »
так RAID10 это те же n-дцать RAID1 в RAID0, и если файлы пользователя, как раз на ресинхронизируемом n-ном RAID1?
для нас то очевидно:
Тот же самый процесс происходит, что и при отражении, ничего экстраординарного. »
а вот для пользователя)...
Angry Demon
08-12-2016, 14:37
это в настройках при создании RAID-массива или речь идет об активном разделе логического диска с системой?
При создании массива в BIOS контроллера.
или еще нужно будет загрузчик системы настраивать?
Не нужно.
а вот для пользователя
Пройдёт также незаметно.
shevgenius
12-12-2016, 17:15
Диски в RAID-массиве успешно заменил, по вашей схеме, спасибо.
0. Делаете образ тома RAID-массива.
1. Разбиваете RAID-массив.
2. Отключаете старые диски.
3. Подключаете новые диски.
4. Создаёте новый RAID-массив, не забыв установить загрузочный атрибут, если он должен быть.
5. Разворачиваете на него ранее сохранённый образ. »
По поводу отключенных дисков:
С отключенными дисками, насколько я помню, MegaRAID не позволяет ничего сделать с массивом. »
Позволяет, просто делаем очистку конфигурации, подключаем диски и создаем новую.
Да, мышка, кстати, через IPMI под Supermicro в графической консоли RAID-контроллера живет своей жизнью, все только через клавиатуру.
Инструкция для RAID10 на контроллере LSI Megaraid 9260-4i (http://sanotes.ru/raid10-na-lsi-megaraid-9260-4i/)
А на что особенно хотелось бы обратить, внимание, так это на ошибки:
Т.к. мы поставили новые чистые диски, на которых развернули RAID-массив, на котором еще нет логических разделов, при попытке накатить образ системы из бекапа
При загрузке из под BIOS получаем:
Windows не удается выполнить восстановление образа системы на компьютере другой микропрограммой. Образ был создан на компьютере, использующем Bios, а данный компьютер использует efi.
И при загрузке из под UEFI:
Данная версия параметров восстановления системы несовместима с восстанавливаемой версией Windows.
Поиск по форуму, конечно дал несколько тем с пометкой "решено", но в итоге решением данной проблемы нашлось здесь:
This version of System Recovery Options is not compatible with the version of Windows (https://answers.microsoft.com/en-us/windows/forum/all/this-version-of-system-recovery-options-is-not/16d5d1e6-b383-451f-8bfe-c7501c582fe0?page=2)
You must create a new recovery disk from that EFI partitioned machine. I was using an old Windows 7 recovery disk. I left all the drives connected.
Insert Windows 7 installation disk. Choose "Custom Install". Delete all the partitions and click "NEW" to create new partitions. It will be done automatically. You should see 3 partitions: Partition 1 is System, Partition 2 is MSR(reserved) and Partition 3 is Primary. Click red X to cancel installation. Do not click "NEXT".
Insert Windows 7 recovery disk, restart and proceed with the usual steps to recover an image.
У себя использовал оригинальный диск Windows Server 2008 R2, создав разделы, как описано выше, после чего восстановление системы запустилось и накатило бекап на новые диски. в конце правда зависло, но таки сделало свое дело.
Всем спасибо за помощь.
© OSzone.net 2001-2012
vBulletin v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.
Available in ZeroNet 1osznRoVratMCN3bFoFpR2pSV5c9z6sTC