PDA

Показать полную графическую версию : Сервер зависает с критической ошибкой и иногда перестраивает массив


zionkv
06-03-2013, 05:31
Периодически зависает машина, не могу понять причин. Windows Server 2008 R2 в качестве КД, DHCP, SQL и 1С (так уж сложилось, что без HV). Марка сервера: HP PriLoant ML110 G6. 2 х 120 гБ родных HDD массивом RAID-1 (mirror).

http://s42.radikal.ru/i098/1303/80/c66712a15ceb.png
Система перезагрузилась, не завершив полностью работу. Эта ошибка может быть результатом того, что система перестала отвечать, произошел критический сбой, или неожиданно отключилось питание.

Каждые несколько перезагрузок происходит следующее: во время запуска сервера, после BIOS, появляется запрос от RAID-контроллера на перестройку массива. После загрузки системы можно увидеть в вебовской утилите HP прогресс перестроения массива, который длится около десятка часов. По сведениям вебовской утилиты HP - все датчики HDD и массива в норме.

Куда копать, как избежать зависаний?

brass_net
06-03-2013, 06:55
После загрузки системы можно увидеть в вебовской утилите HP прогресс перестроения массива, который длится около десятка часов. »
Так он в итоге заканчивается успешно, или как, массив в каком состоянии?

zionkv
06-03-2013, 13:43
Так он в итоге заканчивается успешно, или как, массив в каком состоянии? »
Нормально заканчивается, все зеленым. Но тормоза ведь, пока перестраивается. Да и перед перезагрузкой, хотя не уверен, пользователи пока точно не сообщили.

exo
06-03-2013, 13:51
выполните (http://forum.oszone.net/thread-130713.html) действия по анализу BSOD.
А то, что у вас верификация начинается после загрузки, то это нормальное явление. RAID должен же проверить что у него всё в порядке.

alef2474
08-03-2013, 22:10
Нормально заканчивается, все зеленым. Но тормоза ведь, пока перестраивается. »

А разве когда перестраивается RAID можно работать у НР(пусть с тормозами)? Обычно ведь ОС не грузится, пока не перестроится.
Какой-нибудь диск сыпется(лампочка должна показывать), может быть. Обратитесь в НР за консультацией.

exo
08-03-2013, 22:20
А разве когда перестраивается RAID можно работать у НР(пусть с тормозами)? Обычно ведь ОС не грузится, пока не перестроится. »
а смысл тогда в RAID ? там возможно не перестройка идёт, а верификация. а НР обратится конечно стоит, может и гарантия есть.

alef2474
08-03-2013, 22:27
а смысл тогда в RAID ? »

Он говорит не про текущую работу, когда битый RAID и должен тормозить, а про действия при перезагрузке компа, когда RAID сперва должен нормально восстановиться, а потом уж ОС запускать. Хотя если диск битый и на 100% используется в RAID, то его надо просто менять на аналогичный или больший по размеру. Какая-нибудь софт-утилита должна показывать сбойность диска.

exo
08-03-2013, 22:31
когда RAID сперва должен нормально восстановиться, а потом уж ОС запускать »
вот ОС и должна загрузится с живого диска, а ребилд в фоне. это ж сколько ждать если загрузочный диск несколько терабайт ?

alef2474
08-03-2013, 22:38
вот ОС и должна загрузится с живого диска, а ребилд в фоне. это ж сколько ждать если загрузочный диск несколько терабайт ? »

Пусть сделает ребилд не в фоне, а до загрузки - войдет в биос меню. А ждать столько, сколько нужно - может и десяток часов, как пишет. А лучше чтоб данные полетели?
А если при загруженной ОС, то уж по крайней мере без каких-либо внешних подключений.

exo
08-03-2013, 22:41
Пусть сделает ребилд не в фоне »
не надо ничего делать :) мы ещё не знаем в чём проблема. автор так и не сделал анализ BSOD

alef2474
08-03-2013, 22:45
мы ещё не знаем в чём проблема »

По тому, как он описал - RAID пытается перестроится и не может на том же "сбойном" диске. Почему ошибку не показывает непонятно, такой уж сбой.
Хотя может это и сбой памяти или чего-то другого.

exo
08-03-2013, 23:24
alef2474, в моём понимании, есть BSOD, после которого рейд восстанавливается. Причины BSOD не ясны.

alef2474
08-03-2013, 23:57
есть BSOD »

У него нет синего экрана, у него просто зависание из-за исчерпания памяти, может быть, из-за SQL.

exo
09-03-2013, 13:20
Система перезагрузилась, не завершив полностью работу. Эта ошибка может быть результатом того, что система перестала отвечать, произошел критический сбой, или неожиданно отключилось питание »

zionkv
11-03-2013, 05:42
Прошу прощения за задержку с ответом. Дамп пока выложить не могу, т.к. не нашел самого файла. Сейчас включу запись дампов согласно этой инструкции (картинка)

http://tools.oszone.net/Vadikan/img/dump01.png

и создам одноименную папку в "../windows/"

Разговаривал по теме на мелкомягком форуме, ссылка (http://social.technet.microsoft.com/Forums/ru-RU/ws2008r2ru/thread/6c43015a-3eca-4aec-af6f-e511d953ee21), если кому будет не лень, в общем итоге нарвались на сообщения от источника Storage Agent:

Ошибки 1216:
Drive Array Physical Drive Status Change. The physical drive in Slot 0, Port 1I Box 1 Bay 1 with serial number "WCAT1F275051 ", has a new status of 3.
(Drive status values: 1=other, 2=ok, 3=failed, 4=predictiveFailure, 5=erasing, 6=eraseDone, 7=eraseQueued)
[SNMP TRAP: 3046 in CPQIDA.MIB]

И предупреждения 1200:
Drive Array Logical Drive Status Change. Logical drive number 1 on the array controller in Slot 0 has a new status of 5.
(Logical Drive status values: 1=other, 2=ok, 3=failed, 4=unconfigured, 5=recovering, 6=readyForRebuild, 7=rebuilding, 8=wrongDrive, 9=badConnect, 10=overheating, 11=shutdown, 12=expanding, 13=notAvailable, 14=queuedForExpansion, 15=multipathAccessDegraded, 16=erasing)
[SNMP TRAP: 3034 in CPQIDA.MIB]

Предполагаю, что Recovering происходит не просто так. С одной стороны, если судить по картинке, то все в порядке:

http://s41.radikal.ru/i093/1303/12/af9bca05ac7c.png

С другой - собираюсь выключить проблемный ЖД и покрутить недельку-другую "на одном крыле", в это время прогнать Викторией крыло второе.

Касаемо зависушек, стоит "автоматически перезагружаться".

exo
11-03-2013, 11:45
С одной стороны, если судить по картинке, то все в порядке: »
судя по картинке, до всё в порядке ещё 39 %

zionkv
11-03-2013, 12:45
судя по картинке, до всё в порядке ещё 39 % »
Он так перестраивается каждые две недели. Всегда успешно.

alef2474
12-03-2013, 00:22
Он так перестраивается каждые две недели. Всегда успешно. »

Ничего не в порядке, диск глючит, надо менять, что я и говорил. Неужели сложно заменить SATA диск на 230 Гб?
Смените - один раз перестроится и успокоится.

AkP
12-03-2013, 04:42
110 сервер 6-го поколения ну сильно начального уровня, не стоит ожидать от него чудес самодиагностики. Если агент сказал что recovering, то естественно вы видите статус ОК. Посмотрите смарт атрибуты, скорее всего жесткий диск пора выкидывать. От контроллера b110 так же не стоит ожидать уровня работы ентерпрайз. Он сделан на основе бюджетного intel ich10, со всеми вытекающими. Для серверов 100-серии почти нормально видеть бсод при проблеме с дисками, его задача защитить данные от потери, а не продолжить работу. А почему "почти", потому, что это зависит от прошивок дисков и контроллера и драйверов на последний. Если вам религия не позволяет менять диск пока он не вышел из строя "совсем", обновите микрокоды и драйвера и скорее всего будете видеть такие ошибки в логах без бсода, а просто с замедлением работы сервера, которое тоже нормальное явление для серверов начального уровня и сата дисков.
Вообще это и есть одна из принципиальных разниц оборудования начального уровня и сегментов выше, последние бы в большинстве случаев не стали делать recovering, а сразу исключили сбойный диск из работы.




© OSzone.net 2001-2012