svbux
17-06-2011, 14:40
При расчете на вычислительном кластере, иногда появляются такие ошибки:
job aborted:
[ranks] message
[0-4] terminated
[5] fatal error
Fatal error in MPI_Test: Other MPI error, error stack:
MPI_Test(157)...........: MPI_Test(request=0x00000000098114E0, flag=0x000000000A12FDF0, status=0x000000005284C3C0) failed
MPIDI_CH3I_Progress(244): handle_sock_op failed
SendFailed(95)..........:
WriteFailed(1403).......: An existing connection was forcibly closed by the remote host. (errno 10054)
[6] fatal error
Fatal error in MPI_Test: Other MPI error, error stack:
MPI_Test(157)...........: MPI_Test(request=0x00000000098F03E0, flag=0x000000000A0EFDF0, status=0x000000001C47F910) failed
MPIDI_CH3I_Progress(244): handle_sock_op failed
RecvFailed(132).........:
ReadFailed(1317)........: An existing connection was forcibly closed by the remote host. (errno 10054)
[7-9] terminated
---- error analysis -----
[5] on cluster-node5
mpi has detected a fatal error and aborted C:\Users\POLIKU~1\AppData\Local\Temp\polikushin_Test_3716\Test.bat
[6] on cluster-node6
mpi has detected a fatal error and aborted C:\Users\POLIKU~1\AppData\Local\Temp\polikushin_Test_3716\Test.bat
или
WindowsError: [Error 32] The process cannot access the file because it is being used by another process: ....
не могу понять в чем дело, ось стоит Windows HPC Server 2008, причем когда запускаю на расчет на одном узле, то ошибок нет, а если 3 и более то через некоторое время выдает ошибки... раза с 10го есть вероятность что досчитает успешно.. но рандома такого то не должно быть.. если кто вкурсе, растолкуйте плз что да как...
job aborted:
[ranks] message
[0-4] terminated
[5] fatal error
Fatal error in MPI_Test: Other MPI error, error stack:
MPI_Test(157)...........: MPI_Test(request=0x00000000098114E0, flag=0x000000000A12FDF0, status=0x000000005284C3C0) failed
MPIDI_CH3I_Progress(244): handle_sock_op failed
SendFailed(95)..........:
WriteFailed(1403).......: An existing connection was forcibly closed by the remote host. (errno 10054)
[6] fatal error
Fatal error in MPI_Test: Other MPI error, error stack:
MPI_Test(157)...........: MPI_Test(request=0x00000000098F03E0, flag=0x000000000A0EFDF0, status=0x000000001C47F910) failed
MPIDI_CH3I_Progress(244): handle_sock_op failed
RecvFailed(132).........:
ReadFailed(1317)........: An existing connection was forcibly closed by the remote host. (errno 10054)
[7-9] terminated
---- error analysis -----
[5] on cluster-node5
mpi has detected a fatal error and aborted C:\Users\POLIKU~1\AppData\Local\Temp\polikushin_Test_3716\Test.bat
[6] on cluster-node6
mpi has detected a fatal error and aborted C:\Users\POLIKU~1\AppData\Local\Temp\polikushin_Test_3716\Test.bat
или
WindowsError: [Error 32] The process cannot access the file because it is being used by another process: ....
не могу понять в чем дело, ось стоит Windows HPC Server 2008, причем когда запускаю на расчет на одном узле, то ошибок нет, а если 3 и более то через некоторое время выдает ошибки... раза с 10го есть вероятность что досчитает успешно.. но рандома такого то не должно быть.. если кто вкурсе, растолкуйте плз что да как...