본문으로 바로가기

백업 시스템에서 하드 디스크 장애

category 컴퓨팅 2018. 6. 27. 22:04

백업용으로 Tina (Time Navigator)를 이용하고 있다. 레드햇에서 사용하고 있다. SAN, 에이전트, VTL 백업을 병행한다. 


몇 일전부터 서버가 행이 걸렸다. 네트워크로 핑은 되는데, 시스템 접속이 되지 않았다. 콘솔에서 반응도 없었다. 강제 재부팅 후 Tina Catalog 재구성 (2018/06/27 - [전체] - Time Navigator (TiNa) catalog 재구성) 해주면, 한 동안 문제가 없었다. 오늘 오전에 서버 자원 모니터링 하고 있는데, iostat에서 충분한 자원이 있음에도 block read/write 에 시간이 걸렸다. vmstat 에서 살펴보니, block 프로세스가 증가했다가 줄어들면서 io read/write를 하고 있었다. 그리고, 메세지 파일에도 다음과 같은 메세지가 있었다.


Aug  7 09:52:03 user kernel: hda: irq timeout: status=0xd0 { Busy }

Aug  7 09:52:03 user kernel: hda: irq timeout: error=0x00

Aug  7 09:52:03 user kernel: hda: ATAPI reset complete


서버는 자체 하드웨어 카드로 Raid5 디스크 4개를 사용 중이다. LED를 살펴보니, io가 자주 발생하는 서버의 것이 아니다. 일차적으로 해당 디스크를 시스템에서 제거했다. IO 모니터링 하니 잘 들어가고 나온다.

이차적으로 해당 디스크 교체했다. Tina 서비스 올리고, 백업 스케쥴 10개 정도 돌려본다. 아직까진 정상적이다.

# vmstat 1
procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in    cs us sy id wa
 2  1 301932  15480    468 15535564    0    0  9508     0 7158  6397  1  0 90  9
 0  2 301932  16056    476 15535036    0    0  5876    52 5574  5302  1  0 91  7
 1  1 301932  15608    472 15535300    0    0  7508     0 6996  6164  1  1 93  5
 0  2 301932  14584    452 15535580    0    0 17344     0 10888  9997  1  1 88 11
 0  2 301932  15800    432 15532480    0    0  4628    48 5281  4430  1  1 92  7
 0  7 301932  15096    468 15533744    0    0  8416     0 6042  5206  1  0 92  7
 0  3 301932  15352    460 15533492    0    0  8984    44 6644  6451  1  0 90  8
 1  1 301932  16632    464 15533748    0    0  6344     0 5535  4716  1  0 93  6
 0  2 301932  16184    484 15534248    0    0  5756     0 5363  4566  1  1 92  6
 1  1 301932  14472    492 15535800    0    0  8912     8 7074  6331  1  0 93  6

# iostat 1
avg-cpu:  %user   %nice    %sys %iowait   %idle
           0.81    0.00    0.38    5.19   93.62

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
cciss/c0d0     1592.00     12616.00       168.00      12616        168
cciss/c0d0p1      0.00         0.00         0.00          0          0
cciss/c0d0p2      0.00         0.00         0.00          0          0
cciss/c0d0p3   1598.00     12616.00       168.00      12616        168

avg-cpu:  %user   %nice    %sys %iowait   %idle
           0.62    0.00    0.44    8.12   90.82

Device:            tps   Blk_read/s   Blk_wrtn/s   Blk_read   Blk_wrtn
cciss/c0d0     1669.00     13352.00         0.00      13352          0
cciss/c0d0p1      0.00         0.00         0.00          0          0
cciss/c0d0p2      0.00         0.00         0.00          0          0
cciss/c0d0p3   1668.00     13344.00         0.00      13344          0

이전엔 vmstat 모니터링시 procs의 b가 계속 증가했다. 그 동안 io의 bi/bo는 쌓이지 않는다. 그러다, b의 숫자가 줄어든 시간에 bi 혹은 bo의 활동이 있었다. 위의 로그를 재구성해 본다. 

# vmstat 1
procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in    cs us sy id wa
 2  20 301932  15480    468 15535564    0    0  0     0 7158  6397  1  0 90  9
 0  32 301932  16056    476 15535036    0    0  0    0 5574  5302  1  0 91  7
 1  22 301932  15608    472 15535300    0    0  0     0 6996  6164  1  1 93  5
 0  21 301932  14584    452 15535580    0    0 0     0 10888  9997  1  1 88 11
 0  10 301932  15800    432 15532480    0    0  46228    454818 5281  4430  1  1 92  8
 2  20 301932  15480    468 15535564    0    0  0     0 7158  6397  1  0 90  9
 0  32 301932  16056    476 15535036    0    0  0    0 5574  5302  1  0 91  7
 1  22 301932  15608    472 15535300    0    0  0     0 6996  6164  1  1 93  5
 0  21 301932  14584    452 15535580    0    0 0     0 10888  9997  1  1 88 11