백업용으로 Tina (Time Navigator)를 이용하고 있다. 레드햇에서 사용하고 있다. SAN, 에이전트, VTL 백업을 병행한다.
몇 일전부터 서버가 행이 걸렸다. 네트워크로 핑은 되는데, 시스템 접속이 되지 않았다. 콘솔에서 반응도 없었다. 강제 재부팅 후 Tina Catalog 재구성 (2018/06/27 - [전체] - Time Navigator (TiNa) catalog 재구성) 해주면, 한 동안 문제가 없었다. 오늘 오전에 서버 자원 모니터링 하고 있는데, iostat에서 충분한 자원이 있음에도 block read/write 에 시간이 걸렸다. vmstat 에서 살펴보니, block 프로세스가 증가했다가 줄어들면서 io read/write를 하고 있었다. 그리고, 메세지 파일에도 다음과 같은 메세지가 있었다.
Aug 7 09:52:03 user kernel: hda: irq timeout: status=0xd0 { Busy }
Aug 7 09:52:03 user kernel: hda: irq timeout: error=0x00
Aug 7 09:52:03 user kernel: hda: ATAPI reset complete
서버는 자체 하드웨어 카드로 Raid5 디스크 4개를 사용 중이다. LED를 살펴보니, io가 자주 발생하는 서버의 것이 아니다. 일차적으로 해당 디스크를 시스템에서 제거했다. IO 모니터링 하니 잘 들어가고 나온다.
이차적으로 해당 디스크 교체했다. Tina 서비스 올리고, 백업 스케쥴 10개 정도 돌려본다. 아직까진 정상적이다.
# vmstat 1
procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu----
r b swpd free buff cache si so bi bo in cs us sy id wa
2 1 301932 15480 468 15535564 0 0 9508 0 7158 6397 1 0 90 9
0 2 301932 16056 476 15535036 0 0 5876 52 5574 5302 1 0 91 7
1 1 301932 15608 472 15535300 0 0 7508 0 6996 6164 1 1 93 5
0 2 301932 14584 452 15535580 0 0 17344 0 10888 9997 1 1 88 11
0 2 301932 15800 432 15532480 0 0 4628 48 5281 4430 1 1 92 7
0 7 301932 15096 468 15533744 0 0 8416 0 6042 5206 1 0 92 7
0 3 301932 15352 460 15533492 0 0 8984 44 6644 6451 1 0 90 8
1 1 301932 16632 464 15533748 0 0 6344 0 5535 4716 1 0 93 6
0 2 301932 16184 484 15534248 0 0 5756 0 5363 4566 1 1 92 6
1 1 301932 14472 492 15535800 0 0 8912 8 7074 6331 1 0 93 6
# iostat 1
avg-cpu: %user %nice %sys %iowait %idle
0.81 0.00 0.38 5.19 93.62
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
cciss/c0d0 1592.00 12616.00 168.00 12616 168
cciss/c0d0p1 0.00 0.00 0.00 0 0
cciss/c0d0p2 0.00 0.00 0.00 0 0
cciss/c0d0p3 1598.00 12616.00 168.00 12616 168
avg-cpu: %user %nice %sys %iowait %idle
0.62 0.00 0.44 8.12 90.82
Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn
cciss/c0d0 1669.00 13352.00 0.00 13352 0
cciss/c0d0p1 0.00 0.00 0.00 0 0
cciss/c0d0p2 0.00 0.00 0.00 0 0
cciss/c0d0p3 1668.00 13344.00 0.00 13344 0
이전엔 vmstat 모니터링시 procs의 b가 계속 증가했다. 그 동안 io의 bi/bo는 쌓이지 않는다. 그러다, b의 숫자가 줄어든 시간에 bi 혹은 bo의 활동이 있었다. 위의 로그를 재구성해 본다.
# vmstat 1
procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu----
r b swpd free buff cache si so bi bo in cs us sy id wa
2 20 301932 15480 468 15535564 0 0 0 0 7158 6397 1 0 90 9
0 32 301932 16056 476 15535036 0 0 0 0 5574 5302 1 0 91 7
1 22 301932 15608 472 15535300 0 0 0 0 6996 6164 1 1 93 5
0 21 301932 14584 452 15535580 0 0 0 0 10888 9997 1 1 88 11
0 10 301932 15800 432 15532480 0 0 46228 454818 5281 4430 1 1 92 8
2 20 301932 15480 468 15535564 0 0 0 0 7158 6397 1 0 90 9
0 32 301932 16056 476 15535036 0 0 0 0 5574 5302 1 0 91 7
1 22 301932 15608 472 15535300 0 0 0 0 6996 6164 1 1 93 5
0 21 301932 14584 452 15535580 0 0 0 0 10888 9997 1 1 88 11