백업 시스템에서 하드 디스크 장애

백업용으로 Tina (Time Navigator)를 이용하고 있다. 레드햇에서 사용하고 있다. SAN, 에이전트, VTL 백업을 병행한다.

몇 일전부터 서버가 행이 걸렸다. 네트워크로 핑은 되는데, 시스템 접속이 되지 않았다. 콘솔에서 반응도 없었다. 강제 재부팅 후 Tina Catalog 재구성 (2018/06/27 - [전체] - Time Navigator (TiNa) catalog 재구성) 해주면, 한 동안 문제가 없었다. 오늘 오전에 서버 자원 모니터링 하고 있는데, iostat에서 충분한 자원이 있음에도 block read/write 에 시간이 걸렸다. vmstat 에서 살펴보니, block 프로세스가 증가했다가 줄어들면서 io read/write를 하고 있었다. 그리고, 메세지 파일에도 다음과 같은 메세지가 있었다.

Aug 7 09:52:03 user kernel: hda: irq timeout: status=0xd0 { Busy }

Aug 7 09:52:03 user kernel: hda: irq timeout: error=0x00

Aug 7 09:52:03 user kernel: hda: ATAPI reset complete

서버는 자체 하드웨어 카드로 Raid5 디스크 4개를 사용 중이다. LED를 살펴보니, io가 자주 발생하는 서버의 것이 아니다. 일차적으로 해당 디스크를 시스템에서 제거했다. IO 모니터링 하니 잘 들어가고 나온다.

이차적으로 해당 디스크 교체했다. Tina 서비스 올리고, 백업 스케쥴 10개 정도 돌려본다. 아직까진 정상적이다.

# vmstat 1

procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu----

r b swpd free buff cache si so bi bo in cs us sy id wa

2 1 301932 15480 468 15535564 0 0 9508 0 7158 6397 1 0 90 9

0 2 301932 16056 476 15535036 0 0 5876 52 5574 5302 1 0 91 7

1 1 301932 15608 472 15535300 0 0 7508 0 6996 6164 1 1 93 5

0 2 301932 14584 452 15535580 0 0 17344 0 10888 9997 1 1 88 11

0 2 301932 15800 432 15532480 0 0 4628 48 5281 4430 1 1 92 7

0 7 301932 15096 468 15533744 0 0 8416 0 6042 5206 1 0 92 7

0 3 301932 15352 460 15533492 0 0 8984 44 6644 6451 1 0 90 8

1 1 301932 16632 464 15533748 0 0 6344 0 5535 4716 1 0 93 6

0 2 301932 16184 484 15534248 0 0 5756 0 5363 4566 1 1 92 6

1 1 301932 14472 492 15535800 0 0 8912 8 7074 6331 1 0 93 6

# iostat 1

avg-cpu: %user %nice %sys %iowait %idle

0.81 0.00 0.38 5.19 93.62

Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn

cciss/c0d0 1592.00 12616.00 168.00 12616 168

cciss/c0d0p1 0.00 0.00 0.00 0 0

cciss/c0d0p2 0.00 0.00 0.00 0 0

cciss/c0d0p3 1598.00 12616.00 168.00 12616 168

avg-cpu: %user %nice %sys %iowait %idle

0.62 0.00 0.44 8.12 90.82

Device: tps Blk_read/s Blk_wrtn/s Blk_read Blk_wrtn

cciss/c0d0 1669.00 13352.00 0.00 13352 0

cciss/c0d0p1 0.00 0.00 0.00 0 0

cciss/c0d0p2 0.00 0.00 0.00 0 0

cciss/c0d0p3 1668.00 13344.00 0.00 13344 0

이전엔 vmstat 모니터링시 procs의 b가 계속 증가했다. 그 동안 io의 bi/bo는 쌓이지 않는다. 그러다, b의 숫자가 줄어든 시간에 bi 혹은 bo의 활동이 있었다. 위의 로그를 재구성해 본다.

# vmstat 1

procs -----------memory---------- ---swap-- -----io---- --system-- ----cpu----

r b swpd free buff cache si so bi bo in cs us sy id wa

2 20 301932 15480 468 15535564 0 0 0 0 7158 6397 1 0 90 9

0 32 301932 16056 476 15535036 0 0 0 0 5574 5302 1 0 91 7

1 22 301932 15608 472 15535300 0 0 0 0 6996 6164 1 1 93 5

0 21 301932 14584 452 15535580 0 0 0 0 10888 9997 1 1 88 11

0 10 301932 15800 432 15532480 0 0 46228 454818 5281 4430 1 1 92 8

2 20 301932 15480 468 15535564 0 0 0 0 7158 6397 1 0 90 9

0 32 301932 16056 476 15535036 0 0 0 0 5574 5302 1 0 91 7

1 22 301932 15608 472 15535300 0 0 0 0 6996 6164 1 1 93 5

0 21 301932 14584 452 15535580 0 0 0 0 10888 9997 1 1 88 11

저작자표시 비영리 변경금지 (새창열림)

'컴퓨팅' 카테고리의 다른 글

JEUS (WAS) 컨테이너 추가 혹은 제거 (0)	2018.06.27
HP Smart Array CCISS (0)	2018.06.27
티맥스 웹/어플리케이션 서버 재시작 (0)	2018.06.27
Time Navigator (TiNa) catalog 재구성 (0)	2018.06.27
웹투비/제우스 라이센스 업데이트 (0)	2018.06.27
웹투비 동시 접속자수 확인 (0)	2018.06.27
티나에서 테잎이 보이지 않을 때 (0)	2018.06.27
iptime 공유기 손님용 와이파이 만들기 (0)	2018.06.27

suinautant