관리 메뉴

공부한것들을 정리하는 블로그 입니다.

레거시 서버 장비노후 이슈 발생 및 조치 본문

경력 실무경험/실무 주제

레거시 서버 장비노후 이슈 발생 및 조치

호 두 2023. 4. 26. 00:23
반응형

* 해당 글은 계속 수정 예정입니다.
최초 작성일 2022.03
마지막 수정일 2023.04

 

 

 

 

# 레거시 서버 장비노후 이슈

새벽에 레거시 서버에서 장비노후로 인한 문제가 발생한 적이 있었다.

운영팀으로부터 디스크 컨디션 로그 Top I/O 처리율 90% 이상으로 지속 유지되고 있음을 공유받았고

실제로 확인해보니 거의 100% 근사치라서 계정 접속도 힘든 정도였다.


이에 대하여 다음과 같이 대응하였다.

1. 모니터링 프로그램 오탐 가능성 확인하고자, 레거시 서버(배치 컨테이너 용도)에 접속하여 실제 IO 사용량을 확인
2. 서버 프로세스 및 배치 스케줄러 목록 확인 후, 프로세스 중지 및 재기동을 하여도 특이사항이 없을지 확인
3. 서버 프로세스 중지 후 IO 사용량 모니터링 (정상화 되면 재기동 예정)
4. IO 사용량이 줄어들지 않아, 해당 서버를 사용중인 타팀 엔지니어 호출 후 특이사항 확인
5. 타팀에서도 특이사항이 없음을 확인 후, 해당서버 재기동 진행.
6. 재기동 후에도 동일증상 확인되어, 해당 서버 프로세스를 타 서버에서 수행 ( 동일한 서비스가 적용된 레거시 2번 서버가 존재하여 이관작업은 필요없었음 )
7. 타 서버에서 프로세스 정상처리 확인 후, 문제가 발생한 서버는 인프라팀에서 주중에 엔지니어를 호출하여 확인 작업
8. 주중에 엔지니어 방문하여 확인시 서버의 로그 및 하드웨어 상태 점검시 특이사항 발견되지 않음. 모니터링 및 대응 관련하여 인프라팀으로 담당 이관


결국 해당 해당 서버에서 처리중인 배치 스케줄러를 확인 후, 다른 서버에서 프로세스를 수행하는 것으로 일단락 되었다.

향후 레거시 서버의 서비스를 차세대 서버로 이관하는 프로젝트가 필요 할 것 같다. (안되면 다시 2번서버에 대한 구축이라도)

 

 

 


# 참고

1. 본인 블로그 : (참고사례)

https://drsggg.tistory.com/543

 

(참고사례)장비노후 이슈

공부한것들을 정리하는 블로그 입니다. (참고사례)장비노후 이슈 본문

drsggg.tistory.com

 

 
 
 

 

반응형
Comments