공부한것들을 정리하는 블로그 입니다.
레거시 서버 장비노후 이슈 발생 및 조치 본문
* 해당 글은 계속 수정 예정입니다.
최초 작성일 2022.03
마지막 수정일 2023.04
# 레거시 서버 장비노후 이슈
새벽에 레거시 서버에서 장비노후로 인한 문제가 발생한 적이 있었다.
운영팀으로부터 디스크 컨디션 로그 Top I/O 처리율 90% 이상으로 지속 유지되고 있음을 공유받았고
실제로 확인해보니 거의 100% 근사치라서 계정 접속도 힘든 정도였다.
이에 대하여 다음과 같이 대응하였다.
1. 모니터링 프로그램 오탐 가능성 확인하고자, 레거시 서버(배치 컨테이너 용도)에 접속하여 실제 IO 사용량을 확인
2. 서버 프로세스 및 배치 스케줄러 목록 확인 후, 프로세스 중지 및 재기동을 하여도 특이사항이 없을지 확인
3. 서버 프로세스 중지 후 IO 사용량 모니터링 (정상화 되면 재기동 예정)
4. IO 사용량이 줄어들지 않아, 해당 서버를 사용중인 타팀 엔지니어 호출 후 특이사항 확인
5. 타팀에서도 특이사항이 없음을 확인 후, 해당서버 재기동 진행.
6. 재기동 후에도 동일증상 확인되어, 해당 서버 프로세스를 타 서버에서 수행 ( 동일한 서비스가 적용된 레거시 2번 서버가 존재하여 이관작업은 필요없었음 )
7. 타 서버에서 프로세스 정상처리 확인 후, 문제가 발생한 서버는 인프라팀에서 주중에 엔지니어를 호출하여 확인 작업
8. 주중에 엔지니어 방문하여 확인시 서버의 로그 및 하드웨어 상태 점검시 특이사항 발견되지 않음. 모니터링 및 대응 관련하여 인프라팀으로 담당 이관
결국 해당 해당 서버에서 처리중인 배치 스케줄러를 확인 후, 다른 서버에서 프로세스를 수행하는 것으로 일단락 되었다.
향후 레거시 서버의 서비스를 차세대 서버로 이관하는 프로젝트가 필요 할 것 같다. (안되면 다시 2번서버에 대한 구축이라도)
# 참고
1. 본인 블로그 : (참고사례)
https://drsggg.tistory.com/543
'경력 실무경험 > 실무 주제' 카테고리의 다른 글
DB 날짜데이터 Insert시 반드시 정합성 체크를 할 것(DB Select 오류 ORA-01847 : 달의 날짜는 1에서 말일 사이여야 합니다) (0) | 2023.04.26 |
---|---|
요청헤더 쿠키의 크기로 인한 이슈 발생 및 조치(노티서비스. 가맹점 400 오류응답. 쿠키와 세션) (0) | 2023.04.26 |
DB동기화 점검(지연발생)시 고려사항(개설기관 장애 응답) (0) | 2023.04.26 |
외부API 장애 발생과 대응 예상(카드사 TIMEOUT과 PG/VAN 대응) (0) | 2023.04.26 |
배치컨테이너 배포와 스케줄러 실행이 동시에 진행되는 것에 주의(InvalidGlobalDeployVersionException, InvalidGlobalDeployVersion, LinkageError) (0) | 2023.04.25 |
계좌이체 서비스의 은행점검시간으로 인한 딜레이 발생시 해결방안 (은행사 시스템취소) (0) | 2023.04.25 |
SimpleDateFormat 사용시 주의사항 (년도 포맷 주의사항) (0) | 2023.04.25 |
서버 점검 및 Scale Up 상황에서의 고려사항 (ActiveActive -> ActiveStandby) (1) | 2023.04.25 |