[보고서] 실제 사이트 시스템 장애 분석 결과보고서
zb4_pds_doc_293.zip한국 아이.비.엠㈜
2003. 02. 08
1. 개요
1.1 개요
모사이트 모 시스템에서 발생하고 있는 일련의 장애현상에 대한 원인규명
및 진단 협조요청을 받았으며, 장애의 유형은 클라이언트 부분만 신규 추가개발된,
인터넷 익스플로러(IE) 웹기반 GUI 클라이언트 모듈에서 발생하는 것으로, 이는
Microsoft XML 4.0 XMLHTTP Control을 이용하여 IBM WebSphere Application Server
3.5.4 서버로 Apache SOAP RPC Router를 통해 SOAP 프로토콜로 통신을 주고 받고
있으며, 사용자의 GUI 화면이 서비스 운영도중 특정 시점이 되면 여하한의 이벤트
및 버튼이 눌려지지 않은 “화면블록킹현상(가칭)”이 일어난다는 것이다. 이에 따라
다음과 같이 1차 진단작업을 수행하였다.
1.2 진단기간
2003년 2월 06일(목) 13:00 – 2월08일(토) 18:00
1.3 수행인원
이원영과장(IBM WAS/Tool Team, WebSphere/Performance 전문가, lwy@kr.ibm.com)
황병환과장(IBM ITS Team WebSphere전문가, bhhwang@kr.ibm.com)
박현근(㈜넷피온시스템, 기술지원부 Director)
오은경차장(HP, 컨설팅사업본부, 금융부문)
김민정부장(㈜글로벌데이타시스템, ECMS사업부)
기술지원팀장: 박덕진 부장(IBM WAS/Tool Team Leader, djpark@kr.ibm.com)
1.4 진단대상 서버 및 S/W 시스템
– H/W
IBM RS6000 M80 (500MHz x 4-way,34,588 tpmC, 4GB) x 5, 172,940tpmC
– S/W
IBM WebSphere AE 3.5.4 , Servlet/JSP, Apache SOAP, MS XML Parser
1.5 진단 영역
– 시스템 사용량 및 동시사용자 분석
– 장애현상 기술
– 장애원인 분석 및 가이드
2. 시스템 사용량 분석
2.1 SOAP(rpcrouter) Request 서버별 일일 총 HIT량
2.1 SOAP(rpcrouter) Request 시간대별 HIT량
2.2 SOAP(rpcrouter) Request 분당 HIT건수(TPM)
2.3 사용자수 분석
2.4 동시단말 사용자 그래프
2.5 CPU 사용량
3. 장애 원인 분석
모사이트 차세대 시스템의 핵심적인 일부 업무에 대한 NEW VERSION(?) 프로젝트 개발
및 오픈에 따른 일련의 장애현상은 다음과 같이 크게 2가지로 요약될 수 있다.
(1) Windows98/인터넷 익스플로러(IE)기반의 Microsoft XML Parser 4.0 / XMLHTTP Control
모듈의 버그
(2) 일부 HOST 거래 성능저하로 인한 응답지연 현상
3.1 Windows98/IE 기반하의 Microsoft XML/ HTTP Contorl 모듈 버그
1) PC의 Network status(netstat -n)
2) Windows98/익스플로러(IE)기반의 Microsoft XML/XMLHTTP Control
3.2 일부 HOST 거래 성능저하로 인한 응답지연 현상
1) 응용어플리케이션 호출비율(웹로그 Hit건수 비율)
2) 응용어플리케이션 수행 점유
3) 응용어플리케이션 평균응답시간 순위
3. 권고사항
3.1 단기적 조치 권고사항
3.2 장/단기적 권고사항
3.2 장기적 권고사항
궁극적으로는 Microsoft XML Parser의 XMLHTTP 컴포넌트의 언급된 버그를 Microsoft로부터
공식적인 기술지원 및 버그fix가 되어야 할 것이다.
Appendix A – TCP Communication
상세한 내용은 첨부된 원본파일을 참조하세요
PS: 보안상 삭제해야 할 부분들은 모두 편집/삭제하였으며, 해당 문서에는 기술적인
관점만 수록되어 있음을 밝힙니다.
The thorough literature review you’ve provided lays a solid foundation for the article’s main arguments.