시스존 문의사항

Re:안녕하세요, 새해 복 많이 받으세요! SGE 와 Ganglia 관련해서 궁금증이 생겼습니다. (사용량 관련)

작성자
서진우 서진우
작성일
2018-02-03 19:59
조회
7976
안녕하세요. 근래 바빠서 블로그를 잘 살펴보지 못했는데, 여러 질문이 있네요. ^^;;;;

GridEngine account 의 time 은 크게 wallclock(작업의 수행시간), utime (실제 processor 계산시간), stime (processor 가 계산 중에 여러 이유로 대기하는 시간)
입니다.

wallclock 은 100개 core 를 이용한 작업이 10초간 수행되었다면 10초가 count 됩니다.
utime 은 100개 core 를 이용한 작업 수행할때 100core 모두가 100% 이용률로 순수 계산에 모두 할당(top 에서 us 이용률) 되었다면 이론적으로 1000 이 나올 것입니다.
stime 은 cpu sys 부분의 이용률에 해당하는 count 가 되겠죠..
다만, 실제 작업이 실행되어 100개의 core 를 잡고는 있지만, 실제 processor 이용률이 10% 밖에 안된다고 하면 100 초로 나오겠죠..

여기서 이 10% 도 연속적인 측정 값이 아니라, 결국 측정 간격 별 값의 평균 부분에 의해 10% 로 표시되는 거지 쉬지 않고 10%를 유지한 것이
아닙니다. 즉 매 초당 10%,0%,10% 의 이용 추이였는데, ganglia와 같은 모니터링 툴의 interval 이 5초 였다면 그냥 10%로 쭉~표시될 수 있는 것입니다.
하지만 low 레벨의 processor time count 에서는 이걸 다 계산한다고 보시는 것이 맞을 듯 합니다. (gridengine account 는 여기에 가깝고요)

사람관점에서 상식적으로 컴퓨터의 이용률을 판단하고자 한다면 ganglia 의 이용률을 보는 것이 맞을 듯 합니다.

즉..100개 core 로 스케줄러에 할당되어 한달간 꾸준이 쉬지 않고 작업이 돌아간거라면 실제 processor 가 low 레벨에서 100개 core 10일치의 계산 처리량이
일어 났다하더라도 결국 한달간 시스템을 이용한 것이라고 보는게 맞을듯 하네요. (엔지니어 관점에서 본다면..)

다른 예를 들면..
H/W 레벨에서 정확한 CPU 계산 처리량을 측정하고자 한다면..kernel level 에서 제공하는 papi 를 이용한 측정이 있습니다.
HPL 처럼 응용 레벨에서 cpu 의 부동소수점 계산 성능 측정한 flops 수치와 실제 CPU H/W 레벨에서 부동소수점 계산을 처리한 count 와 비교해 보면 거의
30%~40% 정도 밖에 안되었습니다. (과거 측정 시에.. 요즘은..잘 모르겠지만..ㅎㅎ)

이용률 분석은 아주 많은 일반적 측정 방법 보다는 측정을 하고자 하는 의도(목적)을 먼저 명확히 하고, 거기에 맞는 방법을 선택하는 것이
의미가 있다고 보이네요.

그럼..수고하세요.