NVIDIA GPU

온프레미스 NVIDIA GPU 로컬AI 인프라 — 실시간 GPU 점유율 모니터링과 24/7 전력 사용량 추적. 스퀘어라이트는 NVIDIA Inception 선정사이자 Dell 공식 파트너사입니다.

NVIDIA Inception 선정Dell 공식 파트너사

NVIDIA GPU로컬AI 인프라

온프레미스 NVIDIA GPU 인프라 + 실시간 점유율·전력 모니터링 SW. 로컬 AI를 도입할 때 가장 중요한 것 — GPU 점유율을 실시간으로 파악하고 전력 사용량을 예측해 안정적으로 운영합니다.

NVIDIA Inception 선정사이자 Dell 공식 파트너사인 스퀘어라이트가 NVIDIA OS와 원격 CLI 환경에서도 동일하게 동작하는 모니터링 SW를 함께 제공합니다.

실시간 모니터링 데모

gpu-monitor.py · gpu-power-chart.py 의 더미 데이터 미리보기 — 실제로는 사이트 GPU 의 실시간 데이터가 들어갑니다.

기능 상세

README 에 기록된 각 컴포넌트의 동작 사양입니다. 아래 위 데모에서 보이는 정보는 모두 이 동작에서 비롯됩니다.

대시보드 — 실시간 터미널 뷰
gpu-monitor.py
  • CPU 부하 지표 표시
  • GPU 온도·전력·사용률을 색상 바로 표현
  • RAM 사용량과 여유 메모리
  • 디스크 사용량 (루트 + 외장 드라이브)
  • 사용자별 GPU 메모리 점유율 (흰색 사용량 바)
  • 세션 경과 시간 (트래커 연동, 미실행 시 자동 생략)
  • 시스템 전력 표시 (IPMI 지원 시)
  • 터미널 너비에 자동 적응 (넓음 ≥60 / 좁음 <60)
  • 2초 간격 자동 갱신
트래커 데몬 — 24/7 백그라운드 기록
gpu-tracker.py
  • 10초마다 nvidia-smi 폴링
  • 사용자별 GPU 세션 추적: 시작·종료 시각, 최대 메모리, 최대 프로세스 수
  • 20초 유예 시간 — 짧은 GPU 유휴 상태는 동일 세션으로 유지
  • 60초마다 전력 스냅샷 기록 (6 샘플 평균)
  • 디바이스 전력 추정: sys_w = BASE_IDLE_W + (CPU_DYNAMIC_W × cpu%) + gpu_w
  • IPMI 시스템 전력 — 실패 시 자동 비활성화
  • 크래시 복구: 재시작 시 활성 세션 자동 복원
  • SIGINT/SIGTERM 시 모든 세션 정상 마감
전력 차트 — 인터랙티브 시각화
gpu-power-chart.py
  • 시계열 차트 — 평균·피크·기준선 (W 단위)
  • 기간 요약 — 평균·피크·최저 전력 + 소비 에너지
  • 누적 에너지 — 오늘·이번 주·이번 달·올해
  • 단일 조회 모드 — day / week / month / year + 특정 날짜·기간 지정
인터랙티브 키 매핑
인수 없이 실행하면 인터랙티브 모드로 진입합니다.
동작
d일별 (분 단위)
w주별 (시간 평균)
m월별 (일 평균)
y연도별 (주 평균)
← →이전 / 다음 기간 이동
t오늘 / 현재로 복귀
q종료
출력 파일
data/ 디렉토리에 자동 생성되는 파일들.
파일내용증가량
gpu-sessions.jsonl완료된 사용자 세션~150바이트/세션
gpu-power.jsonl전력 스냅샷 — gpu_w · sys_w · cpu_pct (60초 간격)~50MB/년
tracker-state.json활성 세션 상태 (대시보드 연동)<1KB
리소스 사용량
DGX Spark (128GB 유니파이드 메모리) 기준 측정값.
항목수치
RSS~14MB (128GB의 0.01%)
CPU<0.1% (10초마다 nvidia-smi 1회)
디스크 I/O~84KB/일 (전력 로그)

왜 NVIDIA GPU 로컬AI 인프라인가

실시간 GPU 점유율
2초 간격으로 GPU 온도·전력·사용률·사용자별 메모리·프로세스 점유율을 그대로 보여줍니다. 색상 바와 자동 너비 조정으로 좁은 SSH 세션에서도 가독성 유지.
24/7 전력·세션 트래커
systemd 데몬이 10초마다 nvidia-smi 를 폴링해 사용자별 세션을 기록하고, 60초마다 전력 스냅샷을 남깁니다. 크래시 발생 시 활성 세션 자동 복원.
전략 사용량 예측
일·주·월·년 단위 전력 사용량 차트로 누적 에너지(Wh)와 평균/피크 전력을 시각화. 다음 분기 인프라 증설 시점을 데이터로 의사결정.
NVIDIA OS · Remote CLI 호환
Python 3.10+ 와 nvidia-smi 만 있으면 어디서든 동작합니다. DGX Spark, DGX A100 등 device preset 으로 한 번에 전환.
구성 요소
nvidia-os-gpu-monitor 레포의 4개 스크립트 + 2개 셸 도구가 함께 배포됩니다.
파일설명실행 방식
gpu-monitor.py실시간 터미널 대시보드필요 시 실행
gpu-tracker.py사용량 & 전력 추적 데몬systemd 서비스 (24/7)
gpu-power-chart.py전력 소비 차트인터랙티브
gpu-tracker.servicesystemd 유닛 파일
device-config.sh디바이스 프리셋 설정 도구필요 시 실행
reset-data.sh데이터 리셋 + 트래커 재시작필요 시 실행 (sudo)

빠른 시작

1
트래커 데몬 설치
systemd 서비스로 등록하면 24시간 백그라운드에서 사용자별 세션과 전력 소비를 기록합니다.
sudo cp gpu-tracker.service /etc/systemd/system/
sudo systemctl daemon-reload
sudo systemctl enable --now gpu-tracker.service
sudo systemctl status gpu-tracker
2
대시보드 실행
필요할 때 켜서 실시간 GPU 상태를 확인하세요. Ctrl+C 로 종료.
python3 gpu-monitor.py
3
전력 차트 보기
인터랙티브 모드는 d/w/m/y 키로 일·주·월·년 보기 전환, ← → 로 기간 이동.
python3 gpu-power-chart.py
# 또는 단일 조회 / one-shot
python3 gpu-power-chart.py month 2026-01
요구 사항
Python 3.10+NVIDIA GPU + nvidia-smiplotext (전력 차트용)

도입 문의

NVIDIA Inception 선정사·Dell 공식 파트너사로서, 하드웨어 도입부터 NVIDIA OS·원격 CLI 환경 셋업, 모니터링 SW 운영까지 전 과정을 지원합니다.

영업팀 문의하기 · sales@squarelight.ai