NVIDIA GPU
온프레미스 NVIDIA GPU 로컬AI 인프라 — 실시간 GPU 점유율 모니터링과 24/7 전력 사용량 추적. 스퀘어라이트는 NVIDIA Inception 선정사이자 Dell 공식 파트너사입니다.
NVIDIA Inception 선정Dell 공식 파트너사
NVIDIA GPU로컬AI 인프라
온프레미스 NVIDIA GPU 인프라 + 실시간 점유율·전력 모니터링 SW. 로컬 AI를 도입할 때 가장 중요한 것 — GPU 점유율을 실시간으로 파악하고 전력 사용량을 예측해 안정적으로 운영합니다.
NVIDIA Inception 선정사이자 Dell 공식 파트너사인 스퀘어라이트가 NVIDIA OS와 원격 CLI 환경에서도 동일하게 동작하는 모니터링 SW를 함께 제공합니다.
실시간 모니터링 데모
gpu-monitor.py · gpu-power-chart.py 의 더미 데이터 미리보기 — 실제로는 사이트 GPU 의 실시간 데이터가 들어갑니다.
~ — gpu-monitor.pyLIVE
Squarelight.ai — Real-time GPU Monitor (b038120) NVIDIA DGX Spark (GB10) 128GB VRAM Driver 580.126.09 CUDA 13.0 | 2s | Ctrl+C quit ──────────────────────────────────────────────────────────────── CPU Load: 1.46 / 1.47 / 1.36 GPU 43°C 10.41W Util: [░░░░░░░░░░░░░] 0% RAM [██░░░░░░░░░░░] 13.9/120G (106.1G free) DSK [████░░░░░░░░░] 271.0G/915.3G / EXT [░░░░░░░░░░░░░] 0M/1832.7G /mnt/HDD_data EXT [░░░░░░░░░░░░░] 0M/937.8G /mnt/SSD_data ──────────────────────────────────────────────────────────────── Users squarelight [██░░░░░░░░░░░░░░] 907 MiB 6 procs 56m56s ──────────────────────────────────────────────────────────────── PID User Type GPU Mem Usage Process ─────── ────────── ──── ────────── ──────── ────────── 1494846 squareligh Gfx 291 MiB [██████] firefox 1434511 squareligh Gfx 203 MiB [████░░] gnome-shel 1529640 squareligh Comp 170 MiB [███░░░] node 1434374 squareligh Gfx 160 MiB [███░░░] Xorg 1529544 squareligh Gfx 46 MiB [░░░░░░] lm-studio 1755504 squareligh Gfx 37 MiB [░░░░░░] nautilus ─────── ────────── ──── ────────── ──────── ──────────
~ — gpu-power-chart.pyINTERACTIVE
[D] day W week M month Y year ← → navigate t today q quit GPU Power — 2026-02-16 (Monday) ┌────────────────────────────────────────────────────────────────────── 10.90┤ ⢕⢕ avg ⢰⡇ │ ⢕⢕ peak ⡀ ⢀⣀⡀ ⢀ ⢀ ⢸⡇ 10.77┤⢠⠃⢸ ⢠⠻⡀⢸⡇ ⡇ ⡇ ⣿ ⣿ ⢸⡇ │⡎ ⠸⡀ ⢸ ⡇⡎⡇ ⡇ ⡇ ⡿⡀ ⡀ ⣿ ⡀ ⢀ ⡀ ⡇⢱ │ ⡇ ⢸ ⣧⠃⢱ ⡇ ⡇ ⡇⡇⡜⡇ ⡏⡆ ⢸⡇ ⡟⡄ ⢸⡇ ⡇⢸ 10.63┤ ⢣ ⡇ ⠻ ⢸⢀⠇ ⡇⢸ ⠻ ⡇ ⡇⡇ ⣠ ⡇⢣ ⣠ ⢀⠇⠘⡄ ⡇⡇ ⢀⡄ ⢀⠇⢸ ⢀⠤⠤ │ ⢸ ⡇ ⠸⣸ ⢣⢸ ⡇ ⡇⢇ ⡿⡀ ⢰⠁⢸ ⡿⡀ ⢸ ⡇ ⢰⠁⡇ ⢀⠎⡇ ⢸ ⠈⡆ ⡜ 10.50┤ ⠈⠒⠃ ⣿ ⢸⢸ ⢸⢠⠃⢸ ⢠⠃⡇ ⣴ ⡜ ⠈⡆ ⣴ ⢠⠃⡇⢠⠒⠚ ⡇ ⡜ ⢣ ⡔⠚ ⡇ ⡜ ⡇ ⢠⠃ │ ⣿ ⢸⡇ ⢸⢸ ⢸ ⢸ ⢸ ⡟⡄ ⡸ ⠸⣠⠛⡄ ⢸ ⢸⡜ ⡇ ⡇ ⢸⢀⠇ ⢱ ⡇ ⡇ ⢸ 10.37┤ ⠙ ⢸⡇ ⢸⢸ ⠈⠒⠒⠚ ⠈⡆⢰⠁⢇⢠⠃ ⠙ ⢇ ⡎ ⠈⠃ ⡇ ⡇ ⢸⢸ ⢸ ⢰⠁ ⢱ ⡎ │ ⢸⡇ ⣿ ⠘⣼ ⢸⡎ ⢸ ⡇ ⢱⢸ ⢸⡇ ⢸ ⢸ ⢸ ⡇ │ ⠁ ⣿ ⠈ ⠁ ⠉⠁ ⢸⢸ ⠁ ⠉⠉ ⠈⣶⠁ 10.23┤ ⣿ ⢸⡜ ⣿ │ ⠈ ⢸⡇ ⠈ 10.10┤ ⠸⡇ └┬────┬────┬─────────┬───────┬────┬────┬──────────┬────┬──────┬───────┬ 19:18 19:22 19:26 19:34 19:40 19:44 19:48 19:56 20:00 20:06 20:12 Watts Time Period Avg 10.5W Peak 10.9W Min 10.1W Energy 9.6 Wh (55 samples) Energy │ Today 9.6 Wh │ Week 9.6 Wh │ Month 9.6 Wh │ Year 9.6 Wh
기능 상세
README 에 기록된 각 컴포넌트의 동작 사양입니다. 아래 위 데모에서 보이는 정보는 모두 이 동작에서 비롯됩니다.
대시보드 — 실시간 터미널 뷰
gpu-monitor.py- CPU 부하 지표 표시
- GPU 온도·전력·사용률을 색상 바로 표현
- RAM 사용량과 여유 메모리
- 디스크 사용량 (루트 + 외장 드라이브)
- 사용자별 GPU 메모리 점유율 (흰색 사용량 바)
- 세션 경과 시간 (트래커 연동, 미실행 시 자동 생략)
- 시스템 전력 표시 (IPMI 지원 시)
- 터미널 너비에 자동 적응 (넓음 ≥60 / 좁음 <60)
- 2초 간격 자동 갱신
트래커 데몬 — 24/7 백그라운드 기록
gpu-tracker.py- 10초마다 nvidia-smi 폴링
- 사용자별 GPU 세션 추적: 시작·종료 시각, 최대 메모리, 최대 프로세스 수
- 20초 유예 시간 — 짧은 GPU 유휴 상태는 동일 세션으로 유지
- 60초마다 전력 스냅샷 기록 (6 샘플 평균)
- 디바이스 전력 추정: sys_w = BASE_IDLE_W + (CPU_DYNAMIC_W × cpu%) + gpu_w
- IPMI 시스템 전력 — 실패 시 자동 비활성화
- 크래시 복구: 재시작 시 활성 세션 자동 복원
- SIGINT/SIGTERM 시 모든 세션 정상 마감
전력 차트 — 인터랙티브 시각화
gpu-power-chart.py- 시계열 차트 — 평균·피크·기준선 (W 단위)
- 기간 요약 — 평균·피크·최저 전력 + 소비 에너지
- 누적 에너지 — 오늘·이번 주·이번 달·올해
- 단일 조회 모드 — day / week / month / year + 특정 날짜·기간 지정
인터랙티브 키 매핑
인수 없이 실행하면 인터랙티브 모드로 진입합니다.
| 키 | 동작 |
|---|---|
| d | 일별 (분 단위) |
| w | 주별 (시간 평균) |
| m | 월별 (일 평균) |
| y | 연도별 (주 평균) |
| ← → | 이전 / 다음 기간 이동 |
| t | 오늘 / 현재로 복귀 |
| q | 종료 |
출력 파일
data/ 디렉토리에 자동 생성되는 파일들.
| 파일 | 내용 | 증가량 |
|---|---|---|
| gpu-sessions.jsonl | 완료된 사용자 세션 | ~150바이트/세션 |
| gpu-power.jsonl | 전력 스냅샷 — gpu_w · sys_w · cpu_pct (60초 간격) | ~50MB/년 |
| tracker-state.json | 활성 세션 상태 (대시보드 연동) | <1KB |
리소스 사용량
DGX Spark (128GB 유니파이드 메모리) 기준 측정값.
| 항목 | 수치 |
|---|---|
| RSS | ~14MB (128GB의 0.01%) |
| CPU | <0.1% (10초마다 nvidia-smi 1회) |
| 디스크 I/O | ~84KB/일 (전력 로그) |
왜 NVIDIA GPU 로컬AI 인프라인가
실시간 GPU 점유율
2초 간격으로 GPU 온도·전력·사용률·사용자별 메모리·프로세스 점유율을 그대로 보여줍니다. 색상 바와 자동 너비 조정으로 좁은 SSH 세션에서도 가독성 유지.
24/7 전력·세션 트래커
systemd 데몬이 10초마다 nvidia-smi 를 폴링해 사용자별 세션을 기록하고, 60초마다 전력 스냅샷을 남깁니다. 크래시 발생 시 활성 세션 자동 복원.
전략 사용량 예측
일·주·월·년 단위 전력 사용량 차트로 누적 에너지(Wh)와 평균/피크 전력을 시각화. 다음 분기 인프라 증설 시점을 데이터로 의사결정.
NVIDIA OS · Remote CLI 호환
Python 3.10+ 와 nvidia-smi 만 있으면 어디서든 동작합니다. DGX Spark, DGX A100 등 device preset 으로 한 번에 전환.
구성 요소
nvidia-os-gpu-monitor 레포의 4개 스크립트 + 2개 셸 도구가 함께 배포됩니다.
| 파일 | 설명 | 실행 방식 |
|---|---|---|
| gpu-monitor.py | 실시간 터미널 대시보드 | 필요 시 실행 |
| gpu-tracker.py | 사용량 & 전력 추적 데몬 | systemd 서비스 (24/7) |
| gpu-power-chart.py | 전력 소비 차트 | 인터랙티브 |
| gpu-tracker.service | systemd 유닛 파일 | — |
| device-config.sh | 디바이스 프리셋 설정 도구 | 필요 시 실행 |
| reset-data.sh | 데이터 리셋 + 트래커 재시작 | 필요 시 실행 (sudo) |
빠른 시작
1
트래커 데몬 설치
systemd 서비스로 등록하면 24시간 백그라운드에서 사용자별 세션과 전력 소비를 기록합니다.
sudo cp gpu-tracker.service /etc/systemd/system/
sudo systemctl daemon-reload
sudo systemctl enable --now gpu-tracker.service
sudo systemctl status gpu-tracker2
대시보드 실행
필요할 때 켜서 실시간 GPU 상태를 확인하세요. Ctrl+C 로 종료.
python3 gpu-monitor.py3
전력 차트 보기
인터랙티브 모드는 d/w/m/y 키로 일·주·월·년 보기 전환, ← → 로 기간 이동.
python3 gpu-power-chart.py
# 또는 단일 조회 / one-shot
python3 gpu-power-chart.py month 2026-01요구 사항
Python 3.10+NVIDIA GPU + nvidia-smiplotext (전력 차트용)
도입 문의
NVIDIA Inception 선정사·Dell 공식 파트너사로서, 하드웨어 도입부터 NVIDIA OS·원격 CLI 환경 셋업, 모니터링 SW 운영까지 전 과정을 지원합니다.