TokenLens

LLM-as-a-Judge 기반 AI 사용 평가·코칭 콘솔. Claude Team/Enterprise export를 16개 지표(현업 8 + 학계 8)로 채점하고 사용자별 개선 계획을 생성합니다.

데모 콘솔 열기

핵심 기능

16차원 평가

현업 8 + 학계 8 dimension을 각 6단계(0~5) 앵커 루브릭으로 LLM이 채점합니다. 모든 점수는 논문·산업 표준 출처로 뒷받침됩니다.

4유형 사용자 분류

AI 챔피언 / 토큰 어뷰저 / 금지목적 의심 / 사적 낭비 + 표준 사용자로 분류해 조직의 AI 활용 지형을 한눈에 보여줍니다.

Improvement Plan

루브릭과 실제 평가 근거(rationale·evidence)를 인용한 개인 맞춤 코칭을 생성하고, 결과를 영속화합니다.

유저별 데이터 격리

로그인 사용자는 본인 워크스페이스에만 업로드·평가합니다. 공개 URL에서도 데이터 유출을 방지합니다.

Rate-limit 폴백

서버 API 키가 한도에 도달하면 사용자가 본인 키를 입력해 평가를 끊김 없이 이어갈 수 있습니다.

로케일 전환

KO ↔ EN 전환을 지원합니다. 평가 지표·코칭 문구가 선택한 언어로 표시됩니다.

평가 디멘션

각 지표는 6단계(0~5) 앵커 루브릭으로 채점되며, 점수의 근거가 되는 논문·산업 표준을 함께 제시합니다.

현업 지표 8

프롬프트 명료성

역할·맥락·제약·출력형식을 얼마나 명시했는가. 한 줄 질문은 0, 정교한 컨텍스트 설계는 5.

Anthropic Prompt Engineering Guide OpenAI Cookbook

작업 분해

복잡한 요청을 하위 작업으로 분해하고 중간 검증·통합을 하는가.

Plan-and-Solve (Wang et al., EMNLP 2023)METR Long-Task Benchmark

도구·에이전트 활용

tool use / 멀티스텝 에이전트 / 에러 복구 등 고급 활용 정도.

SWE-agent (Yang et al., NeurIPS 2024)Claude Code Agentic Patterns

반복 정제

응답을 받고 피드백·반례·수정 요청으로 결과를 정제하는가.

Self-Refine (Madaan et al., NeurIPS 2023)

코드 추론 깊이

문법 질문 수준인지, 알고리즘 설계·복잡도·테스트까지 가는지.

SWE-bench Verified HumanEval+ (Liu et al., NeurIPS 2023)

컨텍스트 제공

레포·파일·이전 결정 등 관련 컨텍스트를 충분히 제공하는가.

Lost in the Middle (Liu et al., TACL 2024)

업무 임팩트

학습·취미인지, 업무 산출물·고객 가치에 직결되는지.

McKinsey State of AI 2025

거버넌스·안전

민감정보 마스킹·정책 인지 등 안전하게 사용했는가 (높을수록 안전).

NIST AI RMF ISO/IEC 42001

학계 지표 8

Helpfulness

사용자가 AI를 도움이 되게 이끌었는가 (명료한 요청으로 충분한 도움을 받음).

Bai et al., HH-RLHF (Anthropic, 2022)

Harmlessness

유해·정책 위반 요청이 없는가 (높을수록 안전).

Bai et al., HH-RLHF (Anthropic, 2022)

Honesty / Faithfulness

근거 기반·불확실성 표현이 있는가, hallucination 유발이 없는가.

TruthfulQA (Lin et al., ACL 2022)FActScore (Min et al., EMNLP 2023)

Calibration

확신/불확실성을 적절히 다루는가 (과신 회피).

Kadavath et al., Models Know What They Know (2022)

Instruction Following

제약·형식 지시를 명확히 주고 준수를 이끌었는가.

InstructGPT (Ouyang et al., NeurIPS 2022)IFEval (Zhou et al., 2023)

Reasoning Quality

단계적·검증 가능한 추론을 유도하는가.

Chain-of-Thought (Wei et al., NeurIPS 2022)

Factuality / Grounding

사실 검증·출처 인용을 요구·활용하는가.

TRUE (Honovich et al., NAACL 2022)

Dialog Coherence

다중턴 일관성·맥락 유지·메모리 활용.

USR (Mehri & Eskenazi, ACL 2020)

직접 평가해 보세요

Claude Team/Enterprise export를 업로드하면 16개 지표로 채점하고 개인별 개선 계획까지 생성합니다. 비로그인으로도 가명처리된 샘플을 둘러볼 수 있습니다.

데모 콘솔 열기