TokenLens

LLM-as-a-Judge 기반 AI 사용 평가·코칭 콘솔. Claude Team/Enterprise export를 16개 지표(현업 8 + 학계 8)로 채점하고 사용자별 개선 계획을 생성합니다.

핵심 기능

16차원 평가
현업 8 + 학계 8 dimension을 각 6단계(0~5) 앵커 루브릭으로 LLM이 채점합니다. 모든 점수는 논문·산업 표준 출처로 뒷받침됩니다.
4유형 사용자 분류
AI 챔피언 / 토큰 어뷰저 / 금지목적 의심 / 사적 낭비 + 표준 사용자로 분류해 조직의 AI 활용 지형을 한눈에 보여줍니다.
Improvement Plan
루브릭과 실제 평가 근거(rationale·evidence)를 인용한 개인 맞춤 코칭을 생성하고, 결과를 영속화합니다.
유저별 데이터 격리
로그인 사용자는 본인 워크스페이스에만 업로드·평가합니다. 공개 URL에서도 데이터 유출을 방지합니다.
Rate-limit 폴백
서버 API 키가 한도에 도달하면 사용자가 본인 키를 입력해 평가를 끊김 없이 이어갈 수 있습니다.
로케일 전환
KO ↔ EN 전환을 지원합니다. 평가 지표·코칭 문구가 선택한 언어로 표시됩니다.

평가 디멘션

각 지표는 6단계(0~5) 앵커 루브릭으로 채점되며, 점수의 근거가 되는 논문·산업 표준을 함께 제시합니다.

현업 지표 8
프롬프트 명료성

역할·맥락·제약·출력형식을 얼마나 명시했는가. 한 줄 질문은 0, 정교한 컨텍스트 설계는 5.

작업 분해

복잡한 요청을 하위 작업으로 분해하고 중간 검증·통합을 하는가.

도구·에이전트 활용

tool use / 멀티스텝 에이전트 / 에러 복구 등 고급 활용 정도.

반복 정제

응답을 받고 피드백·반례·수정 요청으로 결과를 정제하는가.

코드 추론 깊이

문법 질문 수준인지, 알고리즘 설계·복잡도·테스트까지 가는지.

컨텍스트 제공

레포·파일·이전 결정 등 관련 컨텍스트를 충분히 제공하는가.

업무 임팩트

학습·취미인지, 업무 산출물·고객 가치에 직결되는지.

거버넌스·안전

민감정보 마스킹·정책 인지 등 안전하게 사용했는가 (높을수록 안전).

학계 지표 8
Helpfulness

사용자가 AI를 도움이 되게 이끌었는가 (명료한 요청으로 충분한 도움을 받음).

Harmlessness

유해·정책 위반 요청이 없는가 (높을수록 안전).

Honesty / Faithfulness

근거 기반·불확실성 표현이 있는가, hallucination 유발이 없는가.

Calibration

확신/불확실성을 적절히 다루는가 (과신 회피).

Instruction Following

제약·형식 지시를 명확히 주고 준수를 이끌었는가.

Reasoning Quality

단계적·검증 가능한 추론을 유도하는가.

Factuality / Grounding

사실 검증·출처 인용을 요구·활용하는가.

Dialog Coherence

다중턴 일관성·맥락 유지·메모리 활용.

직접 평가해 보세요

Claude Team/Enterprise export를 업로드하면 16개 지표로 채점하고 개인별 개선 계획까지 생성합니다. 비로그인으로도 가명처리된 샘플을 둘러볼 수 있습니다.

데모 콘솔 열기