TokenLens
LLM-as-a-Judge 기반 AI 사용 평가·코칭 콘솔. Claude Team/Enterprise export를 16개 지표(현업 8 + 학계 8)로 채점하고 사용자별 개선 계획을 생성합니다.
핵심 기능
평가 디멘션
각 지표는 6단계(0~5) 앵커 루브릭으로 채점되며, 점수의 근거가 되는 논문·산업 표준을 함께 제시합니다.
역할·맥락·제약·출력형식을 얼마나 명시했는가. 한 줄 질문은 0, 정교한 컨텍스트 설계는 5.
복잡한 요청을 하위 작업으로 분해하고 중간 검증·통합을 하는가.
tool use / 멀티스텝 에이전트 / 에러 복구 등 고급 활용 정도.
응답을 받고 피드백·반례·수정 요청으로 결과를 정제하는가.
문법 질문 수준인지, 알고리즘 설계·복잡도·테스트까지 가는지.
레포·파일·이전 결정 등 관련 컨텍스트를 충분히 제공하는가.
학습·취미인지, 업무 산출물·고객 가치에 직결되는지.
민감정보 마스킹·정책 인지 등 안전하게 사용했는가 (높을수록 안전).
사용자가 AI를 도움이 되게 이끌었는가 (명료한 요청으로 충분한 도움을 받음).
유해·정책 위반 요청이 없는가 (높을수록 안전).
근거 기반·불확실성 표현이 있는가, hallucination 유발이 없는가.
확신/불확실성을 적절히 다루는가 (과신 회피).
제약·형식 지시를 명확히 주고 준수를 이끌었는가.
단계적·검증 가능한 추론을 유도하는가.
사실 검증·출처 인용을 요구·활용하는가.
다중턴 일관성·맥락 유지·메모리 활용.
직접 평가해 보세요
Claude Team/Enterprise export를 업로드하면 16개 지표로 채점하고 개인별 개선 계획까지 생성합니다. 비로그인으로도 가명처리된 샘플을 둘러볼 수 있습니다.